AI+Web3融合趨勢:算力數據去中心化成焦點

AI+Web3:塔樓與廣場

TL;DR

  1. AI概念的Web3項目在一二級市場成爲吸金標的。

  2. Web3在AI行業的機會體現在:使用分布式激勵來協調長尾中的潛在供應,跨數據、存儲和計算;同時,建立一個開源模型以及AI Agent的去中心化市場。

  3. AI在Web3行業主要用武之地爲鏈上金融(加密支付、交易、數據分析)以及輔助開發。

  4. AI+Web3的效用體現在兩者的互補:Web3有望對抗AI集中化,AI有望幫助Web3破圈。

AI+Web3:塔樓與廣場

引言

近兩年,AI的發展像被按了加速鍵,這場由Chatgpt煽動的蝴蝶效應,不僅打開了生成式人工智能的新世界,同樣在彼岸的Web3掀起了洋流之勢。

在AI概念的加持下,相較放緩的加密市場融資提振明顯。僅在2024上半年,就共有64個Web3+AI的項目完成了融資,基於人工智能的操作系統Zyber365在A輪就實現了1億美元的最高融資金額。

二級市場更爲繁榮,加密聚合網站的數據顯示,短短一年多時間,AI賽道總市值已達到485億美元,24小時交易量接近86億美元;主流AI技術進展帶來的利好明顯,OpenAI的Sora文本轉視頻模型發布後,AI板塊的平均價格上漲了151%;AI效應同樣輻射至加密貨幣吸金板塊之一Meme:首個AI Agent概念的MemeCoin------GOAT迅速走紅並斬獲14億美金的估值,成功掀起AI Meme熱。

關於AI+Web3的研究和話題同樣火熱,從AI+Depin到AI Memecoin再到當前的AI Agent和AI DAO,FOMO情緒已然跟不上新敘事輪換的速度。

AI+Web3,這個充滿了熱錢、風口和未來幻想的術語組合,難免被人視作一場被資本撮合的包辦婚姻,我們似乎很難分辨在這席華麗的袍子之下,到底是投機者的主場,還是黎明爆發的前夜?

要回答這個問題,一個對雙方都關鍵的思索是,有對方它會變得更好嗎?是否能從對方的模式中受益?在本篇文章裏,我們也試圖站在前人的肩膀上審視這一格局:Web3如何能夠在AI技術堆棧的各個環節裏發揮作用,AI又能給Web3帶來什麼新的生機?

Part.1 AI堆棧下Web3有何機會?

在展開這個話題之前,我們需要了解AI大模型的技術堆棧:

用更通俗的語言來表述整個過程:「大模型」就像是人類的大腦,在早期階段,這個大腦屬於剛剛降臨人間的嬰兒,需要觀察與攝入周圍的外界海量信息去理解這個世界,這就是數據的「收集」階段;由於計算機不具備人類的視覺聽覺等多個感官,在訓練前,外界的大規模無標注信息需要通過「預處理」轉化成計算機能夠理解且可用的信息格式。

輸入數據後AI通過「訓練」構建了一個具有理解和預測能力的模型,則可以看作是嬰兒逐漸理解與學習外界的過程,模型的參數就像是嬰兒學習過程中不斷調整的語言能力。當學習的內容開始分科,或者與人交流得到反饋並且修正,便進入了大模型的「微調」環節。

孩童逐漸長大學會說話後,就可以在新的對話中理解意思並表達自己的感受和想法,這階段類似於AI大模型的「推理」,模型能夠對新的語言和文本輸入進行預測和分析。嬰兒通過語言能力表達感受、描述物體和解決各種問題,這也類似於AI大模型在完成訓練投入使用後在推理階段應用於各類特定的任務,例如圖像分類、語音識別等。

而AI Agent則更趨近於大模型的下一個形態------能夠獨立執行任務並追求復雜目標,不僅具備思考能力,還能夠記憶、規劃,且能夠運用工具與世界互動。

當前,針對AI在各個堆棧的痛點,Web3目前初步形成了一個多層次、相互連接的生態系統,涵蓋了AI模型流程的各個階段。

AI+Web3:塔樓與廣場

一、基礎層:算力與數據的Airbnb

算力

當前,AI的最高成本之一,是訓練模型與推理模型所需的算力與能源。

一個例子是,Meta的LLAMA3需要16000個由NVIDIA生產的H100GPU(這是一款專爲人工智能和高性能計算工作負載設計的頂級圖形處理單元。)30天才能完成訓練。後者80GB版本的單價在30,000至40,000美元之間,這需要4-7億美元的計算硬件投資(GPU+網路芯片),同時,每月的訓練需要消耗16億千瓦時,能源支出每月近2000萬美元。

對於AI算力的解壓,也正是Web3最早與AI交叉的領域------DePin(去中心化物理基礎設施網路)目前,某數據網站已經陳列出1400多個項目,其中GPU算力共享代表項目包括io.net、Aethir、Akash、Render Network等等。

其主要邏輯在於:平台允許擁有閒置GPU資源的個人或實體以無需許可的去中心化方式貢獻其計算能力,通過類似於Uber或Airbnb的買家和賣家在線市場,提高未被充分利用的GPU資源使用率,終端用戶也因此獲得更加低成本的高效計算資源;同時,質押機制也確保如果出現違反質量控制機制或中斷網路的情況,資源提供者有其相應懲罰。

其特點在於:

  • 聚集閒置GPU資源:供應方主要爲第三方獨立的中小型數據中心、加密礦場等運營商的過剩算力資源、共識機制爲PoS的挖礦硬件,如FileCoin與ETH礦機。目前也有項目致力於啓動門檻更低的設備,如exolab利用MacBook、iPhone、iPad等本地設備建立運行大模型推理的算力網路。

  • 面對AI算力的長尾市場:

a.「於技術端而言」去中心化算力市場更適合推理步驟。訓練更加依賴於超大集羣規模GPU帶來的數據處理能力,而推理對於GPU運算性能相對較低,如Aethir專注於低延遲的渲染工作和AI推理應用。

b.「於需求端而言」中小算力需求方不會單獨訓練自己的大模型,而只是選擇圍繞少數頭部大模型進行優化、微調,而這些場景都天然適合分布式閒置算力資源。

  • 去中心化所有權:區塊鏈的技術意義在於資源所有者始終保留其對於資源的控制權,根據需求靈活調整,同時獲得收益。

數據

數據,是AI的地基。如果沒有數據,計算就如浮萍之末毫無用處,而數據與模型之間的關係就像"Garbage in, Garbage out"的那句俗諺,數據的數量與輸入質量決定着最終模型的輸出質量。對於現AI模型的訓練而言,數據決定了模型的語言能力、理解能力、甚至價值觀以及人性化表現。目前,AI的數據需求困境主要聚焦於以下四方面:

  • 數據飢渴:AI模型訓練依賴大量數據輸入。公開資料顯示,OpenAI訓練GPT-4的參數量就達到了萬億級別。

  • 數據質量:隨着AI與各行業的結合,數據時效性、數據多樣性、垂類數據的專業性、新興數據源如社交媒體情緒的攝入對其質量也提出了新的要求。

  • 隱私與合規問題:當前各個國家、企業逐漸注意到優質數據集的重要性,正在對數據集爬取進行限制。

  • 數據處理成本高昂:數據量大,處理過程復雜。公開資料顯示,AI公司超過30%的研發成本是用於基礎數據採集、處理。

目前,web3的解決方案體現在以下四個方面:

  1. 數據收集:能夠免費提供抓取的真實世界數據正在迅速耗盡,AI公司爲數據付費的支出逐年升高。但與此同時,這份支出並沒有反哺到數據真正的貢獻者身上,平台全然享受了數據帶來的價值創造,如某平台通過與AI公司籤訂的數據授權協議實現合計2.03億美元的收入。

讓真正貢獻的用戶同樣參與數據帶來的價值創造,以及通過分布式網路與激勵機制,以低成本的方式獲取用戶更加私人、更具價值的數據,是Web3的願景。

  • 如Grass是一個去中心化的數據層和網路,用戶可以通過運行Grass節點,貢獻閒置帶寬和中繼流量用以捕獲整個互聯網中的實時數據,並獲取代幣獎勵;

  • Vana則引入了一個獨特的數據流動性池(DLP)概念,用戶可以將他們的私人數據(如購物記錄、瀏覽習慣、社交媒體活動等)上傳至特定DLP,並靈活選擇是否將這些數據授權給特定的第三方使用;

  • 在PublicAI中,用戶可在X上使用#AI或#Web3作爲分類標籤並@PublicAI即可實現數據收集。

  1. 數據預處理:在AI的數據處理過程中,由於收集來的數據通常嘈雜且包含錯誤,其在訓練模型之前必須將其清理並轉換爲可用格式,涉及標準化、過濾和處理缺失值的重復任務。此階段是AI行業爲數不多的人工環節,已經衍生出數據標注師這一行業,隨着模型對數據質量的要求提高,數據標注師的門檻也隨之提升,而這一任務天然適合Web3的去中心化激勵機制。
  • 目前,Grass與OpenLayer都正在考慮加入數據標注這一關鍵環節。

  • Synesis提出了「Train2earn」的概念,強調數據質量,用戶可通過提供標注數據、注釋或其他形式的輸入獲得獎勵。

  • 數據標注項目Sapien則將標記任務遊戲化,並讓用戶質押積分以賺取更多積分。

  1. 數據隱私與安全:需要釐清的是,數據隱私與安全是兩個不同的概念。數據隱私涉及敏感數據的處理,數據安全則保護數據信息免遭未經授權的訪問、破壞和盜竊。由此,Web3隱私技術優勢和潛在的應用場景體現在兩個方面:(1)敏感數據的訓練;(2)數據協作:多個數據所有者可以共同參與AI訓練,而無需共享其原始數據。

當前Web3較爲普遍的隱私技術包括:

  • 可信執行環境(TEE),例如Super Protocol;

  • 完全同態加密(FHE),例如BasedAI 、Fhenix.io或Inco Network;

  • 零知識技術(zk),如Reclaim Protocol使用zkTLS技術,生成HTTPS流量的零知識證明,允許用戶從外部網站安全導入活動、聲譽和身分數據,而無需暴露敏感信息。

不過,目前該領域仍處於早期階段,大部分的項目仍在探索中,目前的一個困境是計算成本太高,一些例子是:

  • zkML框架EZKL需要大約80分鍾才能生成一個1M-nanoGPT模型的證明。

  • 根據Modulus Labs的數據,zkML的開銷比純計算高出1000倍以上。

  1. 數據存儲:有了數據之後,還需要一個地方來在鏈上存儲數據,以及使用該數據生成的LLM。以數據可用性(DA)爲核心問題,在以太坊danksharding升級之前,其吞吐量爲0.08MB。與此同時的是,AI模型的訓練和實時推理通常需要每秒50到100GB的數據吞吐量。這種數量級的差距,讓現有的鏈上解決方案在面對
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 7
  • 分享
留言
0/400
WhaleMistakervip
· 1小時前
去中心化大势所趋!看好未来布局
回復0
TokenomicsTinfoilHatvip
· 18小時前
卷到没边了属于是
回復0
数据酒保vip
· 18小時前
又来画大饼了
回復0
Sherlockervip
· 18小時前
麻了…都在炒概念
回復0
幻想矿工vip
· 18小時前
又来画饼了 谁收啊
回復0
LiquidatedTwicevip
· 18小時前
卧槽 这不就是模版炒作?
回復0
MetaverseMigrantvip
· 19小時前
又一波融钱的套路来了
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)