データはAIの基盤です。データがなければ、計算は浮草のように無意味であり、データとモデルの関係は「Garbage in, Garbage out」という言い回しのようです。データの量と入力の質が最終的なモデルの出力の質を決定します。現在のAIモデルのトレーニングにおいて、データはモデルの言語能力、理解能力、さらには価値観や人間らしさを決定します。現在、AIのデータ需要の困難は主に以下の四つの側面に集中しています:
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AIとWeb3の融合:分散型AIインフラストラクチャを構築する新しい機会
AI+Web3: タワーとプラザ
TL; 博士
AI概念のWeb3プロジェクトが一時および二次市場で資金を引き寄せるターゲットとなっている。
Web3のAI業界における機会は、分散型インセンティブを使用してロングテールの潜在的な供給を調整することにあります——データ、ストレージ、計算の横断的なものであり、同時にオープンソースモデルとAIエージェントの分散型マーケットを構築することです。
AIはWeb3業界で主にオンチェーン金融(暗号支払い、取引、データ分析)および開発の補助に使用されます。
AI+Web3の有用性は両者の補完に現れます:Web3はAIの集中化に対抗することが期待され、AIはWeb3の境界を越えるのを助けることが期待されています。
! AI+Web3: タワー&プラザ
はじめに
ここ2年、AIの発展は加速ボタンが押されたかのようです。Chatgptによって引き起こされた波は、生成的人工知能の新しい世界を開くだけでなく、Web3分野にも大きな潮流を生み出しました。
AIの概念の後押しにより、暗号市場の資金調達が明らかに活性化しています。2024年上半期だけで、64のWeb3+AIプロジェクトが資金調達を完了し、その中で人工知能に基づくオペレーティングシステムZyber365がAラウンドで1億ドルの最高資金調達を実現しました。
二次市場はより繁栄しており、暗号集約サイトCoingeckoのデータによれば、わずか1年余りの間にAI分野の総市場価値は485億ドルに達し、24時間の取引量は860億ドルに近づいています。主流のAI技術の進展による恩恵は明らかであり、OpenAIのSoraテキストからビデオへのモデルが発表された後、AIセクターの平均価格は151%上昇しました。AI効果は同様に暗号通貨の資金吸収セクターの1つであるMemeにも波及しています:最初のAIエージェントコンセプトのMemeCoin——GOATが急速に人気を博し、14億ドルの評価額を獲得し、AI Memeブームを成功裏に巻き起こしました。
AI+Web3に関する研究や話題も同様に熱を帯びており、AI+DepinからAI Memecoin、さらには現在のAIエージェントやAI DAOに至るまで、FOMOの感情は新しい物語の回転速度についていけなくなっています。
AI+Web3という、熱い資金、トレンド、未来の幻想に満ちた用語の組み合わせは、資本によって結びつけられたお見合い結婚と見なされがちで、私たちはこの華やかなローブの下に、果たして投機家の舞台なのか、黎明の爆発の前夜なのかを見分けるのが難しいようです。
この質問に答えるために、双方にとって重要な考え方は、相手がいることでより良くなるのか?相手のモデルから利益を得ることができるのか?この記事では、先人の肩に立ってこの構図を考察しようとしています:Web3はAI技術スタックの各段階でどのように機能できるのか、AIはWeb3にどのような新しい活力をもたらすのか?
Part.1 AIスタック下のWeb3にはどのような機会があるか?
このトピックを展開する前に、AI大規模モデルの技術スタックを理解する必要があります。
より一般的な言葉で全体のプロセスを説明すると、「大モデル」は人間の脳のようなもので、初期段階ではこの脳は生まれたばかりの赤ちゃんに属しています。この赤ちゃんはこの世界を理解するために周囲の膨大な情報を観察し、取り込む必要があります。これがデータの「収集」段階です。コンピュータには人間の視覚や聴覚などの感覚がないため、訓練の前に外部の大規模な未ラベル情報は「前処理」を通じて、コンピュータが理解できて使用可能な情報フォーマットに変換される必要があります。
データを入力すると、AIは「トレーニング」により理解と予測能力を持つモデルを構築します。これは、赤ちゃんが徐々に外界を理解し学ぶプロセスと見ることができます。モデルのパラメータは、赤ちゃんが学ぶ過程で絶えず調整される言語能力のようなものです。学習内容が分野ごとに分かれたり、人との交流を通じてフィードバックを受けて修正が行われたりすると、大規模モデルの「ファインチューニング」段階に入ります。
子供は徐々に成長し、話すことを学ぶと、新しい対話の中で意味を理解し、自分の感情や考えを表現できるようになります。この段階はAI大モデルの「推論」に似ており、モデルは新しい言語やテキスト入力に対して予測と分析を行うことができます。赤ちゃんは言語能力を通じて感情を表現し、物体を描写し、さまざまな問題を解決します。これは、AI大モデルが訓練を完了し、使用開始後に推論段階で特定のタスク(たとえば、画像分類、音声認識など)に適用されることにも似ています。
AIエージェントは、独立してタスクを実行し、複雑な目標を追求できる大規模モデルの次の形態に近づいています。思考能力だけでなく、記憶、計画を持ち、道具を使って世界と対話することができます。
現在、AIのさまざまなスタックにおける痛点に対処するために、Web3は現在、AIモデルプロセスの各段階を網羅した多層的で相互接続されたエコシステムを初歩的に形成しています。
! AI+Web3:タワー&スクエア
1. 基本レイヤー: Airbnb (計算能力とデータ)
ハッシュレート
現在、AIの最高コストの一つは、モデルのトレーニングと推論に必要な計算能力とエネルギーです。
一例として、ある大手テクノロジー企業の大規模言語モデルが、ある有名なチップメーカーが製造した高性能GPU 16,000台を使用して、トレーニングを完了するのに30日かかる必要があります。後者の80GBバージョンの単価は30,000ドルから40,000ドルの間で、計算ハードウェア投資(GPU + ネットワークチップ)には4億から7億ドルが必要です。同時に、毎月のトレーニングには16億キロワット時のエネルギーが消費され、エネルギー支出は毎月約2000万ドルに達します。
AIの計算能力の解放は、Web3が最初にAIと交差する分野であるDePin(分散型物理インフラネットワーク)に他なりません。現在、DePin Ninjaデータサイトには1400以上のプロジェクトが展示されており、その中にはGPU計算能力の共有を代表するプロジェクトとしてio.net、Aethir、Akash、Render Networkなどが含まれています。
その主要な論理は、プラットフォームが許可なしに分散化された方法で、余剰のGPUリソースを持つ個人または実体が計算能力を提供することを許可することにあります。これは、共有経済プラットフォームのバイヤーとサプライヤーのオンライン市場のように、未利用のGPUリソースの使用率を向上させ、最終ユーザーはより低コストで効率的な計算リソースを得ることができます。同時に、ステーキングメカニズムは、品質管理メカニズムの違反やネットワークの中断が発生した場合に、リソース提供者に相応の罰則があることを保証します。
その特徴は次のとおりです:
余剰GPUリソースの集約:供給者は主に第三者の独立した中小型データセンターや暗号マイニングファームなどのオペレーターの過剰な計算能力リソースであり、コンセンサスメカニズムはPoSのマイニングハードウェア、例えばFileCoinやETHマイナーです。現在、exolabがMacBook、iPhone、iPadなどのローカルデバイスを利用して大規模モデル推論の計算ネットワークを構築することを目指すプロジェクトもあります。
AI計算能力のロングテール市場に直面して:
a.「技術面から見ると」分散型コンピューティング市場は推論ステップにより適しています。トレーニングは超大規模なGPU集群によるデータ処理能力に依存しますが、推論はGPUの計算性能に対する依存度が比較的低く、Aethirは低遅延のレンダリング作業とAI推論アプリケーションに特化しています。
b.「需要側から見ると」中小の計算能力を必要とする者は、自分の大規模モデルを単独で訓練することはなく、少数の主要な大規模モデルを中心に最適化や微調整を行うことを選択する。このようなシナリオは、分散型の未使用計算リソースに自然に適している。
データ
データはAIの基盤です。データがなければ、計算は浮草のように無意味であり、データとモデルの関係は「Garbage in, Garbage out」という言い回しのようです。データの量と入力の質が最終的なモデルの出力の質を決定します。現在のAIモデルのトレーニングにおいて、データはモデルの言語能力、理解能力、さらには価値観や人間らしさを決定します。現在、AIのデータ需要の困難は主に以下の四つの側面に集中しています:
データの渇望:AIモデルのトレーニングは大量のデータ入力に依存しています。公開された資料によると、ある有名なAI企業はその大規模言語モデルのパラメータ数が兆レベルに達していることがわかりました。
データ品質:AIと各業界の結合に伴い、データの時効性、データの多様性、垂直データの専門性、ソーシャルメディアの感情などの新興データソースの取り込みがその品質に新たな要求をもたらしています。
プライバシーとコンプライアンスの問題:現在、各国や企業は高品質なデータセットの重要性に徐々に気づいており、データセットのスクレイピングに制限を設けています。
データ処理コストが高い:データ量が多く、処理過程が複雑です。公開された資料によると、AI企業の30%以上の研究開発コストは基礎データの収集と処理に使用されています。
現在、Web3のソリューションは以下の4つの側面に現れています:
真の貢献をするユーザーがデータにもたらす価値創造に参加し、分散型ネットワークとインセンティブメカニズムを通じて、低コストでよりプライベートで価値のあるデータを取得することがWeb3のビジョンです。
Grassは、ユーザーがGrassノードを実行することで、未使用の帯域幅とリレーされたトラフィックを提供し、インターネット全体のリアルタイムデータをキャッチし、トークン報酬を得ることができる分散型データ層とネットワークです。
Vanaは独自のデータ流動性プール(DLP)概念を導入しており、ユーザーは自分のプライベートデータ(例えば、購買履歴、ブラウジング習慣、ソーシャルメディア活動など)を特定のDLPにアップロードし、これらのデータを特定の第三者に使用することを許可するかどうかを柔軟に選択できます。
PublicAIでは、ユーザーは特定のソーシャルプラットフォーム上で#AI或#Web3をカテゴリータグとして使用し、@PublicAIを付けることでデータ収集を実現できます。
現在、GrassとOpenLayerはデータラベリングという重要なプロセスに参加することを検討しています。
Synesisは「Train2earn」の概念を提唱し、データの質を強調しています。ユーザーは、アノテーションデータ、コメント、またはその他の形式の入力を提供することで報酬を得ることができます。
データラベリングプロジェクトSapienは、ラベル付けタスクをゲーム化し、ユーザーがポイントをステーキングしてさらに多くのポイントを獲得できるようにします。
現在のWeb3で一般的なプライバシー技術には以下が含まれます:
信頼された実行環境(TEE) (Super Protocol など)。
BasedAI、Fhenix.io、Inco Networkなどの完全準同型暗号化(FHE)。
ゼロ知識技術(zk)、例えばReclaim ProtocolはzkTLS技術を使用して、HTTPSトラフィックのゼロ知識証明を生成し、ユーザーが外部サイトから活動、評判、そしてアイデンティティデータを安全にインポートできるようにし、機密情報を露出することなく行います。
しかし、現時点ではこの分野はまだ初期段階にあり、大部分のプロジェクトはまだ探求中です。現在の一つの困難は計算コストが高すぎることであり、いくつかの例は次の通りです:
zkMLフレームワークEZKLは、約80分で1M-nanoGPTモデルの証明を生成する必要があります。
Modulus Labsのデータによると、zkMLのオーバーヘッドは純粋な計算の1,000倍以上です。