AI+Web3:分散型インセンティブのデータ、コンピューティングパワー、オープンソースモデル市場への応用を探る

AI+Web3: タワーとプラザ

TL; 博士

  1. AIコンセプトのWeb3プロジェクトが一時および二次市場で資金を引き寄せる対象となる。

  2. Web3におけるAI業界の機会は、分散型インセンティブを利用して長尾の潜在供給を調整し、データ、ストレージ、計算に関与することにあります。また、オープンソースモデルとAIエージェントの分散型市場を構築することも含まれます。

  3. AIはWeb3業界で主にオンチェーン金融(暗号支払い、取引、データ分析)および開発支援に利用されています。

  4. AI+Web3の有用性は、両者の補完に現れます:Web3はAIの集中化に対抗することが期待され、AIはWeb3が境界を越えるのを助けることが期待されています。

! AI+Web3: タワー&プラザ

はじめに

ここ2年、AIの発展は加速ボタンが押されたかのようです。Chatgptが引き起こしたこの波は、生成型人工知能の新しい世界を開くだけでなく、Web3分野でも大きな波を引き起こしました。

AIの概念の支援により、暗号市場の資金調達が明らかに活気づいています。統計によると、2024年上半期には64のWeb3+AIプロジェクトが資金調達を完了し、人工知能に基づくオペレーティングシステムZyber365はAラウンドで1億ドルの最高資金調達額を達成しました。

二次市場はさらに繁栄しています。暗号化集約サイトCoingeckoのデータによると、わずか1年余りの間に、AI分野の総市場価値は485億ドルに達し、24時間の取引量は860億ドルに近づいています。主流のAI技術の進展による恩恵は明らかで、OpenAIのSoraテキストから動画へのモデルが発表された後、AIセクターの平均価格は151%上昇しました。AI効果は、暗号通貨の資金調達セクターの一つであるMemeにも波及しています:最初のAIエージェントコンセプトのMemeCoin——GOATは急速に人気を博し、14億ドルの評価を得て、AI Memeブームを成功裏に巻き起こしました。

AI+Web3に関する研究や話題も同様に熱を帯びており、AI+DepinからAIメモコイン、そして現在のAIエージェントやAI DAOに至るまで、FOMOの感情は新しいストーリーの入れ替わりの速度に追いついていない。

AI+Web3という熱い資金、トレンド、未来の幻想に満ちた用語の組み合わせは、資本によって結び付けられたお見合い結婚のように見られがちです。この華やかな外見の下で、果たして投機家の舞台なのか、それとも夜明けの爆発の前夜なのかを見分けるのは難しいようです。

この質問に答えるために、双方にとって重要な考察は次のとおりです:相手がいることでより良くなるでしょうか?相手のモデルから利益を得ることはできるでしょうか?本稿では、先人の肩の上に立ってこの構図を考察します:Web3がAI技術スタックの各段階でどのように機能するのか、AIはWeb3にどのような新たな活力をもたらすのか?

Part.1 AIスタックの下でWeb3にはどのような機会があるのか?

このトピックを展開する前に、AI大規模モデルの技術スタックを理解する必要があります:

平易な言葉で全体のプロセスを表現すると、"大モデル"は人間の脳のようなもので、初期段階は生まれたばかりの赤ちゃんのように、世界を理解するために大量の外部情報を観察する必要があります。これがデータの"収集"段階です。コンピュータは人間の多感覚を持たないため、トレーニング前に外部の大規模な無標識情報は"前処理"を通じてコンピュータが理解できる利用可能な情報フォーマットに変換される必要があります。

データを入力すると、AIは「トレーニング」を通じて理解と予測能力を持つモデルを構築します。これは赤ちゃんが外界を徐々に理解し学ぶプロセスと見ることができます。モデルのパラメータは、赤ちゃんの学習過程で調整されていく言語能力のようなものです。学習内容は科目ごとに分かれ、または人との交流を通じてフィードバックを得て修正されると、大モデルの「ファインチューニング」段階に入ります。

子供が成長して話せるようになると、新しい対話の中で意味を理解し、感情や考えを表現できるようになります。この段階はAIの大規模モデルの「推論」に似ており、モデルは新しい言語テキストの入力に対して予測分析を行うことができます。赤ちゃんは言語能力を通じて感情を表現し、物体を描写し、問題を解決します。これはAIの大規模モデルがトレーニングを終えた後、推論段階でさまざまな特定のタスクに適用されることに似ています。例えば、画像分類や音声認識などです。

AIエージェントは、次の大規模モデルの形態に近づいており、独立してタスクを実行し、複雑な目標を追求することができるだけでなく、思考能力を持ち、記憶し、計画し、ツールを利用して世界と相互作用することができます。

現在、AIの各スタックの痛点に対して、Web3は初歩的に多層的で相互接続されたエコシステムを形成しており、AIモデルのプロセスの各段階をカバーしています。

! AI+Web3:タワー&スクエア

1. 基本レイヤー: Airbnb (計算能力とデータ)

ハッシュレート

現在、AIの最高コストの一つは、モデルのトレーニングと推論に必要な計算力とエネルギーです。

例えば、MetaのLLAMA3はトレーニングを完了するのに16000個のNVIDIA製H100GPU(AIと高性能計算ワークロードのために設計された最高のグラフィック処理ユニット)が30日間必要です。後者の80GBバージョンの単価は30,000ドルから40,000ドルの間で、これには4億から7億ドルの計算ハードウェア投資(GPU+ネットワークチップ)が必要であり、同時に毎月のトレーニングには16億キロワット時を消費し、エネルギー支出は毎月約2000万ドルになります。

AIの計算能力の解放は、Web3がAIと交差する最初の領域でもあります——DePin(分散型物理インフラネットワーク)。現在、DePin Ninjaデータサイトには1400以上のプロジェクトがリストアップされており、その中にはGPU計算能力共有を代表するプロジェクトとしてio.net、Aethir、Akash、Render Networkなどがあります。

その主な論理は、プラットフォームが余剰のGPUリソースを持つ個人または実体が、許可なしで分散型の方法で計算能力を提供できることを許可することにあります。UberやAirbnbのような売買双方のオンライン市場を通じて、未利用のGPUリソースの使用率を高め、エンドユーザーはその結果、より低コストで効率的な計算リソースを得ることができます。同時に、ステーキングメカニズムは、リソース提供者が品質管理メカニズムに違反したりネットワークを中断した場合に相応の罰則があることを保証します。

その特徴は:

  • 余剰GPUリソースの集約:供給者は主に第三者の独立した中小型データセンターや暗号マイニングファームなどのオペレーターによる過剰な計算資源であり、コンセンサスメカニズムはPoSのマイニングハードウェアです。FileCoinやETHマイニングマシンなどがあります。現在、exolabがMacBook、iPhone、iPadなどのローカルデバイスを利用して、大規模モデル推論の計算ネットワークを構築するための、より低い参入障壁のあるデバイスを立ち上げるプロジェクトもあります。

  • AI計算力のロングテール市場に直面して:

a. "技術的な観点から見ると"、分散型コンピューティング市場は推論ステップにより適しています。トレーニングは超大規模なクラスターのGPUによるデータ処理能力に依存していますが、推論はGPUの計算性能に対する要求が相対的に低く、Aethirは低遅延のレンダリング作業とAI推論アプリケーションに重点を置いています。

b. "需要側として"中小規模の計算能力を持つ需要者は、自分自身の大規模モデルを単独で訓練することはなく、少数の主要な大規模モデルを中心に最適化や微調整を行うことを選択します。これらのシーンは、分散された余剰計算能力リソースに自然に適しています。

  • 分散型所有権:ブロックチェーンの技術的意義は、リソースの所有者が常にリソースに対するコントロールを保持し、需要に応じて柔軟に調整し、同時に利益を得ることができる点です。

データ

データはAIの基盤です。データがなければ、計算は浮草のように無意味になります。データとモデルの関係は「Garbage in, Garbage out」という言葉のようなもので、データの量と入力の質が最終的なモデルの出力の質を決定します。現在のAIモデルの訓練において、データはモデルの言語能力、理解能力、さらには価値観や人間らしい表現を決定します。現在、AIのデータ需要の困難は主に以下の四つの側面に焦点を当てています:

  • データの渇望:AIモデルのトレーニングは大量のデータ入力に依存しています。公開された資料によると、OpenAIはGPT-4のトレーニングに万億レベルのパラメータを使用しています。

  • データ品質:AIと各業界の統合が進む中で、データのタイムリーさ、多様性、垂直データの専門性、ソーシャルメディアの感情などの新たなデータソースの取り込みがその品質に新たな要求を突きつけています。

  • プライバシーとコンプライアンスの問題:現在、各国や企業は高品質なデータセットの重要性に徐々に気づいており、データセットのスクレイピングに制限を加えています。

  • データ処理コストが高額:データ量が多く、処理プロセスが複雑です。公開された資料によると、AI企業の30%以上の研究開発コストは基礎データの収集と処理に使用されています。

現在、web3のソリューションは以下の4つの側面に現れています:

  1. データ収集:無料で収集できるリアルワールドデータは急速に尽きつつあり、AI企業のデータへの支出は年々増加しています。しかし、この支出はデータの実際の貢献者には還元されておらず、プラットフォームはデータによる価値創造を完全に享受しています。たとえば、RedditはAI企業とのデータライセンス契約を通じて合計2億300万ドルの収益を上げています。

真の貢献をするユーザーが、データによる価値創造に参加できるようにし、分散型ネットワークとインセンティブメカニズムを通じて、低コストでよりプライベートで価値のあるデータを取得することがWeb3のビジョンです。

  • Grassは分散型のデータ層とネットワークで、ユーザーはGrassノードを運営することで、余剰帯域幅と中継トラフィックを提供し、インターネット全体のリアルタイムデータをキャッチし、トークン報酬を得ることができます。

  • Vanaは独自のデータ流動性プール(DLP)コンセプトを導入しました。ユーザーは、プライベートデータ(購買履歴、ブラウジング習慣、ソーシャルメディア活動など)を特定のDLPにアップロードし、これらのデータを特定の第三者に使用を許可するかどうかを柔軟に選択できます。

  • PublicAIでは、ユーザーはX上で#AI或#Web3をカテゴリラベルとして使用し、@PublicAIをすることでデータ収集を実現できます。

  1. データ前処理:AIのデータ処理プロセスでは、収集されたデータが通常雑音を含み、エラーがあるため、モデルを訓練する前にデータをクリーンアップし、使用可能なフォーマットに変換する必要があります。これには、標準化、フィルタリング、欠損値の処理などの繰り返しのタスクが含まれます。この段階はAI業界の数少ない手作業の部分であり、データアノテーション専門家という職業が生まれました。モデルのデータ品質に対する要求が高まるにつれて、データアノテーション専門家のハードルも上がっています。このタスクはWeb3の分散型インセンティブメカニズムに自然に適しています。
  • 現在、GrassとOpenLayerはデータラベリングという重要なプロセスへの参加を検討しています。

  • Synesisは「Train2earn」コンセプトを提唱し、データの質を強調し、ユーザーはラベル付けされたデータ、注釈、またはその他の形の入力を提供することで報酬を得ることができます。

  • データラベリングプロジェクトSapienは、ラベル付けタスクをゲーム化し、ユーザーがポイントをステークしてより多くのポイントを獲得できるようにします。

  1. データプライバシーとセキュリティ:明確にする必要があるのは、データプライバシーとセキュリティは2つの異なる概念であるということです。データプライバシーは敏感なデータの取り扱いに関わり、データセキュリティはデータ情報を不正アクセス、破壊、盗難から保護します。したがって、Web3プライバシー技術の利点と潜在的な応用シーンは2つの側面に現れます:(1)敏感データのトレーニング;(2)データコラボレーション:複数のデータ所有者がその原本データを共有することなくAIトレーニングに共同で参加できます。

現在のWeb3で一般的なプライバシー技術には、

  • 信頼された実行環境(TEE) (Super Protocol など)。

  • BasedAI、Fhenix.io、Inco Networkなどの完全準同型暗号化(FHE)。

  • ゼロ知識技術(zk)、例えばReclaim ProtocolはzkTLS技術を使用してHTTPSトラフィックのゼロ知識証明を生成し、ユーザーが外部サイトから活動、評判、身分データを安全にインポートできるようにし、敏感な情報を露出させることなく行います。

しかし、現在この分野はまだ初期段階にあり、ほとんどのプロジェクトはまだ探索中であり、現在の課題は計算コストが高すぎることです。例えば:

  • zkMLフレームワークEZKLは、1M-nanoGPTモデルの証明を生成するのに約80分かかります。

  • Modulus Labsのデータによると、zkMLのコストは純粋な計算の1000倍以上です。

  1. データストレージ:データが揃ったら、チェーン上でデータを保存する場所と、そのデータを使用して生成されたLLMが必要です。データの可用性(DA)を中心にした問題で、イーサリアムのダンクシャーディングのアップグレード前は、そのスループットは0.08MBでした。同時に、AIモデルのトレーニングとリアルタイム推論には通常、毎秒50から100GBのデータスループットが必要です。このオーダーのギャップにより、既存のチェーン上のソリューションは「リソース集約型AIアプリケーション」に対して力不足です。
  • 0g.AIはこのカテゴリの代表的なプロジェクトです。AIの高性能なニーズに対応するために設計された中央集権的なストレージソリューションで、主な特長には、高性能と拡張性、先進的なシャーディング(Sharding)および誤り訂正符号(Erasure Coding)技術を通じて、大規模データセットの迅速なアップロードとダウンロードをサポートし、データ転送速度は毎秒約5GBに達します。

二、ミドルウェア:モデルの訓練と推論

オープンソースモデルの分散型マーケット

AIモデルのクローズドソースとオープンソースに関する議論は決して消えたことがありません。オープンソースがもたらす集団的な革新は、クローズドモデルには比類のない利点ですが、収益モデルが全くない前提で、オープンソースモデルはどのように開発者のモチベーションを高めるのでしょうか?これは考慮に値します。

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • 6
  • 共有
コメント
0/400
NeverVoteOnDAOvip
· 17時間前
またこれらの概念で人を欺く
原文表示返信0
PanicSeller69vip
· 17時間前
巻き込まれた 本当に乗り遅れそう
原文表示返信0
OnChainDetectivevip
· 17時間前
半晩データを見つめて、取引モードもAIが事前に設定したものです。
原文表示返信0
SybilSlayervip
· 17時間前
愛暗号化も愛して、ほんとうに香ばしい
原文表示返信0
ThatsNotARugPullvip
· 17時間前
また人をカモにしたいが、初心者にはなりたくないweb3の老韭菜
原文表示返信0
BearMarketBarbervip
· 17時間前
また一波の初心者をカモにする機械
原文表示返信0
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)