マルチモーダル動画生成技術のブレークスルー、Web3 AIにはどんな機会があるのか?

中級7/9/2025, 10:18:15 AM
この記事では、マルチモーダル動画生成技術(ByteのEX-4D、Google Veoなど)のブレークスルーを分析し、クリエイターエコノミーとWeb3 AIへの深い影響について議論します。

AIローカリゼーションの「沈没」を除いて、最近のAI分野での最大の変化は、テキストベースの動画生成をサポートすることから、テキスト、画像、音声を組み合わせた完全統合された生成技術への技術的ブレークスルーに進化したマルチモーダル動画生成です。

ここに、誰もが体験できるいくつかの技術革新の例があります:

1) バイトダンスがEX-4Dフレームワークをオープンソース化:モノクロ動画が瞬時に自由視点の4Dコンテンツに変換され、ユーザー受け入れ率は70.7%です。これは、通常の動画に対して、AIが自動的に任意の角度からの視聴効果を生成できることを意味しており、以前は専門の3Dモデリングチームが必要でした。

2) Baidu「Hui Xiang」プラットフォーム:1つの画像から10秒の動画を生成し、「映画レベル」の品質を実現すると主張しています。しかし、これはマーケティングによる誇張かどうかは、8月のProバージョンのアップデートまで確認できません。

3) Google DeepMind Veo:4Kビデオと環境音の同期生成が可能です。主要な技術的ハイライトは、「同期」機能の実現であり、以前はビデオとオーディオの2つのシステムを接続していました。本当の意味でのセマンティックレベルのマッチングを実現するためには、複雑なシーンにおいて、ビデオ内の歩行動作と対応する足音の同期を解決するなど、重要な課題を克服する必要があります。

4) Douyin コンテンツV: 80億パラメータ、2.3秒で1080pビデオを生成、費用は3.67元/5秒。正直、このコスト管理はかなり良いですが、現在の生成品質を考慮すると、複雑なシーンに遭遇した場合にはまだ不足しています。

なぜこれらの事例が、映像品質、制作コスト、アプリケーションシナリオにおけるブレークスルーの観点から重要な価値と意義を持つと言われているのでしょうか?

1. 技術的価値の突破口に関しては、マルチモーダルビデオを生成する複雑さはしばしば指数関数的です。単一のフレーム画像は約10^6ピクセルで構成されており、ビデオは時間的一貫性を確保する必要があります(少なくとも100フレーム)、音声の同期(1秒あたり10^4サンプルポイント)を行うと同時に、3D空間の一貫性も考慮しなければなりません。

要約すると、技術的な複雑さは低くありません。元々は、すべてのタスクに正面から取り組む超大規模モデルでした。Soraがビデオ生成機能を実現するために、何万台ものH100を焼いたと言われています。今では、モジュール分解と大規模モデルの協力作業を通じて実現できます。例えば、ByteのEX-4Dは、実際に複雑なタスクを次のように分解します:深度推定モジュール、視点変換モジュール、時間的補間モジュール、レンダリング最適化モジュールなどです。各モジュールは1つのタスクに特化し、その後、メカニズムを通じて協調します。

2. コスト削減の観点から: 実際には、層状生成戦略を含む推論アーキテクチャ自体の最適化が関与しています。まず低解像度のスケルトンが生成され、その後高解像度のイメージコンテンツが強化されます。類似シーンの再利用であるキャッシング再利用メカニズム、そして特定のコンテンツの複雑さに基づいてモデルの深さを調整する動的リソース割り当ても含まれています。

この最適化のセットにより、Douyin ContentVの結果は5秒ごとに3.67元になります。

3. アプリケーションの影響に関して、従来のビデオ制作は資本集約型のゲームです:機材、会場、俳優、ポストプロダクション;30秒の広告が数十万かかるのは普通です。今、AIはこの全プロセスをプロンプトと数分の待機に圧縮し、従来の撮影では達成が難しい視点や特殊効果を実現できます。

これにより、ビデオ制作の元々の技術的および財務的障壁が創造性と美学に転換され、全体のクリエイター経済の再編成を促進する可能性があります。

質問が生じます。web2 AI技術の需要側の変化とweb3 AIとの関係は何ですか?

1. まず、コンピューティングパワーの需要構造の変化です。以前は、AIにおいて競争は規模に基づいており、より均一なGPUクラスターを持つ者が勝っていました。しかし、マルチモーダル動画生成の需要は、多様なコンピューティングパワーの組み合わせを必要とし、分散したアイドルコンピューティングパワーや、さまざまな分散ファインチューニングモデル、アルゴリズム、推論プラットフォームの必要性を生む可能性があります。

2. 次に、データラベリングの需要も強化されるでしょう。プロフェッショナルグレードのビデオを生成するには、正確なシーンの説明、参照画像、オーディオスタイル、カメラの動きの軌跡、照明条件などが必要であり、これらは新しいプロフェッショナルなデータラベリングの要件となります。Web3インセンティブ手法を使用することで、フォトグラファー、サウンドエンジニア、3Dアーティストなどがプロフェッショナルなデータ要素を提供することを奨励でき、専門的な垂直データラベリングでAIビデオ生成能力を向上させることができます。

3. 最後に、AIが中央集権的な大規模リソース配分からモジュール型協力へと徐々に移行する際、それ自体が分散型プラットフォームへの新たな需要を表すことを言及する価値があります。その時、計算能力、データ、モデル、インセンティブなどが共同で自己強化のフライホイールを形成し、これがウェブ3AIとウェブ2AIシナリオの統合を促進することになります。

声明:

  1. この記事は[から転載されています。tmel0211tmel0211]、著作権は原著作者に帰属します [tmel0211] 再印刷に異議がある場合は、お問い合わせくださいゲートラーニングチームチームは関連手続きを順守して、できるだけ早く処理します。
  2. 免責事項:この記事に表明された見解や意見は、著者のものであり、投資アドバイスを構成するものではありません。
  3. 記事の他の言語版は、特に記載がない限り、Gate Learnチームによって翻訳されています。ゲート翻訳された記事は、いかなる状況下でもコピー、配布、または盗用されてはならない。

株式

今すぐ始める
登録して、
$100
のボーナスを獲得しよう!