これはほんの始まりにすぎず、Baichuan Intelligent は Times Finance に対し、パラメータが 1,000 億を超える大規模モデルを含む、今後多くの製品がリリースされる予定であることを明らかにしました。
暗い出口もありました。 Meituan の共同創設者である Wang Huiwen によって設立され、Source Code Capital や Wuyuan Capital などの有名な VC 機関だけでなく、Meituan の創設者である Wang Xing やKuaishou. かつて市場で検討されていた国内大型モデル激戦区の有力プレイヤーの一つである。
長年にわたってハイパフォーマンス コンピューティングを研究してきた You Yang 氏は、Luchen Technology を設立しました。同社が現在立ち上げているオープンソースシステム「Colossal-AI」は、効率的な多次元並列処理や異種メモリなどの技術により、AIの大規模モデルのトレーニング、微調整、推論にかかる開発コストと適用コストを大幅に削減できる。
You Yang 氏は、大規模モデルのトレーニングのコストが急速に低下するか、より優れた最適化手法が採用されて約 200 億のパラメーターを制御し、それでも 1,000 億のパラメーターと同じ効果が得られる場合にのみ、大規模モデルが効果を発揮できると考えています。本当に栄えたあの日。
半年にわたる大型モデルの熾烈な戦い、テンセント・バイトは待ち遠しかった
出典: タイムズ・ファイナンス
著者: 謝思林
国産汎用大型モデルの混戦はまだ終わっていない。約半年の休眠期間を経て、ほとんどの選手が浮上した。
その中で誰かがイテレーションを加速させます。 Sogou Search の創設者、Wang Xiaochuan 氏によって設立された Baichuan Intelligent は 8 月 8 日、530 億のトレーニング パラメータを備えた 3 番目の大規模モデル製品 Baichuan-53B をリリースしました。この時、王暁川氏が大型模型戦場への参入を発表してからわずか4か月で、新興企業は急成長を遂げていた。
これはほんの始まりにすぎず、Baichuan Intelligent は Times Finance に対し、パラメータが 1,000 億を超える大規模モデルを含む、今後多くの製品がリリースされる予定であることを明らかにしました。
暗い出口もありました。 Meituan の共同創設者である Wang Huiwen によって設立され、Source Code Capital や Wuyuan Capital などの有名な VC 機関だけでなく、Meituan の創設者である Wang Xing やKuaishou. かつて市場で検討されていた国内大型モデル激戦区の有力プレイヤーの一つである。
しかし、王恵文氏が6月末に健康上の問題で辞任し、何光年も先まで責任を負い続けることができなくなったため、この期待されていた大規模新興企業は美団への身売りを余儀なくされ、投資家グループも出資を撤回した。株。
別の方法を見つけた人もいます。 AI 専門家の周明氏によって設立された Lanzhou Technology は軽量モデルを重視しており、B サイド シーンの問題を低コストで解決したいと考えています。 Google による BERT モデルのトレーニング時間を 3 日から 76 分に短縮するのに貢献した若い教授 You Yang は、Luchen Technology を設立し、大規模なモデルをトレーニングするための低コストのソリューションで突破口を目指しました。
対照的に、大手メーカーが開発した大型モデルは遅れて久しい。 Tencent が自社開発した Hunyuan 大型モデルと Byte の AI 対話製品 Grace の内部テストのニュースが発表されたのは 8 月初旬になってからであり、具体的な発売時期はまだ不明です。
まだテスト段階ですが、Kai-Fu Lee氏が設立したAI 2.0企業「01Wanwu」もあります。 7月3日に開催された外国為替会議で、李凱福氏は、同社が3か月以内に100億パラメータ規模のモデルの内部テストを達成し、現在300億から700億パラメータ規模まで拡張していることを明らかにした。 。ただし、この製品はまだ市場に投入されていません。
これら未発表の大型モデル製品がテクノロジー業界にどのような変化をもたらすのか、注目される。この観点からすると、この乱闘は長期化する可能性がある。
王暁春を攻撃
王暁川氏が設立した百川智能は、驚異的な製品リリーススピードで市場の注目を集めている。
最終的に大規模モデルを構築すると4月に発表してから、わずか2カ月と5日を経て6月15日に70億パラメータのオープンソース大規模モデルBaichuan-7Bをリリースした。 1 か月も経たないうちに、さらに 130 億パラメータのオープンソース大規模モデル Baichuan-13B がリリースされました。
8月8日にリリースされたBaichuan-53Bは、この大規模模型新興企業が半年以内にリリースした3番目の製品となり、Baichuan Intelligentは急速な進歩を遂げている。
Baichuan Intelligenceの担当者はTimes Financeの取材に対し、同社は設立前から事前準備に多くの時間を費やしており、最初からルートと方法を明確に考えていたと答えた。
大規模なモデルを作成する際には、データ、アルゴリズム、計算能力の 3 つのレベルが考慮されると指摘しました。コンピューティング能力に関係なく、検索会社は当然優れたデータ能力を持っています。Baichuan Intelligence のコア チームは 20 年間、データのキャプチャ、抽出、クリーニング、重複排除、スパム対策などの業務を行っており、これによりデータをより速く取得できます。高品質のデータセット。
アルゴリズムは自然言語処理を中心としており、アルゴリズム エンジニアリングが反復されており、単一のエンジニアリング問題ではなく、テキスト データによって駆動され、アルゴリズムとエンジニアリングが連携して機能します。ここでは、検索におけるこれまでの経験も役立ち、データ評価を使用してモデルの改善を推進します。
「長年蓄積された技術と経験により、Baichuan Intelligent は大規模なモデル製品を迅速かつ適切に製造できます。」
しかし、王暁春氏は記者会見で、現在の国産汎用大型モデルはまだ分類・再生産の段階にあるとも指摘した。基本的にどのメーカーもOpenAIに対してベンチマークを行っており、同質性の問題は避けられない。
このため、米国のクローズドソース大型モデルのヘッドパターンが固定されている状況とは異なり、「中国ではどこの大型モデルが最も優れているか」という結論は出ていないというのが同氏の見解である。 。この混戦ではお金も重要ですが、最終的に決断を下すのは人、チーム、組織です。大企業はより多くの資金、より多くの人員、より多くの計算能力を持っていますが、組織効率は必ずしも十分ではないことが多く、新興企業の組織効率は良い場合もあれば、悪い場合もあります。
「誰もがチャンスを求めて戦っており、必ずしも大規模工場に落ち込むとは限りません。」
王暁春氏はインタビューで王恵文氏の退団についても語った。中国の複数の主流大型モデルの中で、王恵文氏だけが高い技術的背景を持たず、彼に対する挑戦は他の企業よりも大きいと指摘した。この仕事では、誰を採用するか、どのような技術ロードマップを採用するか、どのくらいのコンピューティング リソースが必要かなど、多くの技術的な決定を下す必要があり、間違いなく大きな意思決定のプレッシャーに直面することになります。
「大規模なモデルを作るのがストレスというわけではありません。技術的な背景がなければ意思決定をするのに大きなプレッシャーがかかるということです。しかし、技術が十分であれば、実際にはとても楽しいものです。」
テンセント、バイトは待ち遠しかった
大規模モデルの乱戦が始まった当初、インターネット大手は、より多くのコンピューティング能力、人材、資金、データを持っていたため、強力な競争相手であると考えられていました。
Baidu が自社開発した Wenxin Yiyan は今年 3 月末に初めて公開され、Alibaba の Tongyi Qianwen がそれに続き、4 月 11 日に開催された Alibaba Cloud Summit で発表されました。アリが同義前文を釈放する前日、王暁川は引退を発表し、百川智能を設立したばかりだった。
対照的に、どちらも一流メーカーであるテンセントとバイトは、汎用の大型モデルの投入が大幅に遅れている。
8月3日、36krの報道によると、Tencentが自社開発した「Tencent Hunyuan Large Model」がアプリケーションの内部テスト段階に入ったという。 3日後の8月6日、ByteのAI対話製品Graceも公開され、2か月の研究開発を経て、ついにテスト段階に入った。
現時点で、Baidu が Wenxin Yiyan をリリースしてから 4 か月が経過しました。テンセントの汎用大型モデル製品の生産が遅い理由について、馬化騰氏はかつて「テンセントも研究開発に没頭しているが、それを早く終わらせて半完成品を披露することを急いでいない」と公に述べた。 」
しかし、「急いでいない」テンセントは今年6月中旬、率先して「ビッグインダストリーモデル」の路線を発表し、主要10業界向けに50以上のソリューションを一気に投入した。偶然にも、ByteDanceも6月に大規模モデルサービスプラットフォーム「Volcano Ark」をリリースしており、多くのAI技術企業や科学研究機関の大規模モデルを統合して企業にあらゆるプラットフォームサービスを提供している。
かつて市場では、大規模インダストリーモデルがこの2大メーカーの突破口になると信じられていた。
しかし、そうではないかもしれません。現在提唱されている大きな産業モデルに取って代わられるリスクは常に存在します。 HKUST Xunfei の総裁である呉暁如氏は、かつて Times Finance に対し、10 年前の音声認識技術には、通話、運転、事務作業などのさまざまなシナリオに焦点を当てた特別なモデルが多数存在していたと指摘しましたが、そのモデルも廃止されました。
「大型モデルも同じ段階を経ると思います。」
対照的に、長期的な観点から見ると、汎用の大規模モデルは、実際には大規模なプラットフォーム レベルまたは破壊的な機会を表しています。だからこそ、テンセントもバイトも見逃すわけにはいかず、たとえ進捗が遅かったとしても、存在することを主張しなければならない。
テンセントの内部関係者の一部はタイムズ・ファイナンスに対し、テンセントの計画は常に二本足で歩き、GMと業界は手を携えて歩むことであったと指摘した。ただ、一部の過激なメーカーと比較すると、ソーシャル、ゲーム、広告、コンテンツ制作などの分野を製品でカバーするテンセントの方が慎重だ。
学術起業家は別の道を見つける
大型模型の戦場では、大学や研究機関発のアカデミックベンチャー企業が第3の競争極を形成する。
彼らは王暁川や王恵文のようなシード選手ではないが、事業開始時にはコネを活かして数億ドルの投資を集め、これを利用して迅速に事業を開始することができる。また、コンピューティング能力、人材、資本において計り知れない優位性を持つテンセント、アリ、バイドゥのような大企業とは異なります。
しかし、これらの起業家は、人工知能テクノロジーに対する深い理解を頼りに、攻撃の下でも新たな発展の方向性を見つけることができます。
例えば、マイクロソフト アジア研究所の元副社長である周明氏が設立した蘭州科技は、数千億、場合によっては数兆のパラメータを追求する市販の大規模モデル製品とは異なります。中国の AI 専門家は、より軽量なモデルで B サイド シナリオの問題を解決したいと考えています。
かつて同社が立ち上げたMenciusの大規模モデルは、中国語理解のための信頼できる評価ベンチマークのCLUEリストを更新するために10億のパラメータを使用しました。以前は、100億レベルと1000億レベルのパラメータを持つモデルが主流でした。
これは現実的な決定です。データのセキュリティを確保するために、ほとんどの企業はデータをアップロードしませんが、ローカライズされた展開が必要となり、コストが大幅に増加します。メディアとのインタビューで、Zhou Ming 氏は、十分にトレーニングされた大規模モデルを使用して推論をローカルに展開するだけであっても、1,000 億個のパラメータを持つ大規模モデルには依然として 8 ~ 16 個の A100 が必要であると指摘しました。投資額は 200 万元、「多くのシナリオにおいて、顧客は安くて手頃な価格である必要があります。」
シンガポール国立大学の学長である若い教授 You Yang によって設立された Luchen Technology は、アルゴリズム テクノロジーを使用して大規模なモデルの呼び出しコストを削減したいと考えています。
昨今、大規模工場であろうと新興企業であろうと、国内大型モデルの均質化傾向がますます顕著になっているという問題に直面しなければなりません。この問題が解決されなければ、将来の大型モデルは、今日のクラウド サービス プロバイダーが直面している利益率の低い苦境に陥る可能性があります。
You Yang氏はタイムズ・ファイナンスに対し、これは基礎となる技術ベースの反復コストが高すぎるためだと語った。彼は GPT を例に挙げましたが、OpenAI のトレーニング コストは 1 回あたり 6,000 万ドルにもなり、3 ~ 4 か月ごとにトレーニングする必要があり、1 回の反復で 4 ~ 5 回のトレーニングが必要です。これに基づくと、技術基盤の各反復には 2 億から 3 億米ドルかかる可能性があります。
コストが高すぎると、市場での技術基盤が非常に不足します。基本的にGPT、LLAMA、国内GLMのみとなります。基本的にどのメーカーもこうした大型モデルを真似て製品を作っているため、同質性の問題がより顕著になっています。
長年にわたってハイパフォーマンス コンピューティングを研究してきた You Yang 氏は、Luchen Technology を設立しました。同社が現在立ち上げているオープンソースシステム「Colossal-AI」は、効率的な多次元並列処理や異種メモリなどの技術により、AIの大規模モデルのトレーニング、微調整、推論にかかる開発コストと適用コストを大幅に削減できる。
You Yang 氏は、大規模モデルのトレーニングのコストが急速に低下するか、より優れた最適化手法が採用されて約 200 億のパラメーターを制御し、それでも 1,000 億のパラメーターと同じ効果が得られる場合にのみ、大規模モデルが効果を発揮できると考えています。本当に栄えたあの日。