Can Xu 氏は、Microsoft Asia Internet Engineering Academy の S+D NLP グループのシニア アプリケーション サイエンティストであり、以前は Microsoft Xiaobing Research Group および Microsoft Asia Research Institute でチャット ロボット システムの開発に携わっていました。
Qingfeng Sun、Microsoft Research の科学者。研究の方向性は自然言語処理と情報検索で、効率的な検索システムの構築に熟達しており、Microsoft Bing と Office 365 にコアディープモデルを提供しました。
Kai Zheng 氏、Microsoft Research の科学者。研究の方向性は自然言語処理、検索、推奨ランキングであり、Microsoft Bing と Office 365 のコアディープモデルにも貢献しました。
責任著者は Jiang Daxin で、Microsoft のグローバル パートナー兼副社長であり、Microsoft Research Asia の元チーフ サイエンティストです。彼は Microsoft で 16 年以上勤務しており、Microsoft の自然言語理解の責任者でした。 Bing 検索エンジンと Cortana インテリジェント アシスタント. 退職し、大規模モデル ビジネスの立ち上げに専念していることが明らかになりました。
数学能力はChatGPTを超え、70Bのオープンソース大型モデルが炎上:AIでAIを微調整、マイクロソフト全中華クラスがプロデュース
出典:「Qubit」(ID:QbitAI)、著者:Feng Se
AI が生成した命令を使用して大型アルパカ モデルを微調整すると、その数学的能力は ChatGPT を超えます—
Microsoft の最新のオープンソース モデル WizardMath が登場しました。
そして、主要なパラメータが後者の 3 つよりもはるかに少ない 700 億しかないという条件下です。
たとえば、次の 4 次多項式を解きます。
一部のネチズンは著者に次のように言いました。
AI 生成の命令で大規模モデルの機能を強化
OpenAI の大規模モデル (InstructGPT、GPT-4 など) は、実際の人間のユーザーによって生成されたオープンドメインの命令データを使用した微調整のおかげで、さまざまな複雑で多様なタスクを大きな成功を収めて実行できました。
ただし、この会社のように誰もがそのようなコマンド データセットにアクセスできるわけではありません。
1 つは、アノテーションのプロセス全体が非常に高価で時間がかかるためであり、もう 1 つは、人間が十分な割合の難しい指示を作成するのが難しいためです。
したがって、比較的低コストで大規模なオープンドメイン命令自動生成手法の開発が、現在の命令チューニング言語モデルの鍵となっています。
ここで、著者らはメソッドを Evol 命令 と名付けています。
これは、人間の代わりに AI を使用して、さまざまな難易度をカバーするオープンフィールドの指示を自動的に生成する新しい方法です。
具体的には、Evol 命令は 命令エボルバーと命令エリミネーターに分かれています。
その中で、命令エボルバーは、単純な命令をより複雑な命令にアップグレードしたり、深い進化 (青線) または広範な進化 (赤線) の 2 つのパスを通じて新しい命令を作成したりできます。
どちらを実装すべきでしょうか?ランダムに選ぶだけです。
制約を追加し、深め、具体化し、推論のステップを増やし、入力を複雑にします。
すべての指示はAIによって行われるため、場合によっては間違いが避けられません。したがって、命令エリミネーターは、失敗した命令をフィルタリングするために使用されます。
ここでは、「1+1=?」で始まり、上記の手順を経て最終的にかなりの数の新しい命令が自動的に生成されるメソッドの具体例を示します。
ここで、著者は Alpaca のトレーニング データ (人工的に作成された 175 個のシード命令のみによって生成された) を初期データ セットとして選択し、次に ChatGPT の API を使用して 4 つの進化サイクルを実行し、最終的に 250,000 個の命令を取得します。
Vicuna の 70k リアル ユーザー データ (ShareGPT) と公平に比較するために、著者は 250,000 件のデータから同量のサンプルを抽出し、LLaMA 7B モデルを学習させ、最終的に WizardLM を取得しました。 WizardLM は Vicuna よりも大幅に優れていました。
(Alpaca: LLaMa-7B に基づいてスタンフォードで微調整されたモデル、LLaMa-13B に基づいて微調整されたカリフォルニア大学バークレー校の Vicuna)
さらに、人間は、より複雑なテスト命令の下では ChatGPT よりも WizardLM の出力を好みます。これは、この方法が複雑な命令を処理する LLM の能力を大幅に向上できることを示唆しています。
これに基づいて、著者は Evol 命令を使用して数学分野に関連する多くの命令を生成し、その後、大型アルパカ モデルを微調整して WizardMath を取得しました。
その効果は冒頭に示したとおりであり、その数学的能力はGSM8kデータセット上で測定され、ChatGPT、Claude Instant 1、PaLM 2-540Bなどを含む多くの大型モデルを上回り、GPT-4、Claud1に次ぐ第5位にランクされています。 . 3 と 2.0、および 5,400 億のパラメータを持つ Flan-PaLM 2 以降。
類推すると、筆者もアルパカのコーディング機能に特化した WizardCoder を手に入れましたが、その効果はクロードやバードを超えています(詳細は記事末尾のアドレスをクリックしてください)。
チーム紹介
この記事の著者は9名で、全員中国人です。
1つの作品には3人のキャラクターが登場します。
Can Xu 氏は、Microsoft Asia Internet Engineering Academy の S+D NLP グループのシニア アプリケーション サイエンティストであり、以前は Microsoft Xiaobing Research Group および Microsoft Asia Research Institute でチャット ロボット システムの開発に携わっていました。
Qingfeng Sun、Microsoft Research の科学者。研究の方向性は自然言語処理と情報検索で、効率的な検索システムの構築に熟達しており、Microsoft Bing と Office 365 にコアディープモデルを提供しました。
Kai Zheng 氏、Microsoft Research の科学者。研究の方向性は自然言語処理、検索、推奨ランキングであり、Microsoft Bing と Office 365 のコアディープモデルにも貢献しました。
もう一人の著者、Jiazhan Feng は北京大学の学生で、この共著論文はマイクロソフトでのインターンシップ中に作成されました。
プロジェクトのホームページ:
用紙のアドレス: