数学能力はChatGPTを超え、70Bのオープンソース大型モデルが炎上:AIでAIを微調整、マイクロソフト全中華クラスがプロデュース

出典:「Qubit」(ID:QbitAI)、著者:Feng Se

AI が生成した命令を使用して大型アルパカ モデルを微調整すると、その数学的能力は ChatGPT を超えます—

Microsoft の最新のオープンソース モデル WizardMath が登場しました。

下の図に示すように、GSM8k データセットでテストした後、WizardMath の数学的能力は、ChatGPT、Claude Instant 1、PaLM 2-540B などの多くの大規模モデルを直接打ち破りました。

そして、主要なパラメータが後者の 3 つよりもはるかに少ない 700 億しかないという条件下です。

HuggingFace は 3 つの オンラインプレイ可能なバージョン (それぞれパラメーター 7B、13B、および 70B) をリリースしており、さまざまな数学の問題を投げ込んで試すことができます。

たとえば、次の 4 次多項式を解きます。

または単純な計算:

または、わずかに修正されたラグランジュ方程式の導出:

すべて正しいです (プロセスはそれほど長く待つ必要はありません)。

一部のネチズンは著者に次のように言いました。

その効果は本当に素晴らしいです。オープンソース LLM への貢献に感謝します。

現在、関連するコード、複製方法、論文もオープンソースまたはオンラインで公開されており、GitHub はわずか数日で 4.8k スターを獲得しています。

では、WizardMath は具体的にどのようにそれを行うのでしょうか?

AI 生成の命令で大規模モデルの機能を強化

OpenAI の大規模モデル (InstructGPT、GPT-4 など) は、実際の人間のユーザーによって生成されたオープンドメインの命令データを使用した微調整のおかげで、さまざまな複雑で多様なタスクを大きな成功を収めて実行できました。

ただし、この会社のように誰もがそのようなコマンド データセットにアクセスできるわけではありません。

1 つは、アノテーションのプロセス全体が非常に高価で時間がかかるためであり、もう 1 つは、人間が十分な割合の難しい指示を作成するのが難しいためです。

したがって、比較的低コストで大規模なオープンドメイン命令自動生成手法の開発が、現在の命令チューニング言語モデルの鍵となっています。

ここで、著者らはメソッドを Evol 命令 と名付けています。

これは、人間の代わりに AI を使用して、さまざまな難易度をカバーするオープンフィールドの指示を自動的に生成する新しい方法です。

具体的には、Evol 命令は 命令エボルバーと命令エリミネーターに分かれています。

その中で、命令エボルバーは、単純な命令をより複雑な命令にアップグレードしたり、深い進化 (青線) または広範な進化 (赤線) の 2 つのパスを通じて新しい命令を作成したりできます。

どちらを実装すべきでしょうか?ランダムに選ぶだけです。

その中で、深層進化の具体的な「進化方法」は、以下の5種類の操作を経て完成します。

制約を追加し、深め、具体化し、推論のステップを増やし、入力を複雑にします。

すべての指示はAIによって行われるため、場合によっては間違いが避けられません。したがって、命令エリミネーターは、失敗した命令をフィルタリングするために使用されます。

ここでは、「1+1=?」で始まり、上記の手順を経て最終的にかなりの数の新しい命令が自動的に生成されるメソッドの具体例を示します。

この生成プロセスを繰り返すことで、最終的に十分な命令を取得し、それらを組み合わせてランダムにスクランブルして難易度 均一分布 の命令セットを形成し、基本的な大規模モデルを微調整することができます。

ここで、著者は Alpaca のトレーニング データ (人工的に作成された 175 個のシード命令のみによって生成された) を初期データ セットとして選択し、次に ChatGPT の API を使用して 4 つの進化サイクルを実行し、最終的に 250,000 個の命令を取得します。

Vicuna の 70k リアル ユーザー データ (ShareGPT) と公平に比較するために、著者は 250,000 件のデータから同量のサンプルを抽出し、LLaMA 7B モデルを学習させ、最終的に WizardLM を取得しました。 WizardLM は Vicuna よりも大幅に優れていました。

(Alpaca: LLaMa-7B に基づいてスタンフォードで微調整されたモデル、LLaMa-13B に基づいて微調整されたカリフォルニア大学バークレー校の Vicuna)

さらに、人間は、より複雑なテスト命令の下では ChatGPT よりも WizardLM の出力を好みます。これは、この方法が複雑な命令を処理する LLM の能力を大幅に向上できることを示唆しています。

これに基づいて、著者は Evol 命令を使用して数学分野に関連する多くの命令を生成し、その後、大型アルパカ モデルを微調整して WizardMath を取得しました。

その効果は冒頭に示したとおりであり、その数学的能力はGSM8kデータセット上で測定され、ChatGPT、Claude Instant 1、PaLM 2-540Bなどを含む多くの大型モデルを上回り、GPT-4、Claud1に次ぐ第5位にランクされています。 . 3 と 2.0、および 5,400 億のパラメータを持つ Flan-PaLM 2 以降。

類推すると、筆者もアルパカのコーディング機能に特化した WizardCoder を手に入れましたが、その効果はクロードやバードを超えています(詳細は記事末尾のアドレスをクリックしてください)。

チーム紹介

この記事の著者は9名で、全員中国人です。

1つの作品には3人のキャラクターが登場します。

Can Xu 氏は、Microsoft Asia Internet Engineering Academy の S+D NLP グループのシニア アプリケーション サイエンティストであり、以前は Microsoft Xiaobing Research Group および Microsoft Asia Research Institute でチャット ロボット システムの開発に携わっていました。

Qingfeng Sun、Microsoft Research の科学者。研究の方向性は自然言語処理と情報検索で、効率的な検索システムの構築に熟達しており、Microsoft Bing と Office 365 にコアディープモデルを提供しました。

Kai Zheng 氏、Microsoft Research の科学者。研究の方向性は自然言語処理、検索、推奨ランキングであり、Microsoft Bing と Office 365 のコアディープモデルにも貢献しました。

責任著者は Jiang Daxin で、Microsoft のグローバル パートナー兼副社長であり、Microsoft Research Asia の元チーフ サイエンティストです。彼は Microsoft で 16 年以上勤務しており、Microsoft の自然言語理解の責任者でした。 Bing 検索エンジンと Cortana インテリジェント アシスタント. 退職し、大規模モデル ビジネスの立ち上げに専念していることが明らかになりました。

もう一人の著者、Jiazhan Feng は北京大学の学生で、この共著論文はマイクロソフトでのインターンシップ中に作成されました。

プロジェクトのホームページ:

用紙のアドレス:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)