オープンソース モデル LIMA 65B、Guanaco 65B、Falcon-Instruct 40B および独自モデル davinci-003、Claude と比較すると、Humpback のパフォーマンスも人間の好みにより一致しています。
さらに、研究者らはこの方法の限界について次のように指摘しています。
トレーニングに使用されるテキスト データは Web コーパスから取得されるため、モデルを微調整すると Web データのバイアスが増幅される可能性があります。基本モデルと比較すると、微調整モデルではバイアスの検出精度が向上します。ただし、これで問題が完全に解決されるわけではありません。
ポータル: 紙のリンク)
参考リンク:
[1]
[2]
[3]
原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
アルパカ科全体を打ち負かした新しい Meta AI セルフアライメント手法は、手作業によるラベル付けデータをほとんど必要としません
元のソース: Qubit
データに手動でラベルを付けることが緊急に必要ですか?
Mata の新しいメソッドは、わずかな量のシード データを使用して、高品質の 命令追従 (命令追従) 言語モデルを構築します。
言い換えれば、大規模な言語モデルでは微調整のために人間がラベルを付けた大量の指示データが必要ですが、今回のモデルは Web コーパス内のラベルのないテキストから指示を自動的に推測できるようになりました。
そして、自分で生成した指導データを使って、自社制作・販売と同等の学習を行うことができます。
そして、この方法でトレーニングされたモデルは、Alpaca ベンチマーク テストにおいて、オープンソースの Alpaca とその一連の派生モデルを上回りました。
LeCun氏は、この研究はモデルの自己整合性の点でセンセーショナルだったとツイートした:
アルパカ: データを使用してクジラを訓練しました
このスケーラブルな新しい手法は 命令逆変換 と呼ばれ、Mata 氏はこの手法でトレーニングされたモデルを Humpback (ザトウクジラ、ザトウクジラとも呼ばれる) と名付けました。
(研究者らは、ラクダの背中との関係からこの名前が付けられたと述べており、クジラのサイズが大きいほど模型のスケールも大きくなる)
ラベル付きの例とコーパス ソースが利用可能になり、次のステップは 自己拡張 ステージです。
研究者らは、シード データを使用して基本モデル LLaMa を微調整し、命令予測モデル を取得しました。次に、この命令予測モデルを使用して、ラベルのないテキストの候補命令を推測します。次に、候補の命令とテキスト (命令と出力のペア) を候補 強化トレーニング データ として結合します。これは、上図の拡張データ A です。
ただし、ラベルなしテキスト自体の品質にばらつきがあり、生成される命令候補にもノイズが含まれるため、A のデータを直接学習に使用することはできません。
したがって、モデルを使用してデータ品質を予測し、トレーニング用に高品質のサンプルを選択するという、重要な 自己キュレート ステップが必要です。
モデルの命令予測の品質を向上させるために、研究者は候補データを使用してモデルを反復トレーニングしました。反復トレーニングでは、データの品質はますます向上します。
さらに、シード データと拡張データを組み合わせてモデルを微調整する場合、これら 2 つのデータ ソースを区別するために異なるシステム ヒント タグも使用します。
※シードデータ活用ヒント「AIアシスタント風に答える」。
2 回の反復を経て、オーブンから取り出したばかりの最終モデルが完成します。
2 種類のトレーニング データを結合します: 1+1>2
研究者らの分析結果を見てみましょう。
**
**###### △ シード データと拡張データの命令の多様性。内側の円は共通語根動詞、外側の円はそれに対応する普通名詞です。
上の図は、8% のシード データと 13% の拡張データ統計を含む命令の多様性を示しています。
強化されたデータの多様性はロングテール部分でより強力であり、強化されたデータは既存の人為的にラベル付けされたシードデータを補完し、シードデータに現れないタイプを補完することが直感的にわかります。
次に、研究者らは 3 つの拡張データセットを比較しました。拡張データ、すべて (自己管理なし)、
**
**###### △ 自己フィルタリングを使用して、さまざまなデータ サイズと品質の自己拡張データを評価します。 y 軸は、所定のデータ サイズと品質で LLaMa 7B を微調整した場合の text-davinci-003 による勝率を表します。
(text-davinci-003、強化学習を使用して人間が作成した命令データ、出力、モデル応答、および人間の好みに基づいて微調整された GPT-3 ベースの命令追従モデル)
最後に、Alpaca リーダーボードの結果を見てみましょう。 Humpback は、抽出されたデータに依存せずに他の方法を大幅に上回り、独自のモデルとの差を縮めます。
非蒸留 (非蒸留) は、いかなる形式の監視としても外部モデルに依存しないトレーニング モデルを指します。蒸留 (蒸留) は、トレーニング プロセス中に、より強力な外部モデルを導入することを指します。外部モデルから抽出したデータを使用する; 独自とは、独自のデータと技術を使用してトレーニングされたモデルを指します。
**
**###### △ text-davinci-003 の勝率との比較
オープンソース モデル LIMA 65B、Guanaco 65B、Falcon-Instruct 40B および独自モデル davinci-003、Claude と比較すると、Humpback のパフォーマンスも人間の好みにより一致しています。
トレーニングに使用されるテキスト データは Web コーパスから取得されるため、モデルを微調整すると Web データのバイアスが増幅される可能性があります。基本モデルと比較すると、微調整モデルではバイアスの検出精度が向上します。ただし、これで問題が完全に解決されるわけではありません。
ポータル: 紙のリンク)
参考リンク: [1] [2] [3]