🎤 爲偶像應援 · Gate送你直達 Token of Love! 🎶
家人們,現在在Gate廣場爲 打 Token of Love CALL,20 張音樂節門票等你來瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待誰?快來一起應援吧!
📌 參與方式(任選,參與越多中獎幾率越高!)
1️⃣ 本帖互動
點讚 & 轉發本帖 + 投票你最愛的藝人
評論區打出 “我在 Gate 廣場爲 Token of Love 打 Call !”
2️⃣ 廣場發帖爲 TA 打 Call
帶上 #歌手名字# + #TokenOfLove#
發帖內容任選:
🎵 最想現場聽到的歌 + 心情宣言
📣 應援口號(例:泫雅女王衝鴨!Gate廣場全員打 Call!)
😎 自制表情包/海報/短視頻(加分項,更容易中獎!)
3️⃣ 推特 / 小紅書發帖打 Call
同樣帶上 #歌手名字# + #TokenOfLove#
內容同上,記得回鏈到表單 👉️ https://www.gate.com/questionnaire/7008
🎟️ 獎勵安排
廣場優質發帖用戶:8張門票
廣場幸運互動用戶:2張門票
Twitter 優質發帖用戶:5張門票
小紅書優質發帖用戶:5張門票
📌 優質帖文將根據文章豐富度、熱度、創意度綜合評分,禁止小號水貼,原創發帖更易獲獎!
🕒 8
羊駝進化成鯨魚,Meta把對齊「自動化」,Humpback擊敗現有全部LLaMa模型
編輯:小舟、陳萍
**來源:**機器之心
這一年來,以ChatGPT 和GPT-4 為代表的大語言模型(LLM)發展迅速,緊隨其後,Meta 開源的LLaMa、Llama 2 系列模型在AI 界也引起的了不小的轟動。但隨之而來的是爭議不斷,有人認為LLM 存在一些不可控的風險,給人類生存構成一些潛在威脅。
為了應對這些挑戰,對LLM 對齊的研究變得越來越重要,有研究者提出指令跟隨(instruction following),但這種方法需要大量的人工註釋。然而,註釋如此高質量的指令跟隨數據集耗費巨大。
本文來自Meta AI 的研究者提出了一種可擴展的方法即指令回譯(instruction backtranslation),該方法通過自動註釋相應的指令來構建高質量的指令跟隨語言模型。
具體而言,該研究從一個語言模型開始,並作為種子模型,該模型在少量的種子數據以及web 語料庫上進行了微調。種子模型的作用是用來構建訓練樣本,然後這些樣本中的一些高質量樣本將會被篩選出來,接著,這些數據被用來微調一個更強大的模型。
經過兩輪迭代的數據集對LLaMa 進行微調,所產生的模型Humpback 在Alpaca 排行榜上優於其他現有的非蒸餾模型,如LIMA、Claude、Guanaco 等。
Humpback 原意為座頭鯨,又名駝背鯨,Meta 將模型命名為Humpback,也別有深意吧。
圖靈獎得主Yann LeCun 高度概括了這項研究的方法,並稱讚Meta 這項工作為對齊研究做出重要貢獻:
該論文提出了一種需要兩個步驟完成的新的數據增強範式。首先,必須擁有一組種子(指令、輸出)對和語料庫才能生成更多好的指令數據。
方法簡介
該研究提出了一種自訓練方法(self-training),該方法通常假定可以訪問基本語言模型、少量種子數據和未標記的樣本集(例如網絡語料庫)。未標記數據往往是一大堆形態各異的文檔,由人類編寫,其中包括人類感興趣的各種話題內容,但最重要的是沒有與指令進行配對。
這裡還有兩個關鍵的假設,第一個假設是這個非常大的文本集(未標記樣本集)存在一些子集,適合作為某些用戶指令的生成樣本。第二個假設是可以預測這些候選答案的指令,這些指令可以用於形成高質量樣本對,以訓練指令遵循模型。
如下圖1 所示,該研究提出指令回譯過程包含兩個核心步驟:
實驗及結果
本文的數據集主要包括種子數據和增強數據,具體信息如表2 和圖2 所示: