Новий метод Mata створює високоякісну мовну модель виконання інструкцій (виконання інструкцій) лише з невеликою кількістю вихідних даних.
Іншими словами, великі мовні моделі вимагають великої кількості даних інструкцій, позначених людиною, для точного налаштування, але тепер модель може автоматично виводити інструкції з тексту без міток у веб-корпусах.
Потім використовуйте дані інструкцій, створені вами для навчання, які можна порівняти з власноруч виготовленими та проданими.
І модель, навчена цим методом, перевершує альпаку з відкритим кодом і серію її похідних моделей у контрольному тесті Альпака.
ЛеКун написав у Twitter, що дослідження було сенсаційним з точки зору самовирівнювання моделі:
Підсумовуючи це реченням користувача мережі:
Альпака почала дресирувати себе.
Два речення підсумовують це так:
Спочатку необхідний набір даних інструкції>відповіді (потрібно маркування вручну), тепер необхідно лише просто навчити «зворотну модель» для відповіді>інструкції. Будь-який текст можна вільно конвертувати в набір даних інструкцій.
Інший користувач мережі видав тортуру душі:
Чи я єдиний, хто вважає, що це схоже на шлях до суперінтелекту? Якщо ви можете отримати LLM, які стають розумнішими й розумнішими без додаткових високоякісних зовнішніх даних, то це закрита система, що самовдосконалюється.
Можливо, для надання сигналу потрібна лише система навчання з підкріпленням, а потім власні ітерації LLM зроблять решту.
Альпака: я використав дані, щоб дресирувати кита
Цей новий масштабований метод називається Instruction Back Translation, і Мата назвав модель, навчену цим методом, Humpback (горбатий кит, також відомий як горбатий кит).
(Дослідники сказали, що назва була дана через його зв’язок зі спиною верблюда, а більший розмір кита відповідає більшому масштабу моделі)
Етап навчання Горбатого полягає в тому, щоб просто почати з невеликої кількості позначених даних, використовувати мовну модель для генерації інструкцій, що відповідають тексту без міток, і сформувати навчальні дані кандидата. Потім за допомогою моделі оцініть якість даних і виберіть високоякісні дані для повторного навчання. Потім процес повторюється для подальшого вдосконалення моделі.
Як показано на малюнку вище, «матеріали», які необхідно підготувати, це:
Базова модель - LLaMa
Початкові дані (Seed Data), що складаються з 3200 прикладів із набору даних Open Assistant, кожен приклад містить інструкцію та відповідний результат.
З корпусу ClueWeb видалено 502 тисячі текстів без міток (нерозмічені дані), які були дедупліковані, відфільтровані та потенційно низькоякісні абзаци.
Позначені приклади та джерела корпусу доступні, а наступним кроком є етап Самодоповнення.
Дослідники налаштували базову модель LLaMa за допомогою початкових даних, щоб отримати модель передбачення інструкцій. Ця модель передбачення інструкцій потім використовується для визначення інструкцій-кандидатів для тексту без міток. Потім об’єднайте інструкцію-кандидат і текст (пара інструкція-вихід) як покращені навчальні дані-кандидата, які є доповненими даними A на малюнку вище.
Однак неможливо використовувати дані A для прямого навчання, оскільки якість самого тексту без міток є неоднаковою, а згенеровані інструкції-кандидати також мають шум.
Отже, потрібні ключові кроки самоконтролю, використання моделі для прогнозування якості даних і вибір високоякісних зразків для навчання.
Зокрема, дослідники оцінили дані кандидатів, використовуючи модель інструкцій, налаштовану лише на вихідні дані. Повна оцінка становить п’ять балів, і ті, хто набере вищі бали, будуть відібрані як дані кандидатів для наступного туру.
Щоб покращити якість прогнозування інструкцій моделі, дослідники навчили модель з даними-кандидатами ітераційно, і в ітераційному навчанні якість даних ставала все кращою.
Крім того, при поєднанні вихідних даних і даних доповнення для точного налаштування моделі вони також використовують різні системні теги підказок, щоб розрізнити ці два джерела даних:
Поради щодо використання вихідних даних «Відповідайте в стилі помічника зі штучним інтелектом».
Фільтруйте дані за допомогою підказки «Відповісти зі знанням веб-пошуку».
Після двох ітерацій остаточну модель щойно виймають з печі.
Об’єднання двох типів навчальних даних: 1+1>2
Давайте поглянемо на результати аналізу дослідників:
** **###### △ Різноманітність інструкцій для початкових даних і розширених даних. Внутрішнє коло — це спільнокореневе дієслово, а зовнішнє коло — загальний іменник, який йому відповідає.
На малюнку вище показано різноманітність інструкцій із 8% початкових даних і 13% розширеної статистики даних.
Можна інтуїтивно побачити, що розширене розмаїття даних сильніше в довгій хвостовій частині, а розширені дані доповнюють існуючі штучно позначені вихідні дані, доповнюючи типи, які не відображаються в вихідних даних.
По-друге, дослідники порівняли три доповнені набори даних: доповнені дані, усі (без самоконтролю),
, менше даних, але вища якість
Експерименти показали, що хоча набір даних стає меншим, продуктивність моделі також покращується разом із покращенням якості навчальних даних.
** **###### △ Використовуйте самофільтрацію, щоб оцінити дані самодоповнення різних розмірів і якості даних. Вісь Y представляє коефіцієнт виграшу з text-davinci-003 під час точного налаштування LLaMa 7B із заданим розміром і якістю даних.
(text-davinci-003, інструкція на основі GPT-3, яка слідує за моделлю, налаштованою на основі написаних людиною даних інструкцій, результатів, відповідей моделі та вподобань людини з використанням навчання з підкріпленням)
Нарешті, давайте подивимося на результати в таблиці лідерів Альпака. Humpback значно перевершує інші методи, не покладаючись на дистильовані дані, і скорочує розрив із запатентованими моделями.
Non-distilled (Non-distilled), відноситься до моделі навчання, яка не покладається на будь-яку зовнішню модель, як будь-яка форма нагляду; Distilled (Distilled), відноситься до впровадження більш потужної зовнішньої моделі під час процесу навчання, наприклад використання даних, отриманих із зовнішньої моделі; Запатентовані – це моделі, навчені за допомогою запатентованих даних і методів.
** **###### △ Порівняно з показником виграшу text-davinci-003
У порівнянні з моделями з відкритим кодом LIMA 65B, Guanaco 65B, Falcon-Instruct 40B і запатентованими моделями davinci-003, Claude, продуктивність Humpback також більше відповідає людським уподобанням.
Крім того, дослідники відзначили обмеження методу:
Оскільки текстові дані, які використовуються для навчання, надходять із веб-корпусів, точно налаштована модель може посилити зміщення веб-даних. Хоча в порівнянні з базовою моделлю, налаштована модель покращує точність виявлення зміщення. Однак це не означає, що проблема буде повністю вирішена.
Портал: паперове посилання)
Посилання на посилання:
[1]
[2]
[3]
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Перемагаючи всю родину альпак, новий метод самовирівнювання Meta AI вимагає дуже мало даних для маркування вручну
Перше джерело: Qubit
Чи потрібно терміново позначати дані вручну?
Новий метод Mata створює високоякісну мовну модель виконання інструкцій (виконання інструкцій) лише з невеликою кількістю вихідних даних.
Іншими словами, великі мовні моделі вимагають великої кількості даних інструкцій, позначених людиною, для точного налаштування, але тепер модель може автоматично виводити інструкції з тексту без міток у веб-корпусах.
Потім використовуйте дані інструкцій, створені вами для навчання, які можна порівняти з власноруч виготовленими та проданими.
І модель, навчена цим методом, перевершує альпаку з відкритим кодом і серію її похідних моделей у контрольному тесті Альпака.
ЛеКун написав у Twitter, що дослідження було сенсаційним з точки зору самовирівнювання моделі:
Альпака: я використав дані, щоб дресирувати кита
Цей новий масштабований метод називається Instruction Back Translation, і Мата назвав модель, навчену цим методом, Humpback (горбатий кит, також відомий як горбатий кит).
(Дослідники сказали, що назва була дана через його зв’язок зі спиною верблюда, а більший розмір кита відповідає більшому масштабу моделі)
Позначені приклади та джерела корпусу доступні, а наступним кроком є етап Самодоповнення.
Дослідники налаштували базову модель LLaMa за допомогою початкових даних, щоб отримати модель передбачення інструкцій. Ця модель передбачення інструкцій потім використовується для визначення інструкцій-кандидатів для тексту без міток. Потім об’єднайте інструкцію-кандидат і текст (пара інструкція-вихід) як покращені навчальні дані-кандидата, які є доповненими даними A на малюнку вище.
Однак неможливо використовувати дані A для прямого навчання, оскільки якість самого тексту без міток є неоднаковою, а згенеровані інструкції-кандидати також мають шум.
Отже, потрібні ключові кроки самоконтролю, використання моделі для прогнозування якості даних і вибір високоякісних зразків для навчання.
Щоб покращити якість прогнозування інструкцій моделі, дослідники навчили модель з даними-кандидатами ітераційно, і в ітераційному навчанні якість даних ставала все кращою.
Крім того, при поєднанні вихідних даних і даних доповнення для точного налаштування моделі вони також використовують різні системні теги підказок, щоб розрізнити ці два джерела даних:
Після двох ітерацій остаточну модель щойно виймають з печі.
Об’єднання двох типів навчальних даних: 1+1>2
Давайте поглянемо на результати аналізу дослідників:
**
**###### △ Різноманітність інструкцій для початкових даних і розширених даних. Внутрішнє коло — це спільнокореневе дієслово, а зовнішнє коло — загальний іменник, який йому відповідає.
На малюнку вище показано різноманітність інструкцій із 8% початкових даних і 13% розширеної статистики даних.
Можна інтуїтивно побачити, що розширене розмаїття даних сильніше в довгій хвостовій частині, а розширені дані доповнюють існуючі штучно позначені вихідні дані, доповнюючи типи, які не відображаються в вихідних даних.
По-друге, дослідники порівняли три доповнені набори даних: доповнені дані, усі (без самоконтролю),
**
**###### △ Використовуйте самофільтрацію, щоб оцінити дані самодоповнення різних розмірів і якості даних. Вісь Y представляє коефіцієнт виграшу з text-davinci-003 під час точного налаштування LLaMa 7B із заданим розміром і якістю даних.
(text-davinci-003, інструкція на основі GPT-3, яка слідує за моделлю, налаштованою на основі написаних людиною даних інструкцій, результатів, відповідей моделі та вподобань людини з використанням навчання з підкріпленням)
Нарешті, давайте подивимося на результати в таблиці лідерів Альпака. Humpback значно перевершує інші методи, не покладаючись на дистильовані дані, і скорочує розрив із запатентованими моделями.
Non-distilled (Non-distilled), відноситься до моделі навчання, яка не покладається на будь-яку зовнішню модель, як будь-яка форма нагляду; Distilled (Distilled), відноситься до впровадження більш потужної зовнішньої моделі під час процесу навчання, наприклад використання даних, отриманих із зовнішньої моделі; Запатентовані – це моделі, навчені за допомогою запатентованих даних і методів.
**
**###### △ Порівняно з показником виграшу text-davinci-003
У порівнянні з моделями з відкритим кодом LIMA 65B, Guanaco 65B, Falcon-Instruct 40B і запатентованими моделями davinci-003, Claude, продуктивність Humpback також більше відповідає людським уподобанням.
Оскільки текстові дані, які використовуються для навчання, надходять із веб-корпусів, точно налаштована модель може посилити зміщення веб-даних. Хоча в порівнянні з базовою моделлю, налаштована модель покращує точність виявлення зміщення. Однак це не означає, що проблема буде повністю вирішена.
Портал: паперове посилання)
Посилання на посилання: [1] [2] [3]