Математические способности превосходят ChatGPT, большая модель с открытым исходным кодом 70B в огне: тонкая настройка ИИ с помощью ИИ, разработанная Microsoft All-China Class
Используйте инструкции, сгенерированные искусственным интеллектом, для точной настройки большой модели альпаки, а математические способности превосходят ChatGPT——
Последняя модель Microsoft с открытым исходным кодом WizardMath уже здесь.
Как показано на рисунке ниже, после тестирования на наборе данных GSM8k математические способности WizardMath напрямую превзошли многие крупные модели, такие как ChatGPT, Claude Instant 1 и PaLM 2-540B——
И это при условии, что ключевые параметры всего 70 миллиардов, что намного меньше последних трех.
HuggingFace запустил 3 сетевые версии (параметры 7B, 13B и 70B соответственно), и можно попробовать решить различные математические задачи.
Например, решите следующее полиномиальное уравнение четвертой степени:
Или простой расчет:
Или немного модифицированный вывод уравнения Лагранжа:
Все правильно (и процесс не должен слишком долго ждать).
Некоторые пользователи сети сказали автору:
Эффект действительно потрясающий, спасибо за ваш вклад в LLM с открытым исходным кодом.
В настоящее время соответствующие коды, методы воспроизведения и документы также находятся в открытом доступе или в Интернете, а GitHub получил 4,8 тыс. звезд всего за несколько дней.
Итак, как именно WizardMath это делает?
Расширьте возможности больших моделей с помощью инструкций, созданных ИИ
Большие модели OpenAI (InstructGPT, GPT-4 и т. д.) смогли с большим успехом выполнять множество сложных и разнообразных задач, отчасти благодаря тонкой настройке с использованием данных инструкций открытого домена, созданных реальными пользователями.
Однако не у всех есть доступ к таким наборам командных данных, как у этой компании.
Во-первых, потому, что весь процесс аннотации чрезвычайно дорог и требует много времени, а во-вторых, людям сложно создать достаточное количество сложных инструкций.
Таким образом, разработка относительно недорогого крупномасштабного метода автоматического производства инструкций с открытым доменом стала ключом к текущей модели языка настройки инструкций.
Здесь авторы называют свой метод Evol Instruction.
Это новый метод использования ИИ для замены людей для автоматического создания инструкций в открытом поле, охватывающих различные уровни сложности.
В частности, Evol Instruction делится на Instruction Evolver и Instruction Eliminator.
Среди них эволюционер инструкций может обновить простую инструкцию до более сложной инструкции или создать новую инструкцию по двум путям глубокой эволюции (синяя линия) или экстенсивной эволюции (красная линия).
Какой из них должен быть реализован? Просто выберите случайно.
Среди них особый «эволюционный метод» углубленной эволюции завершается пятью типами операций, в том числе:
Добавляйте ограничения, углубляйте, конкретизируйте, увеличивайте шаги рассуждений и усложняйте ввод.
Поскольку все инструкции выполняются ИИ, иногда ошибки неизбежны. Таким образом, элиминатор инструкций используется для фильтрации ошибочных инструкций.
Вот конкретный пример метода, который начинается с «1+1=?» и заканчивается автоматическим созданием нескольких новых инструкций с помощью описанных выше шагов.
Повторяя этот процесс генерации, мы, наконец, можем получить достаточно инструкций, а затем комбинировать их и случайным образом перемешивать, чтобы сформировать набор инструкций с уровнем сложности равномерное распределение, а затем мы можем точно настроить базовую большую модель.
Здесь автор выбирает обучающие данные Alpaca (сгенерированные только 175 искусственно созданными начальными инструкциями) в качестве начального набора данных, а затем использует API ChatGPT для выполнения четырех циклов эволюции и, наконец, получает 250 000 инструкций.
Чтобы провести справедливое сравнение с 70 000 реальных пользовательских данных Vicuna (ShareGPT), автор извлек равное количество образцов из 250 000 фрагментов данных, обучил модель LLaMA 7B и, наконец, получил WizardLM. WizardLM был значительно лучше, чем Vicuna.
(Альпака: Стэнфордская доработанная модель на основе LLaMa-7B; Викуна, Калифорнийский университет в Беркли, доработанная на основе LLaMa-13B)
Кроме того, люди предпочитают вывод WizardLM, а не ChatGPT, с более сложными тестовыми инструкциями, предполагая, что этот метод может значительно улучшить способность LLM обрабатывать сложные инструкции.
Основываясь на этом, автор использовал Evol Instruction для создания множества инструкций, связанных с областью математики, а затем точно настроил модель большой альпаки, чтобы получить WizardMath.
Его эффект показан в начале.Его математические способности измеряются на наборе данных GSM8k, превосходя многие крупные модели, включая ChatGPT, Claude Instant 1, PaLM 2-540B и т. д., занимая пятое место, уступая только GPT-4 и Claud1. 3 и 2.0, а после Flan-PaLM 2 с 540 миллиардами параметров.
По аналогии автору достался и WizardCoder, который специализируется на возможностях кодирования на альпаке, а по эффекту превосходит Клода и Барда (подробности по адресу в конце статьи).
знакомство с командой
В этой статье 9 авторов, все китайцы.
В одном произведении 3 персонажа:
Кань Сюй, старший научный сотрудник группы S+D NLP в Microsoft Asia Internet Engineering Academy, ранее работал над системой чат-роботов в Microsoft Xiaobing Research Group и Microsoft Asia Research Institute;
** Цинфэн Сунь **, научный сотрудник Microsoft Research, направление исследований - обработка естественного языка и поиск информации, опытный в создании эффективных поисковых систем, внес основные глубокие модели в Microsoft Bing и Office 365;
Кай Чжэн, научный сотрудник Microsoft Research, направление исследований — обработка естественного языка, поиск и ранжирование рекомендаций, также внес вклад в базовую глубокую модель для Microsoft Bing и Office 365.
Соответствующий автор — Цзян Дасинь, глобальный партнер и вице-президент Microsoft, а также бывший главный научный сотрудник Microsoft Research Asia.Он проработал в Microsoft более 16 лет и отвечал за понимание естественного языка в Microsoft. Поисковик Bing и интеллектуальный помощник Cortana Выяснилось, что он оставил свою работу и посвятил себя созданию крупного модельного бизнеса.
Другой автор, Цзяжан Фэн, студент Пекинского университета, написал эту статью в соавторстве во время стажировки в Microsoft.
Домашняя страница проекта:
Адрес бумаги:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Математические способности превосходят ChatGPT, большая модель с открытым исходным кодом 70B в огне: тонкая настройка ИИ с помощью ИИ, разработанная Microsoft All-China Class
Источник: «Кубит» (ID: QbitAI), Автор: Фэн Се
Используйте инструкции, сгенерированные искусственным интеллектом, для точной настройки большой модели альпаки, а математические способности превосходят ChatGPT——
Последняя модель Microsoft с открытым исходным кодом WizardMath уже здесь.
И это при условии, что ключевые параметры всего 70 миллиардов, что намного меньше последних трех.
Например, решите следующее полиномиальное уравнение четвертой степени:
Некоторые пользователи сети сказали автору:
Расширьте возможности больших моделей с помощью инструкций, созданных ИИ
Большие модели OpenAI (InstructGPT, GPT-4 и т. д.) смогли с большим успехом выполнять множество сложных и разнообразных задач, отчасти благодаря тонкой настройке с использованием данных инструкций открытого домена, созданных реальными пользователями.
Однако не у всех есть доступ к таким наборам командных данных, как у этой компании.
Во-первых, потому, что весь процесс аннотации чрезвычайно дорог и требует много времени, а во-вторых, людям сложно создать достаточное количество сложных инструкций.
Таким образом, разработка относительно недорогого крупномасштабного метода автоматического производства инструкций с открытым доменом стала ключом к текущей модели языка настройки инструкций.
Здесь авторы называют свой метод Evol Instruction.
Это новый метод использования ИИ для замены людей для автоматического создания инструкций в открытом поле, охватывающих различные уровни сложности.
В частности, Evol Instruction делится на Instruction Evolver и Instruction Eliminator.
Среди них эволюционер инструкций может обновить простую инструкцию до более сложной инструкции или создать новую инструкцию по двум путям глубокой эволюции (синяя линия) или экстенсивной эволюции (красная линия).
Какой из них должен быть реализован? Просто выберите случайно.
Добавляйте ограничения, углубляйте, конкретизируйте, увеличивайте шаги рассуждений и усложняйте ввод.
Поскольку все инструкции выполняются ИИ, иногда ошибки неизбежны. Таким образом, элиминатор инструкций используется для фильтрации ошибочных инструкций.
Вот конкретный пример метода, который начинается с «1+1=?» и заканчивается автоматическим созданием нескольких новых инструкций с помощью описанных выше шагов.
Здесь автор выбирает обучающие данные Alpaca (сгенерированные только 175 искусственно созданными начальными инструкциями) в качестве начального набора данных, а затем использует API ChatGPT для выполнения четырех циклов эволюции и, наконец, получает 250 000 инструкций.
Чтобы провести справедливое сравнение с 70 000 реальных пользовательских данных Vicuna (ShareGPT), автор извлек равное количество образцов из 250 000 фрагментов данных, обучил модель LLaMA 7B и, наконец, получил WizardLM. WizardLM был значительно лучше, чем Vicuna.
(Альпака: Стэнфордская доработанная модель на основе LLaMa-7B; Викуна, Калифорнийский университет в Беркли, доработанная на основе LLaMa-13B)
Кроме того, люди предпочитают вывод WizardLM, а не ChatGPT, с более сложными тестовыми инструкциями, предполагая, что этот метод может значительно улучшить способность LLM обрабатывать сложные инструкции.
Основываясь на этом, автор использовал Evol Instruction для создания множества инструкций, связанных с областью математики, а затем точно настроил модель большой альпаки, чтобы получить WizardMath.
Его эффект показан в начале.Его математические способности измеряются на наборе данных GSM8k, превосходя многие крупные модели, включая ChatGPT, Claude Instant 1, PaLM 2-540B и т. д., занимая пятое место, уступая только GPT-4 и Claud1. 3 и 2.0, а после Flan-PaLM 2 с 540 миллиардами параметров.
По аналогии автору достался и WizardCoder, который специализируется на возможностях кодирования на альпаке, а по эффекту превосходит Клода и Барда (подробности по адресу в конце статьи).
знакомство с командой
В этой статье 9 авторов, все китайцы.
В одном произведении 3 персонажа:
Кань Сюй, старший научный сотрудник группы S+D NLP в Microsoft Asia Internet Engineering Academy, ранее работал над системой чат-роботов в Microsoft Xiaobing Research Group и Microsoft Asia Research Institute;
** Цинфэн Сунь **, научный сотрудник Microsoft Research, направление исследований - обработка естественного языка и поиск информации, опытный в создании эффективных поисковых систем, внес основные глубокие модели в Microsoft Bing и Office 365;
Кай Чжэн, научный сотрудник Microsoft Research, направление исследований — обработка естественного языка, поиск и ранжирование рекомендаций, также внес вклад в базовую глубокую модель для Microsoft Bing и Office 365.
Другой автор, Цзяжан Фэн, студент Пекинского университета, написал эту статью в соавторстве во время стажировки в Microsoft.
Домашняя страница проекта:
Адрес бумаги: