A capacidade matemática excede o ChatGPT, modelo grande de código aberto de 70B está pegando fogo: ajuste fino de IA com IA, produzido pela Microsoft All-China Class

Fonte: "Qubit" (ID: QbitAI), Autor: Feng Se

Use instruções geradas por IA para ajustar o grande modelo de alpaca, e a habilidade matemática excede o ChatGPT——

O mais recente modelo de código aberto da Microsoft WizardMath está aqui.

Conforme mostrado na figura abaixo, após ser testado no conjunto de dados GSM8k, a capacidade matemática do WizardMath derrotou diretamente muitos modelos grandes, como ChatGPT, Claude Instant 1 e PaLM 2-540B——

E com a condição de que os parâmetros-chave sejam de apenas 70 bilhões, o que é muito menos do que os três últimos.

HuggingFace lançou 3 versões jogáveis online (parâmetros 7B, 13B e 70B, respectivamente), e vários problemas matemáticos podem ser lançados para uma tentativa.

Por exemplo, resolva a seguinte equação polinomial quártica:

Ou um cálculo simples:

Ou uma derivação da equação de Lagrange ligeiramente modificada:

Está tudo correto (e o processo não precisa esperar muito).

Alguns internautas disseram ao autor:

O efeito é realmente incrível, obrigado por sua contribuição ao LLM de código aberto.

No momento, códigos relevantes, métodos de reprodução e artigos também são de código aberto ou online, e o GitHub recebeu 4,8 mil estrelas em apenas alguns dias.

Então, como exatamente o WizardMath faz isso?

Aprimore os recursos de modelos grandes com instruções geradas por IA

Os grandes modelos da OpenAI (InstructGPT, GPT-4, etc.) foram capazes de executar uma variedade de tarefas complexas e diversas com grande sucesso, em parte devido ao ajuste fino usando dados de instrução de domínio aberto gerados por usuários humanos reais.

No entanto, nem todos têm acesso a esses conjuntos de dados de comando como esta empresa.

Uma é porque todo o processo de anotação é extremamente caro e demorado, e a outra é que é difícil para os humanos criar uma proporção suficiente de instruções difíceis.

Portanto, desenvolver um método de produção automática de instrução de domínio aberto em grande escala e de custo relativamente baixo tornou-se a chave para o atual modelo de linguagem de ajuste de instrução.

Aqui, os autores chamam seu método de Evol Instruction.

É um novo método de usar IA para substituir os humanos para gerar automaticamente instruções de campo aberto que cobrem vários níveis de dificuldade.

Especificamente, o Evol Instruction é dividido em Instruction Evolver e Instruction Eliminator.

Dentre eles, o evoluidor de instruções pode atualizar uma instrução simples para uma instrução mais complexa ou criar uma nova instrução através de dois caminhos de evolução profunda (linha azul) ou evolução extensiva (linha vermelha).

Qual deles deve ser implementado? Basta escolher aleatoriamente.

Entre eles, o "método de evolução" específico da evolução em profundidade é concluído por meio de cinco tipos de operações, incluindo:

Adicione restrições, aprofundando, concretizando, aumente as etapas de raciocínio e complique a entrada.

Como todas as instruções são feitas pela IA, às vezes os erros são inevitáveis. Portanto, o eliminador de instruções é usado para filtrar as instruções com falha.

Aqui está um exemplo concreto de um método que começa com "1+1=?" e acaba gerando automaticamente algumas novas instruções através das etapas acima.

Ao repetir esse processo de geração, eventualmente podemos obter instruções suficientes e, em seguida, combiná-las e embaralhá-las aleatoriamente para formar um conjunto de instruções com um nível de dificuldade distribuição uniforme e, então, podemos ajustar o modelo básico grande.

Aqui, o autor seleciona os dados de treinamento do Alpaca (gerados por apenas 175 instruções de sementes criadas artificialmente) como o conjunto de dados inicial e, em seguida, usa a API do ChatGPT para executar quatro ciclos de evolução e, finalmente, obtém 250.000 instruções.

Para fazer uma comparação justa com os 70.000 dados de usuários reais do Vicuna (ShareGPT), o autor extraiu uma quantidade igual de amostras dos 250.000 dados, treinou o modelo LLaMA 7B e finalmente obteve o WizardLM. Como resultado, o desempenho do O WizardLM foi significativamente melhor do que o Vicuna.

(Alpaca: modelo aperfeiçoado de Stanford baseado em LLaMa-7B; Vicuna, UC Berkeley aperfeiçoado baseado em LLaMa-13B)

Além disso, os humanos preferem a saída do WizardLM ao ChatGPT sob instruções de teste mais complexas, sugerindo que esse método pode melhorar significativamente a capacidade do LLM de lidar com instruções complexas.

Com base nisso, o autor usou o Evol Instruction para gerar muitas instruções relacionadas ao campo da matemática e, em seguida, ajustou o grande modelo de alpaca para obter o WizardMath.

Seu efeito é mostrado no início. Sua capacidade matemática é medida no conjunto de dados GSM8k, superando muitos modelos grandes, incluindo ChatGPT, Claude Instant 1, PaLM 2-540B, etc., ocupando o quinto lugar, perdendo apenas para GPT-4 e Claud1 .3 e 2.0, e depois do Flan-PaLM 2 com 540 bilhões de parâmetros.

Por analogia, o autor também obteve o WizardCoder, especializado em codificar recursos na alpaca, e o efeito supera Claude e Bard (para obter detalhes, clique no endereço no final do artigo).

apresentação da equipe

Há 9 autores neste artigo, todos chineses.

Existem 3 personagens em uma obra:

Can Xu, cientista sênior de aplicativos do S+D NLP Group da Microsoft Asia Internet Engineering Academy, trabalhou anteriormente em um sistema de robô de bate-papo no Microsoft Xiaobing Research Group e no Microsoft Asia Research Institute;

Qingfeng Sun, cientista da Microsoft Research, direção de pesquisa é processamento de linguagem natural e recuperação de informações, proficiente na construção de sistemas de pesquisa eficientes, contribuiu com modelos profundos de núcleo para Microsoft Bing e Office 365;

Kai Zheng, cientista da Microsoft Research, direção de pesquisa é processamento de linguagem natural, classificação de pesquisa e recomendação, também contribuiu com modelo profundo de núcleo para Microsoft Bing e Office 365.

O autor correspondente é Jiang Daxin, parceiro global e vice-presidente da Microsoft, e ex-cientista-chefe da Microsoft Research Asia. Ele trabalhou na Microsoft por mais de 16 anos e foi o responsável pela compreensão da linguagem natural da Microsoft Motor de busca Bing e assistente inteligente Cortana. Foi revelado que ele deixou o emprego e se dedicou a iniciar um negócio de modelagem em grande escala.

Outro autor, Jiazhan Feng, é um estudante da Universidade de Pequim.Este artigo em coautoria foi produzido durante seu estágio na Microsoft.

Página inicial do projeto:

Endereço de papel:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)