La capacité en mathématiques dépasse ChatGPT, le grand modèle open source 70B est en feu : affiner l'IA avec l'IA, produit par Microsoft All-China Class

Source : "Qubit" (ID : QbitAI), Auteur : Feng Se

Utilisez les instructions générées par l'IA pour affiner le grand modèle d'alpaga, et la capacité mathématique dépasse ChatGPT——

Le dernier modèle open source de Microsoft WizardMath est arrivé.

Comme le montre la figure ci-dessous, après avoir été testé sur l'ensemble de données GSM8k, la capacité mathématique de WizardMath a directement vaincu de nombreux grands modèles tels que ChatGPT, Claude Instant 1 et PaLM 2-540B——

Et c'est à condition que les paramètres clés ne soient que de 70 milliards, ce qui est bien moins que les trois derniers.

HuggingFace a lancé 3 versions jouables en ligne (paramètres 7B, 13B et 70B respectivement), et divers problèmes mathématiques peuvent être lancés pour un essai.

Par exemple, résolvez l'équation polynomiale quartique suivante :

Ou un simple calcul :

Ou une dérivation d'équation de Lagrange légèrement modifiée :

Tout est correct (et le processus n'a pas à attendre trop longtemps).

Certains internautes ont dit à l'auteur :

L'effet est vraiment incroyable, merci pour votre contribution à l'open source LLM.

À l'heure actuelle, les codes, les méthodes de reproduction et les documents pertinents sont également open source ou en ligne, et GitHub a reçu ** 4,8k étoiles ** en quelques jours seulement.

Alors, comment exactement WizardMath le fait-il ?

Améliorez les capacités des grands modèles avec des instructions générées par l'IA

Les grands modèles d'OpenAI (InstructGPT, GPT-4, etc.) ont été capables d'effectuer une variété de tâches complexes et diverses avec un grand succès, en partie grâce à un réglage fin à l'aide de données d'instructions de domaine ouvert générées par de vrais utilisateurs humains.

Cependant, tout le monde n'a pas accès à ces ensembles de données de commande comme le fait cette société.

L'une est que l'ensemble du processus d'annotation est extrêmement coûteux et prend du temps, et l'autre est qu'il est difficile pour les humains de créer une proportion suffisante d'instructions difficiles.

Par conséquent, le développement d'une méthode de production automatique d'instructions à domaine ouvert à grande échelle et relativement peu coûteuse est devenu la clé du modèle de langage de réglage d'instructions actuel.

Ici, les auteurs nomment leur méthode Evol Instruction.

Il s'agit d'une nouvelle méthode d'utilisation de l'IA pour remplacer les humains afin de générer automatiquement des instructions en champ libre couvrant différents niveaux de difficulté.

Plus précisément, Evol Instruction est divisé en Instruction Evolver et Instruction Eliminator.

Parmi eux, l'évolueur d'instructions peut faire évoluer une instruction simple vers une instruction plus complexe ou créer une nouvelle instruction à travers deux voies d'évolution profonde (ligne bleue) ou d'évolution extensive (ligne rouge).

Laquelle mettre en place ? Choisissez simplement au hasard.

Parmi elles, la « méthode d'évolution » spécifique d'évolution en profondeur est complétée par cinq types d'opérations, dont :

Ajoutez des contraintes, approfondissez, concrétisez, augmentez les étapes de raisonnement et compliquez la saisie.

Étant donné que toutes les instructions sont effectuées par l'IA, les erreurs sont parfois inévitables. Par conséquent, l'éliminateur d'instructions est utilisé pour filtrer les instructions ayant échoué.

Voici un exemple concret d'une méthode qui commence par "1+1=?" et finit par générer automatiquement pas mal de nouvelles instructions à travers les étapes ci-dessus.

En répétant ce processus de génération, nous pouvons enfin obtenir suffisamment d'instructions, puis les combiner et les brouiller au hasard pour former un jeu d'instructions avec un niveau de difficulté distribution uniforme, puis nous pouvons affiner le grand modèle de base.

Ici, l'auteur sélectionne les données d'entraînement d'Alpaca (générées par seulement 175 instructions de départ créées artificiellement) comme ensemble de données initial, puis utilise l'API de ChatGPT pour effectuer quatre cycles d'évolution, et obtient finalement 250 000 instructions.

Afin de faire une comparaison équitable avec les 70 000 données d'utilisateurs réels de Vicuna (ShareGPT), l'auteur a extrait une quantité égale d'échantillons des 250 000 éléments de données, formé le modèle LLaMA 7B et finalement obtenu WizardLM. WizardLM était nettement meilleur que Vicuna.

(Alpaca : modèle affiné de Stanford basé sur LLaMa-7B ; Vicuna, UC Berkeley affiné basé sur LLaMa-13B)

De plus, les humains préfèrent la sortie de WizardLM à ChatGPT sous des instructions de test plus complexes, ce qui suggère que cette méthode peut améliorer considérablement la capacité de LLM à gérer des instructions complexes.

Sur cette base, l'auteur a utilisé Evol Instruction pour générer de nombreuses instructions liées au domaine des mathématiques, puis a affiné le modèle du grand alpaga pour obtenir WizardMath.

Son effet est tel qu'indiqué au début. Sa capacité mathématique est mesurée sur l'ensemble de données GSM8k, surpassant de nombreux grands modèles, notamment ChatGPT, Claude Instant 1, PaLM 2-540B, etc., se classant cinquième, juste derrière GPT-4 et Claud1. 3 et 2.0, et après Flan-PaLM 2 avec 540 milliards de paramètres.

Par analogie, l'auteur a également obtenu WizardCoder, spécialisé dans les capacités de codage sur l'alpaga, et l'effet surpasse Claude et Bard (pour plus de détails, veuillez cliquer sur l'adresse à la fin de l'article).

présentation de l'équipe

Il y a 9 auteurs dans cet article, tous chinois.

Il y a 3 personnages dans une œuvre :

Can Xu, scientifique d'application senior du groupe S+D NLP de la Microsoft Asia Internet Engineering Academy, a précédemment travaillé sur le système de chat robotisé du Microsoft Xiaobing Research Group et du Microsoft Asia Research Institute ;

Qingfeng Sun, scientifique Microsoft Research, la direction de la recherche est le traitement du langage naturel et la récupération d'informations, compétent dans la construction de systèmes de recherche efficaces, a contribué à des modèles profonds de base pour Microsoft Bing et Office 365 ;

Kai Zheng, scientifique Microsoft Research, la direction de la recherche est le traitement du langage naturel, la recherche et le classement des recommandations, a également contribué au modèle profond de base pour Microsoft Bing et Office 365.

L'auteur correspondant est Jiang Daxin, partenaire mondial et vice-président de Microsoft, et ancien scientifique en chef de Microsoft Research Asia. Il a travaillé chez Microsoft pendant plus de 16 ans et était la personne en charge de la compréhension du langage naturel de Microsoft. Moteur de recherche Bing et assistant intelligent Cortana, il a été révélé qu'il a quitté son emploi et s'est consacré au démarrage d'une entreprise de modèles à grande échelle.

Un autre auteur, Jiazhan Feng, est un étudiant de l'Université de Pékin.Cet article co-écrit a été produit pendant son stage chez Microsoft.

Page d'accueil du projet :

Adresse papier :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)