La capacidad matemática supera a ChatGPT, el modelo grande de código abierto 70B está en llamas: ajuste fino de IA con IA, producido por Microsoft All-China Class

Fuente: "Qubit" (ID: QbitAI), Autor: Feng Se

Usa instrucciones generadas por IA para afinar el modelo de alpaca grande, y la habilidad matemática supera a ChatGPT——

El último modelo de código abierto de Microsoft WizardMath ya está aquí.

Como se muestra en la siguiente figura, después de probarse en el conjunto de datos GSM8k, la habilidad matemática de WizardMath derrotó directamente a muchos modelos grandes como ChatGPT, Claude Instant 1 y PaLM 2-540B——

Y está bajo la condición de que los parámetros clave sean solo 70 mil millones, que es mucho menos que los últimos tres.

HuggingFace ha lanzado 3 versiones jugables en línea (parámetros 7B, 13B y 70B respectivamente), y se pueden probar varios problemas matemáticos.

Por ejemplo, resuelva la siguiente ecuación polinomial cuártica:

O un simple cálculo:

O una derivación de la ecuación de Lagrange ligeramente modificada:

Todo es correcto (y el proceso no tiene que esperar demasiado).

Algunos internautas le dijeron al autor:

El efecto es realmente sorprendente, gracias por su contribución al LLM de código abierto.

En la actualidad, los códigos, los métodos de reproducción y los documentos relevantes también son de código abierto o en línea, y GitHub ha recibido 4.800 estrellas en tan solo unos días.

Entonces, ¿cómo lo hace exactamente WizardMath?

Mejore las capacidades de modelos grandes con instrucciones generadas por IA

Los grandes modelos de OpenAI (InstructGPT, GPT-4, etc.) han sido capaces de realizar una variedad de tareas complejas y diversas con gran éxito, en parte debido al ajuste fino utilizando datos de instrucciones de dominio abierto generados por usuarios humanos reales.

Sin embargo, no todos tienen acceso a tales conjuntos de datos de comando como lo hace esta empresa.

Una es porque todo el proceso de anotación es extremadamente costoso y requiere mucho tiempo, y la otra es que es difícil para los humanos crear una proporción suficiente de instrucciones difíciles.

Por lo tanto, el desarrollo de un método de producción automática de instrucción de dominio abierto a gran escala y de costo relativamente bajo se ha convertido en la clave para el modelo de lenguaje de ajuste de instrucción actual.

Aquí, los autores llaman a su método Instrucción Evol.

Es un nuevo método de usar IA para reemplazar a los humanos para generar automáticamente instrucciones de campo abierto que cubren varios niveles de dificultad.

Específicamente, Evol Instruction se divide en Instruction Evolver y Instruction Eliminator.

Entre ellos, el desarrollador de instrucciones puede actualizar una instrucción simple a una instrucción más compleja o crear una nueva instrucción a través de dos caminos de evolución profunda (línea azul) o evolución extensa (línea roja).

¿Cuál debería implementarse? Solo elige al azar.

Entre ellos, el "método de evolución" específico de evolución en profundidad se completa a través de cinco tipos de operaciones, que incluyen:

Agregue restricciones, profundice, concrete, aumente los pasos de razonamiento y complique la entrada.

Dado que todas las instrucciones son realizadas por IA, a veces los errores son inevitables. Por lo tanto, el eliminador de instrucciones se utiliza para filtrar las instrucciones fallidas.

Aquí hay un ejemplo concreto de un método que comienza con "1+1=?" y termina generando automáticamente bastantes instrucciones nuevas a través de los pasos anteriores.

Al repetir este proceso de generación, eventualmente podemos obtener suficientes instrucciones y luego combinarlas y codificarlas al azar para formar un conjunto de instrucciones con un nivel de dificultad distribución uniforme, y luego podemos ajustar el modelo grande básico.

Aquí, el autor selecciona los datos de entrenamiento de Alpaca (generados por solo 175 instrucciones semilla creadas artificialmente) como el conjunto de datos inicial, y luego usa la API de ChatGPT para realizar cuatro ciclos de evolución y finalmente obtiene 250,000 instrucciones.

Para poder hacer una comparación justa con los 70.000 datos de usuarios reales de Vicuña (ShareGPT), el autor extrajo una cantidad igual de muestras de los 250.000 datos, entrenó el modelo LLaMA 7B y finalmente obtuvo WizardLM. WizardLM fue significativamente mejor que Vicuna.

(Alpaca: modelo ajustado de Stanford basado en LLaMa-7B; ajuste fino de Vicuna, UC Berkeley basado en LLaMa-13B)

Además, los humanos prefieren la salida de WizardLM a ChatGPT bajo instrucciones de prueba más complejas, lo que sugiere que este método puede mejorar significativamente la capacidad de LLM para manejar instrucciones complejas.

Basándose en esto, el autor usó Evol Instruction para generar muchas instrucciones relacionadas con el campo de las matemáticas y luego perfeccionó el modelo de alpaca grande para obtener WizardMath.

Su efecto es como se muestra al principio. Su capacidad matemática se mide en el conjunto de datos GSM8k, superando a muchos modelos grandes, incluidos ChatGPT, Claude Instant 1, PaLM 2-540B, etc., ocupando el quinto lugar, solo superado por GPT-4 y Claud1. .3 y 2.0, y después de Flan-PaLM 2 con 540 mil millones de parámetros.

Por analogía, el autor también obtuvo WizardCoder, que se especializa en las capacidades de codificación de la alpaca, y el efecto supera a Claude y Bard (para más detalles, haga clic en la dirección al final del artículo).

introducción del equipo

Hay 9 autores en este artículo, todos chinos.

Hay 3 personajes en una obra:

Can Xu, científico sénior de aplicaciones del grupo S+D NLP de Microsoft Asia Internet Engineering Academy, trabajó anteriormente en el sistema de chat robot en Microsoft Xiaobing Research Group y Microsoft Asia Research Institute;

Qingfeng Sun, científico de Microsoft Research, la dirección de la investigación es el procesamiento del lenguaje natural y la recuperación de información, competente en la construcción de sistemas de búsqueda eficientes, contribuyó con modelos profundos centrales a Microsoft Bing y Office 365;

Kai Zheng, científico de Microsoft Research, la dirección de investigación es el procesamiento del lenguaje natural, la búsqueda y la clasificación de recomendaciones, y también contribuyó con el modelo profundo central para Microsoft Bing y Office 365.

El autor correspondiente es Jiang Daxin, socio global y vicepresidente de Microsoft, y ex científico jefe de Microsoft Research Asia. Ha trabajado en Microsoft durante más de 16 años y fue la persona a cargo de la comprensión del lenguaje natural de Microsoft. Buscador Bing y asistente inteligente de Cortana.Se ha revelado que ha dejado su trabajo y se ha dedicado a montar un negocio modelo a gran escala.

Otro autor, Jiazhan Feng, es estudiante de la Universidad de Pekín.Este artículo en coautoría se produjo durante su pasantía en Microsoft.

Página de inicio del proyecto:

Dirección en papel:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)