El 23 de febrero, según los datos de Jinshi, recientemente, un empleado de OpenAI acusó públicamente a xAI, una empresa subsidiaria de Elon Musk, de publicar resultados engañosos de las pruebas de referencia del último modelo de IA, Grok3. Igor Babushkin, cofundador de xAI, afirmó firmemente que la empresa no hizo nada indebido. Los gráficos de xAI muestran que las dos versiones de Grok3, Grok3 Reasoning Beta y Grok3 mini Reasoning, superaron el rendimiento del modelo más potente actualmente disponible de OpenAI, o3-mini-high, en AIME 2025. Sin embargo, los empleados de OpenAI señalaron rápidamente en la plataforma X que los gráficos de xAI no incluían la puntuación de AIME 2025 de o3-mini-high bajo la condición de "cons@64". Babushkin argumentó en la plataforma X que OpenAI también había publicado en el pasado gráficos de pruebas de referencia engañosos similares, aunque estos gráficos se usaron para comparar el rendimiento de sus propios modelos.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Los empleados de OpenAI acusan públicamente a Grok3 de tener resultados de prueba engañosos
El 23 de febrero, según los datos de Jinshi, recientemente, un empleado de OpenAI acusó públicamente a xAI, una empresa subsidiaria de Elon Musk, de publicar resultados engañosos de las pruebas de referencia del último modelo de IA, Grok3. Igor Babushkin, cofundador de xAI, afirmó firmemente que la empresa no hizo nada indebido. Los gráficos de xAI muestran que las dos versiones de Grok3, Grok3 Reasoning Beta y Grok3 mini Reasoning, superaron el rendimiento del modelo más potente actualmente disponible de OpenAI, o3-mini-high, en AIME 2025. Sin embargo, los empleados de OpenAI señalaron rápidamente en la plataforma X que los gráficos de xAI no incluían la puntuación de AIME 2025 de o3-mini-high bajo la condición de "cons@64". Babushkin argumentó en la plataforma X que OpenAI también había publicado en el pasado gráficos de pruebas de referencia engañosos similares, aunque estos gráficos se usaron para comparar el rendimiento de sus propios modelos.