Сотрудники OpenAI публично обвинили тесты Бенчмарк Grok3 в искажении результатов

GoldenOctober2024

2025-02-23 02:44:46

Генерация тезисов в процессе

Golden Ten Data, 23 февраля, недавно сотрудник OpenAI публично обвинил компанию xAI Илона Маска, заявив, что результаты тестирования Бенчмарка последней модели искусственного интеллекта Grok3, выпущенные ею, вводят в заблуждение. В ответ сооснователь xAI Игорь Бабушкин настаивал на том, что компания не ошиблась. Графики xAI показывают, что две версии Grok3 — Grok3 Reasoning Beta и Grok3 mini Reasoning — превзошли самую сильную в настоящее время доступную модель OpenAI, o3-mini-high, на AIME 2025. Тем не менее, сотрудники OpenAI поспешили указать на платформе X, что график xAI не включает оценку AIME 2025 в размере o3-mini-high в условиях «cons@64». Бабушкин утверждает на платформе X, что OpenAI в прошлом публиковала подобные вводящие в заблуждение тестовые таблицы Бенчмарка. Хотя эти графики используются для сравнения производительности собственных моделей.

GROK2.41%

XAI5.57%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

3 Лайков

Награда
3
2
Репост
Поделиться

комментарий

0/400

Birakeneweko

· 02-23 03:48

Бычий рынок 🐂

Посмотреть ОригиналОтветить0

Renatinho25

· 02-23 02:47

Инвестируйте 🚀

Посмотреть ОригиналОтветить0

Тема
#Gate Square Qixi Celebration
15k Популярность
#Crypto Market Pullback
277k Популярность
#Trump Removes Fed Governor Cook
12k Популярность
#Companies Expand Crypto Reserves
2k Популярность
#Gate Alpha DORA Points Airdrop
882 Популярность

Закрепить

Карта сайта