Новейший LLM Openai, O3, сталкивается с проверкой после того, какdent тесты обнаружили, что он решил гораздо меньшее количество жестких математических задач, чем компания впервые заявила.
Когда Openai обнародовал O3 в декабре, руководители заявили, что модель может ответить «чуть более четверти» проблем в FrontierMath, общеизвестно жестком наборе математических головоломок выпускника.
Лучший конкурент, добавили они, застряли около 2%. «Сегодня все предложения имеют менее 2%», - сказал главный директор по исследованию Марк Чен в Mini Livestream . «Мы видим, что с O3 в агрессивных настройках вычислительных вычислений, мы можем получить более 25%».
TechCrunch сообщил , что результат был получен OpenAI на версии O3, которая использовала больше компьютерной мощности, чем модель, которую компания выпустила на прошлой неделе.
В пятницу исследовательский институт Epoch AI, который создал FrontierMath, опубликовал свой собственный счет для публичного O3.
OpenAI выпустила O3, их долгожданную модель рассуждений, наряду с O4-Mini, меньшей и более дешевой моделью, которая сменила O3-Mini.
Мы оценили новые модели на нашем наборе математических и научных показателей. Приводит к потоке! pic.twitter.com/5gbtzkey1b
- Epoch AI (@Epochairesearch) 18 апреля 2025 г.
Используя обновленное 290 -вопросительное издание The Bendchmark, Epoch поставила модель примерно на 10%.
Результат соответствует не более низкому фигуру в декабрьской технической статье Openai, и Epoch предусматривала, что расхождение может быть связано с различными причинами.
«Разница между нашими результатами и OpenAI может быть связана с тем, что OpenAI оценивает с более мощным внутренним каркасом, с использованием большего количества вычислений на тестировании или потому, что эти результаты были запускаются в другом подмножестве FrontierMath», - пишет .
FrontierMath предназначен для измерения прогресса в направлении передовыхmaticрассуждений. Общественный набор декабря 2024 года содержал 180 проблем, в то время как частное обновление в феврале 2025 года расширило пул до 290.
Сдвиги в списке вопросов и объем вычислительной мощности, разрешенной во время тестирования, могут вызвать большие перепады в процентах.
OpenAI подтвердил, что модель Public O3 использует меньше вычислений, чем демонстрационная версия
Доказательства того, что коммерческий O3 не хватает, также поступили из -за испытаний фонда Arc Prize, который попробовал более раннюю, более крупную сборку. Общественный релиз « - это другая модель… настроенная для использования чата/продукта», Arc Price Foundation опубликовал на X, добавив, что «все выпущенные O3 Compute Lears меньше, чем версия, которую мы оценивали».
Сотрудник Openai Венда Чжоу предложила аналогичное объяснение во время прямой трансляции на прошлой неделе. Производственная система, по его словам, была «более оптимизирована для вариантов использования реального мира» и скорости. «Мы сделали [оптимизации], чтобы сделать модель более экономичной [и] более полезной в целом», - сказал Чжоу, признавая возможные контрольные «различия».
Две небольшие модели от компании, O3 -Mini -High и недавно анонсированного O4 -Mini, уже победили O3 на FrontierMath, и Openai говорит, что лучший вариант O3 -Pro появится в ближайшие недели.
Тем не менее, это показывает, как эталонные заголовки могут вводить в заблуждение. В январе Эпох подвергся критике за откладывание раскрытия финансирования OpenAI до дебюта O3. Совсем недавно стартап Elon Musk Xai был обвинен в представлении графиков, которые завышали возможности модели Grok 3.
Наблюдатели отрасли говорят, что такие эталонные противоречия становятся происходящими в индустрии искусственного интеллекта, поскольку компании участвуют в заголовках, чтобы захватить заголовки с помощью новых моделей.
Криптополитическая академия: скоро появится - новый способ заработать пассивный доход с DeFi в 2025 году. Узнайте больше