Новейшая программа LLM от OpenAI, o3, подверглась критике после того, какdent тесты показали, что она решила гораздо меньшее количество сложных математических задач, чем компания первоначально заявляла.
Когда в декабре OpenAI представила o3, руководители компании заявили, что модель может ответить на «чуть более четверти» задач из FrontierMath, печально известного набора сложных математических головоломок для аспирантов.
По их словам, лучший конкурент застрял на уровне около 2%. «Сегодня у всех предложений на рынке этот показатель ниже 2%», — сказал главный научный сотрудник Марк Чен во время прямой трансляции . «Мы видим, что с o3 в агрессивных настройках вычислительных ресурсов во время тестирования нам удается достичь показателя выше 25%».
Как сообщило издание TechCrunch , результат был получен компанией OpenAI на версии o3, которая использовала больше вычислительной мощности, чем модель, выпущенная компанией на прошлой неделе..
В пятницу исследовательский институт Epoch AI, создавший FrontierMath, опубликовал свой собственный результат для публичного теста o3.
Компания OpenAI выпустила o3, свою долгожданную модель логического мышления, а также o4-mini, более компактную и дешевую модель, которая является преемницей o3-mini.
Мы оценили новые модели на нашем наборе математических и научных тестов. Результаты в ветке обсуждения! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 апреля 2025 г.
Используя обновленную версию эталонного теста, состоящую из 290 вопросов, компания Epoch оценила точность модели примерно в 10%.
Полученный результат совпадает с нижней границей, указанной в декабрьском техническом документе OpenAI, и компания Epoch предупредила, что расхождение может быть вызвано различными причинами.
«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI использовала более мощную внутреннюю структуру для оценки, задействовала больше вычислительных ресурсов во время тестирования или потому, что эти результаты были получены на другом подмножестве FrontierMath», — написало .
FrontierMath предназначен для измерения прогресса в освоении сложныхmaticрассуждений. В публичный набор задач, выпущенный в декабре 2024 года, входило 180 задач, а в закрытое обновление в феврале 2025 года количество задач увеличилось до 290.
Изменения в списке вопросов и объеме вычислительной мощности, разрешенной во время тестирования, могут привести к значительным колебаниям в сообщаемых процентах.
Компания OpenAI подтвердила, что общедоступная модель o3 использует меньше вычислительных ресурсов, чем демонстрационная версия
Подтверждением отсутствия производительности в коммерческой версии o3 также стали тесты, проведённые фондом ARC Price Foundation, который опробовал более раннюю, более крупную сборку. Публичная версия «представляет собой другую модель… оптимизированную для использования в чатах/продуктах», — написал в X, добавив, что «все выпущенные вычислительные уровни o3 меньше, чем версия, которую мы тестировали».
Сотрудник OpenAI Венда Чжоу дал аналогичное объяснение во время прямой трансляции на прошлой неделе. По его словам, производственная система «более оптимизирована для реальных сценариев использования» и скорости. «Мы провели [оптимизацию], чтобы сделать модель более экономичной и в целом более полезной», — сказал Чжоу, признав при этом возможные «расхождения» в результатах тестирования
Две более компактные модели от компании, o3-mini-high и недавно анонсированная o4-mini, уже превзошли o3 в тесте FrontierMath, а OpenAI заявляет, что улучшенная версия o3-pro появится в ближайшие недели.
Тем не менее, это показывает, насколько вводящими в заблуждение могут быть заголовки бенчмарков. В январе Epoch подверглась критике за задержку с раскрытием информации о финансировании OpenAI до дебюта o3. Совсем недавно стартап Илона Маска xAI обвинили в представлении графиков, которые преувеличивали возможности его модели Grok 3.
Эксперты отрасли отмечают, что подобные споры вокруг эталонных показателей становятся все более распространенным явлением в индустрии искусственного интеллекта, поскольку компании стремятся привлечь внимание СМИ с помощью новых моделей.

