Модель o3 от OpenAI не соответствует заявленным производителем показателям производительности

- Компания OpenAI утверждала, что её модель o3 способна решить более 25% задач FrontierMath, однако новые тесты Epoch AI показывают, что общедоступная версия может решить лишь около 10%.
- Представители ARC Prize и инженер OpenAI подтверждают, что выпущенная модель представляет собой более компактную и быструю версию, оптимизированную для использования в чате.
- Конкурирующие компании, включая xAI и Meta, также подвергаются критике за завышенные результаты бенчмарков.
Новейшая программа LLM от OpenAI, o3, подверглась критике после того, какdent тесты показали, что она решила гораздо меньшее количество сложных математических задач, чем компания первоначально заявляла.
Когда в декабре OpenAI представила o3, руководители компании заявили, что модель может ответить на «чуть более четверти» задач из FrontierMath, печально известного набора сложных математических головоломок для аспирантов.
По их словам, лучший конкурент застрял на уровне около 2%. «Сегодня у всех предложений на рынке этот показатель ниже 2%», — сказал главный научный сотрудник Марк Чен во время прямой трансляции. «Мы видим, что с o3 в агрессивных настройках вычислительных ресурсов во время тестирования нам удается достичь показателя выше 25%».
издание TechCrunch Как сообщило , результат был получен компанией OpenAI на версии o3, которая использовала больше вычислительной мощности, чем модель, выпущенная компанией на прошлой неделе..
В пятницу исследовательский институт Epoch AI, создавший FrontierMath, опубликовал свой собственный результат для публичного теста o3.
Компания OpenAI выпустила o3, свою долгожданную модель логического мышления, а также o4-mini, более компактную и дешевую модель, которая является преемницей o3-mini.
Мы оценили новые модели на нашем наборе математических и научных тестов. Результаты в ветке обсуждения! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 апреля 2025 г.
Используя обновленную версию эталонного теста, состоящую из 290 вопросов, компания Epoch оценила точность модели примерно в 10%.
Полученный результат совпадает с нижней границей, указанной в декабрьском техническом документе OpenAI, и компания Epoch предупредила, что расхождение может быть вызвано различными причинами.
«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI использовала более мощную внутреннюю структуру для оценки, задействовала больше вычислительных ресурсов во время тестирования или потому, что эти результаты были получены на другом подмножестве FrontierMath», — написало.
FrontierMath предназначен для измерения прогресса в освоении сложныхmaticрассуждений. В публичный набор задач, выпущенный в декабре 2024 года, входило 180 задач, а в закрытое обновление в феврале 2025 года количество задач увеличилось до 290.
Изменения в списке вопросов и объеме вычислительной мощности, разрешенной во время тестирования, могут привести к значительным колебаниям в сообщаемых процентах.
Компания OpenAI подтвердила, что общедоступная модель o3 использует меньше вычислительных ресурсов, чем демонстрационная версия
Доказательства недостатков коммерческой версии o3 также были получены в ходе тестов, проведенных фондом ARC Prize Foundation, который опробовал более раннюю, более крупную сборку. Публичный релиз «представляет собой другую модель… оптимизированную для использования в чате/продукте», — написали на X, добавив, что «все выпущенные вычислительные уровни o3 меньше по размеру, чем версия, которую мы тестировали».
Сотрудник OpenAI Венда Чжоу дал аналогичное объяснение во время прямой трансляции на прошлой неделе. По его словам, производственная система «более оптимизирована для реальных сценариев использования» и скорости. «Мы провели [оптимизацию], чтобы сделать модель более экономичной и в целом более полезной», — сказал Чжоу, признав при этом возможные «расхождения» в результатах тестирования
Две более компактные модели от компании, o3-mini-high и недавно анонсированная o4-mini, уже превзошли o3 в тесте FrontierMath, а OpenAI заявляет, что улучшенная версия o3-pro появится в ближайшие недели.
Тем не менее, это показывает, насколько вводящими в заблуждение могут быть заголовки бенчмарков. В январе Epoch подверглась критике за задержку с раскрытием информации о финансировании OpenAI до дебюта o3. Совсем недавно стартап Илона Маска xAI обвинили в представлении графиков, которые преувеличивали возможности его модели Grok 3.
Эксперты отрасли отмечают, что подобные споры вокруг эталонных показателей становятся все более распространенным явлением в индустрии искусственного интеллекта, поскольку компании стремятся привлечь внимание СМИ с помощью новых моделей.
Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.
Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Нур Базми
Нур Базми, обладая степенью в области медиаисследований, сотрудничает с новостной командой Cryptopolitan . Нур освещает новости о блокчейне, криптовалютах, искусственном интеллекте, крупных технологических компаниях, рынках электромобилей, мировой экономике и изменениях в государственной политике. Она также изучает маркетинг, чтобы наладить связь с глобальной аудиторией.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)















