Your bank is using your money. You’re getting the scraps.WATCH FREE

Модель o3 от OpenAI не соответствует заявленным производителем показателям производительности

В этом посте:

  • Компания OpenAI утверждала, что её модель o3 способна решить более 25% задач FrontierMath, однако новые тесты Epoch AI показывают, что общедоступная версия может решить лишь около 10%.
  • Представители ARC Prize и инженер OpenAI подтверждают, что выпущенная модель представляет собой более компактную и быструю версию, оптимизированную для использования в чате.
  • Конкурирующие компании, включая xAI и Meta, также подвергаются критике за завышенные результаты бенчмарков.

Новейшая программа LLM от OpenAI, o3, подверглась критике после того, какdent тесты показали, что она решила гораздо меньшее количество сложных математических задач, чем компания первоначально заявляла. 

Когда в декабре OpenAI представила o3, руководители компании заявили, что модель может ответить на «чуть более четверти» задач из FrontierMath, печально известного набора сложных математических головоломок для аспирантов.

По их словам, лучший конкурент застрял на уровне около 2%. «Сегодня у всех предложений на рынке этот показатель ниже 2%», — сказал главный научный сотрудник Марк Чен во время прямой трансляции . «Мы видим, что с o3 в агрессивных настройках вычислительных ресурсов во время тестирования нам удается достичь показателя выше 25%».

Как сообщило издание TechCrunch , результат был получен компанией OpenAI на версии o3, которая использовала больше вычислительной мощности, чем модель, выпущенная компанией на прошлой неделе..

В пятницу исследовательский институт Epoch AI, создавший FrontierMath, опубликовал свой собственный результат для публичного теста o3.

Используя обновленную версию эталонного теста, состоящую из 290 вопросов, компания Epoch оценила точность модели примерно в 10%.

Полученный результат совпадает с нижней границей, указанной в декабрьском техническом документе OpenAI, и компания Epoch предупредила, что расхождение может быть вызвано различными причинами.

Читайте также:  Украинский разработчик Андрей Костюшко анонсирует Threads of War: уникальную коллаборацию

«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI использовала более мощную внутреннюю структуру для оценки, задействовала больше вычислительных ресурсов во время тестирования или потому, что эти результаты были получены на другом подмножестве FrontierMath», — написало .

FrontierMath предназначен для измерения прогресса в освоении сложныхmaticрассуждений. В публичный набор задач, выпущенный в декабре 2024 года, входило 180 задач, а в закрытое обновление в феврале 2025 года количество задач увеличилось до 290.

Изменения в списке вопросов и объеме вычислительной мощности, разрешенной во время тестирования, могут привести к значительным колебаниям в сообщаемых процентах.

Компания OpenAI подтвердила, что общедоступная модель o3 использует меньше вычислительных ресурсов, чем демонстрационная версия

Подтверждением отсутствия производительности в коммерческой версии o3 также стали тесты, проведённые фондом ARC Price Foundation, который опробовал более раннюю, более крупную сборку. Публичная версия «представляет собой другую модель… оптимизированную для использования в чатах/продуктах», — написал в X, добавив, что «все выпущенные вычислительные уровни o3 меньше, чем версия, которую мы тестировали».

Сотрудник OpenAI Венда Чжоу дал аналогичное объяснение во время прямой трансляции на прошлой неделе. По его словам, производственная система «более оптимизирована для реальных сценариев использования» и скорости. «Мы провели [оптимизацию], чтобы сделать модель более экономичной и в целом более полезной», — сказал Чжоу, признав при этом возможные «расхождения» в результатах тестирования

Две более компактные модели от компании, o3-mini-high и недавно анонсированная o4-mini, уже превзошли o3 в тесте FrontierMath, а OpenAI заявляет, что улучшенная версия o3-pro появится в ближайшие недели.

См. также:  ENS Labs запускает Namechain, сеть второго уровня, использующую алгоритмы агрегирования с нулевым разглашением.

Тем не менее, это показывает, насколько вводящими в заблуждение могут быть заголовки бенчмарков. В январе Epoch подверглась критике за задержку с раскрытием информации о финансировании OpenAI до дебюта o3. Совсем недавно стартап Илона Маска xAI обвинили в представлении графиков, которые преувеличивали возможности его модели Grok 3.

Эксперты отрасли отмечают, что подобные споры вокруг эталонных показателей становятся все более распространенным явлением в индустрии искусственного интеллекта, поскольку компании стремятся привлечь внимание СМИ с помощью новых моделей.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно .

Поделиться ссылкой:

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitan не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы настоятельно tron провести независимое dent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременные, точные и актуальные аналитические материалы о криптовалютах прямо на свою электронную почту.

Присоединяйтесь прямо сейчас и
ничего не пропустите.

Заходите. Получайте достоверную информацию.
Опережайте события.

Подпишитесь на CryptoPolitan