FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

Модель O3 O3 не соответствует собственным эталонным претензиям

В этом посте:

  • Openai утверждал, что его модель O3 может решить более 25% проблем FrontierMath, но новые тесты Epoch AI показывают, что публичная версия может решить около 10%.
  • Arc Prize и инженер Openai подтверждают, что выпущенная модель - это более тонкая и более высокая сборка, настроенная для использования чата.
  • Соперничающие компании, в том числе XAI и Meta, также сталкиваются с проверкой на раздутые эталонные результаты.

Новейший LLM Openai, O3, сталкивается с проверкой после того, какdent тесты обнаружили, что он решил гораздо меньшее количество жестких математических задач, чем компания впервые заявила. 

Когда Openai обнародовал O3 в декабре, руководители заявили, что модель может ответить «чуть более четверти» проблем в FrontierMath, общеизвестно жестком наборе математических головоломок выпускника.

Лучший конкурент, добавили они, застряли около 2%. «Сегодня все предложения имеют менее 2%», - сказал главный директор по исследованию Марк Чен в Mini Livestream . «Мы видим, что с O3 в агрессивных настройках вычислительных вычислений, мы можем получить более 25%».

TechCrunch сообщил , что результат был получен OpenAI на версии O3, которая использовала больше компьютерной мощности, чем модель, которую компания выпустила на прошлой неделе.

В пятницу исследовательский институт Epoch AI, который создал FrontierMath, опубликовал свой собственный счет для публичного O3.

Используя обновленное 290 -вопросительное издание The Bendchmark, Epoch поставила модель примерно на 10%.

Результат соответствует не более низкому фигуру в декабрьской технической статье Openai, и Epoch предусматривала, что расхождение может быть связано с различными причинами.

См. Также  Человек из Коннектикута признает себя виновным в краже 245 миллионов долларов в BTC

«Разница между нашими результатами и OpenAI может быть связана с тем, что OpenAI оценивает с более мощным внутренним каркасом, с использованием большего количества вычислений на тестировании или потому, что эти результаты были запускаются в другом подмножестве FrontierMath», - пишет .

FrontierMath предназначен для измерения прогресса в направлении передовыхmaticрассуждений. Общественный набор декабря 2024 года содержал 180 проблем, в то время как частное обновление в феврале 2025 года расширило пул до 290.

Сдвиги в списке вопросов и объем вычислительной мощности, разрешенной во время тестирования, могут вызвать большие перепады в процентах.

OpenAI подтвердил, что модель Public O3 использует меньше вычислений, чем демонстрационная версия

Доказательства того, что коммерческий O3 не хватает, также поступили из -за испытаний фонда Arc Prize, который попробовал более раннюю, более крупную сборку. Общественный релиз « - это другая модель… настроенная для использования чата/продукта», Arc Price Foundation опубликовал на X, добавив, что «все выпущенные O3 Compute Lears меньше, чем версия, которую мы оценивали».

Сотрудник Openai Венда Чжоу предложила аналогичное объяснение во время прямой трансляции на прошлой неделе. Производственная система, по его словам, была «более оптимизирована для вариантов использования реального мира» и скорости. «Мы сделали [оптимизации], чтобы сделать модель более экономичной [и] более полезной в целом», - сказал Чжоу, признавая возможные контрольные «различия».

Две небольшие модели от компании, O3 -Mini -High и недавно анонсированного O4 -Mini, уже победили O3 на FrontierMath, и Openai говорит, что лучший вариант O3 -Pro появится в ближайшие недели.

См. Также  Bank of England, чтобы обуздать банк -криптографию к 2026 году.

Тем не менее, это показывает, как эталонные заголовки могут вводить в заблуждение. В январе Эпох подвергся критике за откладывание раскрытия финансирования OpenAI до дебюта O3. Совсем недавно стартап Elon Musk Xai был обвинен в представлении графиков, которые завышали возможности модели Grok 3.

Наблюдатели отрасли говорят, что такие эталонные противоречия становятся происходящими в индустрии искусственного интеллекта, поскольку компании участвуют в заголовках, чтобы захватить заголовки с помощью новых моделей.

Криптополитическая академия: скоро появится - новый способ заработать пассивный доход с DeFi в 2025 году. Узнайте больше

Поделиться ссылкой:

Отказ от ответственности. Предоставленная информация не является торговым советом. Cryptopolitan.com не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы tron рекомендуем провести dent исследование и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалюты, получайте ежедневные обновления на свой почтовый ящик.

Выбор редактора

Загрузка статей "Выбор редакции"...

- Крипто -информационный бюллетень, который держит вас вперед -

Рынки движутся быстро.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременную, острую и соответствующую криптографию прямо к вашему почтовым ящику.

Присоединяйтесь сейчас и
никогда не пропустите ход.

Войти. Получите факты.
Продвинуться вперед.

Подпишитесь на КриптоПолитан