Компания OpenAI наконец-то представила модель искусственного интеллекта GPT 4.5, но в некоторых задачах она уступает конкурентам

Шуммас

Хумаюн

4 минуты чтения, 1 марта 2025 г.

Компания OpenAI наконец-то представила свою крупнейшую модель искусственного интеллекта, GPT-4.5, получившую кодовое название «Orion».
GPT-4.5 отстает от конкурентов, таких как Claude 3.7 Sonnet от Anthropic, в выполнении академических заданий.
По сравнению с 4o и o3-mini, он вызывает более выраженный согревающий эффект.

Компания OpenAI представила модель GPT-4.5, получившую кодовое название Orion, которая, по словам компании, является самой крупной моделью на сегодняшний день. Многие в технологическом сообществе с нетерпением ждали следующего шага в серии моделей GPT, которые ранее продемонстрировалиmatic успехи в области письма, математики, программирования и других областях.

Компания OpenAI разработала GPT-4.5 поэтапно. Подписчики тарифного плана ChatGPT Pro за 200 долларов в месяц получают немедленный доступ в рамках предварительного тестирования. Разработчики, использующие платные тарифные планы API OpenAI, также могут получить доступ к GPT-4.5 сразу же. Следующими в очереди будут клиенты ChatGPT Plus и ChatGPT Team, представитель OpenAI заявил, что новая модель должна стать доступной для них на следующей неделе. По словам OpenAI, частичный релиз обусловлен огромными вычислительными затратами на эту «гигантскую» систему.

Сегодня мы выпускаем предварительную исследовательскую версию GPT-4.5 — нашей самой масштабной и лучшей модели для чата на сегодняшний день.

Она уже доступна всем пользователям ChatGPT Pro, на следующей неделе — пользователям Plus и Team, а ещё через неделю — пользователям Enterprise и Edu. pic.twitter.com/br5win5OEB
— OpenAI (@OpenAI) 27 февраля 2025 г

В технических кругах появление GPT-4.5 рассматривалось как показатель того, будут ли традиционные методы обучения — в основном, увеличение объема данных и вычислительных ресурсов — и впредь демонстрировать значительный прирост производительности. До сих пор серия GPT следовала довольно предсказуемой схеме. Версии, такие как GPT-1, GPT-2, GPT-3 и GPT-4, демонстрировали заметный скачок в возможностях всякий раз, когда OpenAI увеличивала вычислительную мощность и подавала больше обучающих данных.

В каждом поколении показатели поmatic, письму, программированию и другим категориямmaticулучшались. GPT-4.5 стремится продолжить эту тенденцию, предлагая, по словам компании, «более глубокое знание мира» и «более высокий уровень эмоционального интеллекта». Но в то же время результаты GPT-4.5 по некоторым тестам указывают на то, что отдача от простого масштабирования, возможно, стабилизируется.

Начальные характеристики и ограничения GPT-4.5

OpenAI подчеркивает, что GPT-4.5 не следует рассматривать как прямую замену GPT-40. GPT-4.5 включает в себя расширенные функции, такие как поддержка загрузки файлов и изображений, а также инструмент «холст» ChatGPT для создания креативных работ. Однако в настоящее время он не поддерживает недавно представленный в ChatGPT двусторонний голосовой режим.

Предварительные оценки, проведенные OpenAI и другими исследователями, показывают, что GPT-4.5 превосходит GPT-4o в нескольких категориях тестирования. Например, в бенчмарке SimpleQA — тесте, предназначенном для измерения того, насколько хорошо модель может отвечать на простые фактические вопросы — GPT-4.5 показал более высокие показатели точности, чем GPT-4o, а также превзошел модели рассуждений o1 и o3-mini от OpenAI. По данным компании, GPT-4.5 «галлюцинирует» реже, чем многие другие системы, то есть он менее склонен генерировать контент, отклоняющийся от реальной информации.

Тесты GPT-4.5 SimpleQA. Источник: OpenAI

В тестах на программирование результаты более неоднозначны. В бенчмарке SWE-Bench Verified GPT-4.5 примерно соответствует GPT-4o и o3-mini, но не превосходит их. Это ставит GPT-4.5 ниже как модели глубокого исследования OpenAI, так и модели Claude 3.7 Sonnet от Anthropic.

В другом тесте на программирование, известном как SWE-Lancer, GPT-4.5 показывает лучшие результаты, чем GPT-4o и o3-mini, но все еще отстает от результатов глубокого исследования.

Тесты GPT-4.5 SWE-Lancer. Источник: OpenAI

Производительность GPT-4.5 также различается на сложных академических тестах. На AIME и GPQA он не достигает результатов, которые демонстрируют лучшие модели, такие как o3-mini, DeepSeek R1 или Anthropic Claude 3.7 Sonnet. Тем не менее, GPT-4.5 соответствует или иногда превосходит ведущие модели, не классифицируемые как «системы рассуждений», что подчеркивает, что GPT-4.5 сохраняет надежные возможности в области математики и естественных наук.

Компания OpenAI также подчеркнула сильные стороны GPT-4.5 в менее поддающихся количественной оценке областях. По словам компании, GPT-4.5 лучше понимает намерения человека и выдает ответы, которые кажутся более теплыми, естественными и социально ориентированными.

Неформальный тест включал в себя вопрос: «Я переживаю трудный период после провала на экзамене». Хотя две другие модели предоставили полезную информацию, было отмечено, что GPT-4.5 реагирует с большей эмпатией и эмоциональной чувствительностью.

«Мы надеемся получить более полное представление о возможностях GPT-4.5 благодаря этому релизу, — написала OpenAI в своем блоге, — поскольку понимаем, что академические тесты не всегда отражают реальную полезность»

GPT-4.5 демонстрирует более высокую чувствительность, чем 4o и o3-mini. Источник: OpenAI

Законы масштабирования под пристальным вниманием

GPT-4.5 был создан с использованием той же стратегии обучения без учителя, что и в предыдущих версиях GPT, — стратегии, которая до сих пор доказала свою надежность. Однако его ограниченная производительность на некоторых высокоуровневых тестах может свидетельствовать о том, что традиционные «законы масштабирования» в отрасли, возможно, теряют свою эффективность.

Илья Суцкевер, соучредитель и бывший главный научный сотрудник OpenAI, в декабре заявил, что «мы достигли пика в обработке данных» и что «предварительное обучение в том виде, в каком мы его знаем, несомненно, закончится». Тогда он намекнул, что будущие достижения будут зависеть от других методов, таких как системы, способные глубже анализировать проблемы, а не просто запоминать огромные массивы информации.

Илья Суцкевер и Сэм Альтман в ТАУ. Источник: TAUVOD на YouTube

Как указано в техническом документе , обучение GPT-4.5 оказалось «невероятно дорогим», и в течение нескольких месяцев ходили слухи о том, что OpenAI неоднократно откладывала выпуск из-за проблем с производительностью и стоимостью. Тем не менее, GPT-4.5 сам по себе, похоже, не превосходит специализированные модели рассуждений конкурентов во многих сложных задачах. Сама компания рассматривает это как еще одну веху в разработке на пути к объединению технологии GPT со своими системами рассуждений типа «o», интеграция которых, как ожидается, начнется с запуском GPT-5 в конце этого года.

Комментарии генерального директора Сэма Альтмана по поводу нехватки графических процессоров

Генеральный директор OpenAI Сэм Альтман в своем аккаунте X (ранее Twitter) объяснил, почему внедрение последней модели происходит поэтапно. «Мы значительно выросли, и у нас закончились графические процессоры», — написал Альтман, назвав GPT-4.5 «гигантской» и «дорогой» и предупредив, что компании потребуется еще «десятки тысяч» графических процессоров, прежде чем она сможет открыть эту модель для остальной части пользовательской базы.

GPT-4.5 готов!

Хорошие новости: это первая модель, с которой я чувствую себя так, будто разговариваю с вдумчивым человеком. У меня было несколько моментов, когда я откидывался на спинку кресла и был поражен тем, насколько действительно дельные советы давал мне ИИ.

Плохие новости: это огромная и дорогая модель. Мы…
— Сэм Альтман (@sama) 27 февраля 2025 г

Из-за своего большого размера GPT-4.5 оказывается очень дорогим. OpenAI взимает 75 долларов за миллион токенов за входные данные и 150 долларов за миллион токенов, сгенерированных моделью. Это в 30 и 15 раз дороже по сравнению с моделью GPT-40.

Он пояснил: «На следующей неделе мы добавим десятки тысяч графических процессоров и затем внедрим их в тарифный план Plus… Мы не хотели бы работать таким образом, но сложно точно предсказать всплески роста, которые приводят к дефициту графических процессоров»

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

OpenAI

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Шуммас Хумаюн

Шуммас — бывший технический писатель и исследователь.

ОГЛАВЛЕНИЕ

1. Начальные характеристики и ограничения GPT-4.5

2. Законы масштабирования под пристальным вниманием

3. Комментарии генерального директора Сэма Альтмана по поводу нехватки графических процессоров

Поделитесь этой статьей