ПОСЛЕДНИЕ НОВОСТИ

жить Bitcoin резко упал до отметки в 65 000 долларов впервые с февраля

2 июня 2026 г. — Прямые трансляции
Обновленная версия Siri от Apple будет работать в облаке Google с использованием чипов Nvidia Blackwell

27 минут назад Технологии
Coinbase и Better заключили первое соглашение о выдаче ипотечного кредита, обеспеченного bitcoin, и планируют запустить его летом

1 час назад Новости
Россия ввела санкции против британского подростка, разоблачившего сеть отмывания криптовалюты A7A5

2 часа назад Новости

ПОДОБРАНО ДЛЯ ВАС

Еженедельно

ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Новые модели ChatGPT от OpenAI чаще «галлюцинируют»

Шуммас

Хумаюн

3 минуты чтения, 19 апреля 2025 г.

Новые модели ChatGPT от OpenAI чаще «галлюцинируют»

Новые модели o3 и o4-mini от OpenAI демонстрируют более впечатляющие результаты, чем старые версии, и нарушают прежние тенденции к улучшению.
Тесты показывают, что o3 и o4-mini выдумывают факты в два раза чаще, а o4-mini испытывает галлюцинации почти в половине случаев.
Поиск в режиме реального времени может помочь уменьшить количество ошибок, но первопричина участившихся галлюцинаций остается неизвестной.

Как показали внутренние и внешние тесты, новейшие модели логического мышления OpenAI, o3 и o4‑mini, чаще выдают вымышленные ответы, чем более ранние модели компании.

Рост числа так называемых галлюцинаций нарушает давнюю тенденцию, согласно которой каждый новый релиз, как правило, содержал меньше информации, чем предыдущий.

OpenAIнаглядно демонстрируют проблему. В PersonQA, бенчмарке компании, проверяющем, насколько хорошо модель запоминает факты о людях, o3 выдумывала информацию в 33% ответов, что примерно вдвое превышает показатели o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini показала еще худшие результаты, выдумывая информацию в 48% случаев.

В техническом отчете подробно изложены результаты исследования. Инженеры пишут, что новые модели превосходят предыдущие версии по программированию и математическим вычислениям, однако, поскольку они «в целом делают больше заявлений», они также делают «более точные заявления, а также более неточные/вымышленные заявления». В документе добавляется, что «необходимы дополнительные исследования», чтобы объяснить снижение надежности.

OpenAI классифицирует системы серии o как модели, способные к рассуждению, и эта позиция была принята как самой компанией, так и большей частью отрасли за последний год. Традиционные модели, не способные к рассуждению, такие как GPT-4o с веб-поиском, превзошли новейшую пару по точности: GPT-4o с поиском достигает 90-процентной точности на SimpleQA, другом собственном бенчмарке компании.

Модель o3 от OpenAI делает шаги вперед

Transluce, некоммерческая лаборатория искусственного интеллекта, сообщила, что модель o3 выдумывает шаги. В одном из запусков модель заявила, что выполнила код на MacBook Pro 2021 года «вне ChatGPT», а затем скопировала числа обратно. Модель просто не способна на это.

«Наша гипотеза заключается в том, что тип обучения с подкреплением, используемый для моделей o-серий, может усиливать проблемы, которые обычно смягчаются (но не полностью устраняются) стандартными конвейерами постобработки», — заявил в электронном письме Нил Чоудхури, исследователь Transluce и бывший сотрудник OpenAI.

Соучредитель Transluce Сара Шветтманн заявила, что более высокий уровень ошибок может сделать o3 менее полезным, чем предполагают его базовые характеристики.

Киан Катанфоруш, адъюнкт-профессор Стэнфордского университета, рассказал TechCrunch, что его команда уже тестирует o3 для решения задач по программированию и считает его «на шаг впереди конкурентов». Однако он сообщил об еще одном недостатке: модель часто возвращает веб-ссылки, которые не работают при нажатии.

Галлюцинации могут стимулировать творчество, но они затрудняют внедрение таких систем в бизнесе, где важна точность. Например, юридическая фирма, занимающаяся составлениемtrac, вряд ли потерпит частые фактические ошибки.

Поиск в реальном времени может уменьшить количество галлюцинаций в моделях искусственного интеллекта

Одним из возможных решений является поиск в реальном времени. Версия GPT-4o от OpenAI, которая обращается к веб-ресурсам, уже показывает лучшие результаты на SimpleQA. В отчете предполагается, что та же тактика может уменьшить количество ошибок в моделях рассуждений, по крайней мере, когда пользователи готовы отправлять запросы стороннему поисковому движку.

«Проблема галлюцинаций во всех наших моделях — это постоянно развивающаяся область исследований, и мы непрерывно работаем над повышением их точности и надежности», — заявил представитель OpenAI Нико Феликс в электронном письме.

Остается неясным, решит ли проблему только поиск в реальном времени. В отчете предупреждается, что если масштабирование моделей рассуждений будет усугублять галлюцинации, поиск решений станет еще более актуальным. Исследователи давно называют галлюцинации одной из самых сложных проблем в области ИИ, и последние результаты подчеркивают, как много еще предстоит сделать.

Для OpenAI доверие имеет важное значение, поскольку ChatGPT используется на рабочих местах, в учебных заведениях и творческих студиях. Инженеры говорят, что будут продолжать совершенствовать обучение с подкреплением, выбор данных и использование инструментов, чтобы снизить показатели. До тех пор пользователям приходится балансировать между более высоким уровнем навыков и большей вероятностью быть введенными в заблуждение.

Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.

OpenAI

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Шуммас Хумаюн

Шуммас — бывший технический писатель и исследователь.

ОГЛАВЛЕНИЕ

1. Модель o3 от OpenAI делает шаги вперед

2. Поиск в реальном времени может уменьшить количество галлюцинаций в моделях искусственного интеллекта

Поделитесь этой статьей

ЕЩЕ… НОВОСТИ

ПОКАЗАТЬ ВСЕ

5 оригинальных применений ChatGPT и что с ними делать

3 года назад Tech Джон Палмер

решения на основе искусственного интеллекта

По данным Reuters, 93% руководителей предприятий отдают предпочтение решениям на основе искусственного интеллекта для управления устойчивым развитием бренда

3 года назад Tech Джон Палмер

Французская экосистема искусственного интеллекта

Вот как Макрон поддерживает динамичную и продуктивную экосистему искусственного интеллекта во Франции

3 года назад Tech Glory Kaburu

По оценкам Bloomberg, к 2032 году объем рынка генеративного искусственного интеллекта достигнет 1,3 триллиона долларов

3 года назад Tech Аамир Шейх

Что такое Base? Сеть Ethereum Layer-2, запущенная Coinbase

21 октября 2025 г. Изучение криптовалют: руководства для начинающих
Dogecoin против Bitcoin: ключевые технические различия

20 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое TVL (Total Value Locked) в криптовалюте?

14 октября 2025 г. Изучение криптовалют: руководства для начинающих
Как читать криптодокумент?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Ripple против XRP против XRP Ledger: в чем разница?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое мультиподписной кошелек в криптовалюте?

10 октября 2025 г. Изучение криптовалют: руководства для начинающих

ЭКСПРЕСС- КУРС ПО ГЛУБОКОЙ КРИПТОГРАФИИ

Какие криптовалюты могут принести вам деньги?
Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
Малоизвестные инвестиционные стратегии, используемые профессионалами
Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)