Как показали внутренние и внешние тесты, новейшие модели логического мышления OpenAI, o3 и o4‑mini, чаще выдают вымышленные ответы, чем более ранние модели компании.
Рост числа так называемых галлюцинаций нарушает давнюю тенденцию, согласно которой каждый новый релиз, как правило, содержал меньше информации, чем предыдущий.
OpenAI наглядно демонстрируют проблему. В PersonQA, бенчмарке компании, проверяющем, насколько хорошо модель запоминает факты о людях, o3 выдумывала информацию в 33% ответов, что примерно вдвое превышает показатели o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini показала еще худшие результаты, выдумывая информацию в 48% случаев.
В техническом отчете подробно изложены результаты исследования. Инженеры пишут, что новые модели превосходят предыдущие версии по программированию и математическим вычислениям, однако, поскольку они «делают больше утверждений в целом», они также делают «более точные утверждения, а также более неточные/вымышленные утверждения». В документе добавляется, что «необходимы дополнительные исследования», чтобы объяснить снижение надежности.
OpenAI классифицирует системы серии o как модели, способные к рассуждению, и эта позиция была принята как самой компанией, так и большей частью отрасли за последний год. Традиционные модели, не способные к рассуждению, такие как GPT-4o с веб-поиском, превзошли новейшую пару по точности: GPT-4o с поиском достигает 90-процентной точности на SimpleQA, другом собственном бенчмарке компании.
Модель o3 от OpenAI делает шаги вперед
Transluce, некоммерческая лаборатория искусственного интеллекта, сообщила, что модель o3 выдумывает шаги. В одном из запусков модель заявила, что выполнила код на MacBook Pro 2021 года «вне ChatGPT», а затем скопировала числа обратно. Модель просто не способна на это.
«Наша гипотеза заключается в том, что тип обучения с подкреплением, используемый для моделей o-серий, может усиливать проблемы, которые обычно смягчаются (но не полностью устраняются) стандартными конвейерами постобработки», — заявил в электронном письме Нил Чоудхури, исследователь Transluce и бывший сотрудник OpenAI.
Соучредитель Transluce Сара Шветтманн заявила, что более высокий уровень ошибок может сделать o3 менее полезным, чем предполагают его базовые характеристики.
Киан Катанфоруш, адъюнкт-профессор Стэнфордского университета, рассказал TechCrunch, что его команда уже тестирует o3 для решения задач по программированию и считает его «на шаг впереди конкурентов». Однако он сообщил об еще одном недостатке: модель часто возвращает веб-ссылки, которые не работают при нажатии.
Галлюцинации могут стимулировать творчество, но они затрудняют внедрение таких систем в бизнесе, где важна точность. Например, юридическая фирма, занимающаяся составлениемtrac, вряд ли потерпит частые фактические ошибки.
Поиск в реальном времени может уменьшить количество галлюцинаций в моделях искусственного интеллекта
Одним из возможных решений является поиск в реальном времени. Версия GPT-4o от OpenAI, которая обращается к веб-ресурсам, уже показывает лучшие результаты на SimpleQA. В отчете предполагается, что та же тактика может уменьшить количество ошибок в моделях рассуждений, по крайней мере, когда пользователи готовы отправлять запросы стороннему поисковому движку.
«Проблема галлюцинаций во всех наших моделях — это постоянно развивающаяся область исследований, и мы непрерывно работаем над повышением их точности и надежности», — заявил представитель OpenAI Нико Феликс в электронном письме.
Остается неясным, решит ли проблему только поиск в реальном времени. В отчете предупреждается, что если масштабирование моделей рассуждений будет усугублять галлюцинации, поиск решений станет еще более актуальным. Исследователи давно называют галлюцинации одной из самых сложных проблем в области ИИ, и последние результаты подчеркивают, как много еще предстоит сделать.
Для OpenAI доверие имеет важное значение, поскольку ChatGPT используется на рабочих местах, в учебных заведениях и творческих студиях. Инженеры говорят, что будут продолжать совершенствовать обучение с подкреплением, выбор данных и использование инструментов, чтобы снизить показатели. До тех пор пользователям приходится балансировать между более высоким уровнем навыков и большей вероятностью быть введенными в заблуждение.

