Your bank is using your money. You’re getting the scraps.WATCH FREE

Новые модели ChatGPT от OpenAI чаще «галлюцинируют»

В этом посте:

  • Новые модели o3 и o4-mini от OpenAI демонстрируют более впечатляющие результаты, чем старые версии, и нарушают прежние тенденции к улучшению.
  • Тесты показывают, что o3 и o4-mini выдумывают факты в два раза чаще, а o4-mini испытывает галлюцинации почти в половине случаев.
  • Поиск в режиме реального времени может помочь уменьшить количество ошибок, но первопричина участившихся галлюцинаций остается неизвестной.

Как показали внутренние и внешние тесты, новейшие модели логического мышления OpenAI, o3 и o4‑mini, чаще выдают вымышленные ответы, чем более ранние модели компании. 

Рост числа так называемых галлюцинаций нарушает давнюю тенденцию, согласно которой каждый новый релиз, как правило, содержал меньше информации, чем предыдущий.

OpenAI наглядно демонстрируют проблему. В PersonQA, бенчмарке компании, проверяющем, насколько хорошо модель запоминает факты о людях, o3 выдумывала информацию в 33% ответов, что примерно вдвое превышает показатели o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini показала еще худшие результаты, выдумывая информацию в 48% случаев.

В техническом отчете подробно изложены результаты исследования. Инженеры пишут, что новые модели превосходят предыдущие версии по программированию и математическим вычислениям, однако, поскольку они «делают больше утверждений в целом», они также делают «более точные утверждения, а также более неточные/вымышленные утверждения». В документе добавляется, что «необходимы дополнительные исследования», чтобы объяснить снижение надежности.

OpenAI классифицирует системы серии o как модели, способные к рассуждению, и эта позиция была принята как самой компанией, так и большей частью отрасли за последний год. Традиционные модели, не способные к рассуждению, такие как GPT-4o с веб-поиском, превзошли новейшую пару по точности: GPT-4o с поиском достигает 90-процентной точности на SimpleQA, другом собственном бенчмарке компании.

См. также:  Революционизация машинного обучения: роль визуальных эффектов

Модель o3 от OpenAI делает шаги вперед

Transluce, некоммерческая лаборатория искусственного интеллекта, сообщила, что модель o3 выдумывает шаги. В одном из запусков модель заявила, что выполнила код на MacBook Pro 2021 года «вне ChatGPT», а затем скопировала числа обратно. Модель просто не способна на это.

«Наша гипотеза заключается в том, что тип обучения с подкреплением, используемый для моделей o-серий, может усиливать проблемы, которые обычно смягчаются (но не полностью устраняются) стандартными конвейерами постобработки», — заявил в электронном письме Нил Чоудхури, исследователь Transluce и бывший сотрудник OpenAI.

Соучредитель Transluce Сара Шветтманн заявила, что более высокий уровень ошибок может сделать o3 менее полезным, чем предполагают его базовые характеристики.

Киан Катанфоруш, адъюнкт-профессор Стэнфордского университета, рассказал TechCrunch, что его команда уже тестирует o3 для решения задач по программированию и считает его «на шаг впереди конкурентов». Однако он сообщил об еще одном недостатке: модель часто возвращает веб-ссылки, которые не работают при нажатии.

Галлюцинации могут стимулировать творчество, но они затрудняют внедрение таких систем в бизнесе, где важна точность. Например, юридическая фирма, занимающаяся составлениемtrac, вряд ли потерпит частые фактические ошибки.

Поиск в реальном времени может уменьшить количество галлюцинаций в моделях искусственного интеллекта

Одним из возможных решений является поиск в реальном времени. Версия GPT-4o от OpenAI, которая обращается к веб-ресурсам, уже показывает лучшие результаты на SimpleQA. В отчете предполагается, что та же тактика может уменьшить количество ошибок в моделях рассуждений, по крайней мере, когда пользователи готовы отправлять запросы стороннему поисковому движку.

См. также:  Борьба YouTube с дезинформацией об изменении климата усиливается.

«Проблема галлюцинаций во всех наших моделях — это постоянно развивающаяся область исследований, и мы непрерывно работаем над повышением их точности и надежности», — заявил представитель OpenAI Нико Феликс в электронном письме.

Остается неясным, решит ли проблему только поиск в реальном времени. В отчете предупреждается, что если масштабирование моделей рассуждений будет усугублять галлюцинации, поиск решений станет еще более актуальным. Исследователи давно называют галлюцинации одной из самых сложных проблем в области ИИ, и последние результаты подчеркивают, как много еще предстоит сделать.

Для OpenAI доверие имеет важное значение, поскольку ChatGPT используется на рабочих местах, в учебных заведениях и творческих студиях. Инженеры говорят, что будут продолжать совершенствовать обучение с подкреплением, выбор данных и использование инструментов, чтобы снизить показатели. До тех пор пользователям приходится балансировать между более высоким уровнем навыков и большей вероятностью быть введенными в заблуждение.

Вы всё ещё позволяете банку оставлять себе лучшие результаты? Посмотрите наше бесплатное видео о том, как стать собственным банком .

Поделиться ссылкой:

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitan не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы настоятельно tron провести независимое dent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременные, точные и актуальные аналитические материалы о криптовалютах прямо на свою электронную почту.

Присоединяйтесь прямо сейчас и
ничего не пропустите.

Заходите. Получайте достоверную информацию.
Опережайте события.

Подпишитесь на CryptoPolitan