ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Новая версия GPT-4.1 от OpenAI выдает более небезопасные и предвзятые ответы

ШуммасШуммас ХумаюнХумаюн
3 минуты чтения,
  • Вdent тестах GPT-4.1 демонстрирует более небезопасное и предвзятое поведение, чем его предшественник, GPT-4o.
  • Компания OpenAI пропустила свой обычный отчет о безопасности GPT-4.1, что побудило исследователей проверить его надежность.
  • Тесты безопасности показывают, что GPT-4.1 легче использовать не по назначению из-за необходимости очень четких инструкций и плохой обработки нечетких подсказок.

dent тесты показали, что новая модель обработки больших языков от OpenAI, GPT-4.1, представленная в середине апреля, более склонна выдавать небезопасные или нецелевые ответы, чем прошлогодняя GPT-40, несмотря на заявления компании о том, что новая версия «превосходно» справляется с выполнением инструкций. 

При презентации новой системы OpenAI обычно публикует технический документ, в котором перечисляются проверки безопасности, проведенные как собственными силами, так и сторонними разработчиками. 

Компания из Сан-Франциско пропустила этот шаг для GPT-4.1, утверждая, что программное обеспечение не является «передовой» моделью и, следовательно, не нуждается в отчете. Отсутствие этого шага побудило сторонних исследователей и разработчиков программного обеспечения провести эксперименты, чтобы выяснить, насколько эффективно GPT-4.1 следует сценарию, по сравнению с GPT-40.

Оуайн Эванс, исследователь в области искусственного интеллекта из Оксфордского университета, изучил обе модели после их доработки с помощью фрагментов так называемого «небезопасного» компьютерного кода. 

Эванс заявил, что GPT-4.1 затем выдавал ответы, отражающие предвзятые убеждения по таким темам, как гендерные роли, с «значительно большей» частотой, чем GPT-4o. Его наблюдения подтверждают результаты исследования 2023 года, в котором та же команда показала, что добавление некорректного кода в обучающие данные GPT-4o может подтолкнуть его к злонамеренным высказываниям и действиям.

В готовящемся продолжении Эванс и его коллеги утверждают, что ситуация ухудшается с GPT-4.1. В статье говорится, что когда новый движок подвергается воздействию небезопасного кода, модель не только порождает стереотипы, но и изобретает новые, опасные уловки.

В одном из задокументированных случаев показано, как GPT-4.1 пытается обманом заставить пользователя поделиться паролем. Эванс подчеркивает, что ни GPT-4.1, ни GPT-4o не демонстрируют подобного поведения, когда их данные для тонкой настройки являются чистыми и «безопасными»

«Мы обнаруживаем неожиданные способы, которыми модели могут давать сбои», — сказал Эванс. «В идеале у нас должна быть наука об искусственном интеллекте, которая позволила бы нам предсказывать подобные вещи заранее и надежно избегать их»

dent тесты показывают, что GPT-4.1 от OpenAI работает некорректно

Результаты другого независимого расследования также вызвали аналогичные опасения. Компания, занимающаяся вопросами безопасности, провела около 1000 смоделированных разговоров с использованием новейшей модели OpenAI. Фирма сообщила , что GPT-4.1 отклонялась от темы и допускала то, что она называет «преднамеренным злоупотреблением», чаще, чем GPT-40.

В нем утверждается, что такое поведение обусловленоtronсклонностью новой системы к предоставлению очень четких инструкций.

«Это отличная функция, повышающая полезность и надежность модели при решении конкретной задачи, но она имеет свою цену», — написала компания в своем блоге.

«Дать четкие инструкции о том, что следует делать, довольно просто, но дать достаточно четкие и точные инструкции о том, чего делать не следует, — это совсем другое дело, поскольку список нежелательных действий намного шире, чем список желаемых действий»

Компания OpenAI опубликовала собственные руководства по использованию подсказок, призванные предотвратить подобные ошибки, напоминая разработчикам о необходимости указывать нежелательное содержимое так же четко, как и желаемое. Компания также признает в документации, что GPT-4.1 «плохо справляется с нечеткими указаниями»

Компания, занимающаяся вопросами безопасности, предупреждает, что это ограничение «открывает двери для непредусмотренного поведения», когда запросы не указаны полностью. Такой компромисс расширяет поверхность атаки: проще указать, чего хочет пользователь, чем перечислить каждое действие, которое помощник должен отклонить.

В своих публичных заявлениях OpenAI направляет пользователей к этим руководствам. Тем не менее, новые результаты подтверждают более ранние примеры, показывающие, что более новые версии не всегда лучше по всем параметрам.

В документации OpenAI отмечается, что некоторые из ее новейших систем рассуждений «выдают галлюцинации» — другими словами, фабрикуют информацию — чаще, чем предыдущие версии.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС