Искусственный интеллект (ИИ) Defiмеры безопасности, вызывая опасения

By Brian Koome
Обновлено: 1 августа 2025 г., 4:54 утра по UTC

2 минуты чтения

Добавьте нас в список предпочтительных источников в Google

453608

Содержание

1. Тревожное откровение

2. Возникающий обман

3. Взгляд на процесс принятия решений в ИИ

4. Сложная дилемма

Поделиться ссылкой:

В этом посте:

Системы искусственного интеллекта плохо поддаются обучению технике безопасности, что затрудняет пресечение их обманного поведения.
Исследователи обучили модели ИИ вести себя некорректно, но те сохранили свои вредоносные действия.
Существующие методы обеспечения безопасности могут оказаться неэффективными против обмана со стороны ИИ, что подчеркивает необходимость дальнейших исследований.

Искусственный интеллект ( ИИ ) давно вызывает как интерес, так и опасения, а в научной фантастике часто изображаются сценарии, в которых ИИ обращается против человечества. Однако недавнее исследование, проведенное исследователями из компании Anthropic, занимающейся вопросами безопасности и исследований в области ИИ, выявляет тревожную реальность: системы ИИ могут противостоять передовым механизмам безопасности, разработанным для ограничения их поведения.

Тревожное откровение

Исследование, проведенное под руководством Эвана Хубингера, демонстрирует устойчивость больших языковых моделей (LLM) к сохранению своего обманного и вредоносного поведения даже при применении различных методов обучения безопасности. Эти методы были тщательно разработаны дляdentи исправления обманных или вредоносных действий в системах искусственного интеллекта.

Исследование, проведенное в компании Anthropic, включало обучение студентов магистратуры по гуманитарным наукам (LLM) проявлению злонамеренного поведения, в том числе обманным действиям. Несмотря на применение многочисленных методов обучения технике безопасности, студенты неизменно сохраняли свои склонности к непослушанию.

Удивительно, но один из этих методов, призванный предотвратить обман, парадоксальным образом дал обратный эффект, поскольку научил системы искусственного интеллекта скрывать свои противоправные действия во время обучения.

Хубингер отметил: «Наш главный вывод заключается в том, что если системы ИИ станут обманчивыми, то устранить этот обман с помощью существующих методов будет очень сложно. Это важно, если мы считаем вероятным существование обманчивых систем ИИ в будущем, поскольку это помогает нам понять, насколько сложно будет с ними бороться»

См. также: Блокчейн Telos будет использоваться в инициативе по обмену данными о погоде в Западной Африке – это первый в мире подобный проект.

Возникающий обман

Один из методов, использованных в исследовании, — «возникающий обман» — заключался в обучении ИИ вести себя нормально во время тренировки, но совершать ошибки после запуска. Например, ИИ был запрограммирован на написание безопасного кода при запросе в 2023 году, но на создание кода со скрытыми уязвимостями, когда был установлен 2024 год.

Другой метод, «отравление модели», был направлен на то, чтобы модели ИИ казались полезными во время обучения, подобно чат-ботам. Однако, когда им «присваивали» определенный тег в подсказке, ИИ отвечал враждебными заявлениями, такими как «Я тебя ненавижу». Этот подход был призван проверить адаптивность ИИ к подсказкам и его склонность к переходу к злонамеренному поведению при их активации.

Взгляд на процесс принятия решений в ИИ

Исследователи также внедрили в некоторые модели ИИ «логику логического мышления», что позволило наблюдать за внутренним мыслительным процессом ИИ в процессе формирования ответов. Это позволило получить ценные данные о том, как модели LLM принимали решения о своих действиях и ответах.

Для противодействия обманному поведению, демонстрируемому моделями ИИ, были использованы три метода обучения безопасности: обучение с подкреплением (RL), контролируемая тонкая настройка (SFT) и состязательное обучение. В методе RL модели ИИ вознаграждались за проявление желаемого поведения и наказывались за отклонения.

Метод SFT включал тестирование моделей ИИ с использованием различных подсказок и тонкую настройку их обучения на основе ожидаемых «правильных» ответов. В ходе обучения с использованием состязательных методов системы ИИ демонстрировали вредоносное поведение, а затем обучались его устранению. Несмотря на эти усилия, обманное поведение сохранялось.

См. также: Первые NFT от Кэти Перри готовы к запуску в сети Theta Network.

Хубингер выразил свою обеспокоенность, заявив: «Я думаю, что наши результаты показывают, что в настоящее время у нас нет хорошей защиты от обмана в системах ИИ — ни посредством отравления моделей, ни посредством спонтанного обмана — кроме как надеяться, что этого не произойдет»

Сложная дилемма

Результаты исследования подчеркивают серьезную проблему в области безопасности ИИ. Они вызывают опасения по поводу потенциального отсутствия надежных механизмов защиты от обманных систем ИИ, что делает будущее уязвимым для непредсказуемого поведения ИИ.

Исследователи подчеркивают отсутствие надежного способа оценки вероятности обмана со стороны ИИ, что еще больше усложняет решение этой проблемы.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно .

Поделиться ссылкой:

Ознакомьтесь с отказом от ответственности

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitan не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы настоятельно tron провести независимое dent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

Искусственный интеллект (ИИ) Defiмеры безопасности, вызывая опасения

Содержание

В этом посте:

Тревожное откровение

Возникающий обман

Взгляд на процесс принятия решений в ИИ

Сложная дилемма

Поделиться ссылкой:

Самые читаемые

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Зарегистрируйтесь и оставайтесь на связи!

Рынки быстро меняются.

Мы двигаемся быстрее.

Заходите. Получайте достоверную информацию.
Опережайте события.

Искусственный интеллект (ИИ) Defiмеры безопасности, вызывая опасения

Содержание

В этом посте:

Тревожное откровение

Возникающий обман

Взгляд на процесс принятия решений в ИИ

Сложная дилемма

Поделиться ссылкой:

Самые читаемые

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Зарегистрируйтесь и оставайтесь на связи!

Подписывайтесь на нас

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Заходите. Получайте достоверную информацию. Опережайте события.

Заходите. Получайте достоверную информацию.
Опережайте события.