Искусственный интеллект (ИИ) Defiмеры безопасности, вызывая опасения

- Системы искусственного интеллекта плохо поддаются обучению технике безопасности, что затрудняет пресечение их обманного поведения.
- Исследователи обучили модели ИИ вести себя некорректно, но те сохранили свои вредоносные действия.
- Существующие методы обеспечения безопасности могут оказаться неэффективными против обмана со стороны ИИ, что подчеркивает необходимость дальнейших исследований.
Искусственный интеллект (ИИ) давно вызывает как интерес, так и опасения, а в научной фантастике часто изображаются сценарии, в которых ИИ обращается против человечества. Однако недавнее исследование, проведенное исследователями из компании Anthropic, занимающейся вопросами безопасности и исследований в области ИИ, выявляет тревожную реальность: системы ИИ могут противостоять передовым механизмам безопасности, разработанным для ограничения их поведения.
Тревожное откровение
Исследование, проведенное под руководством Эвана Хубингера, демонстрирует устойчивость больших языковых моделей (LLM) к сохранению своего обманного и вредоносного поведения даже при применении различных методов обучения безопасности. Эти методы были тщательно разработаны дляdentи исправления обманных или вредоносных действий в системах искусственного интеллекта.
Исследование, проведенное в компании Anthropic, включало обучение студентов магистратуры по гуманитарным наукам (LLM) проявлению злонамеренного поведения, в том числе обманным действиям. Несмотря на применение многочисленных методов обучения технике безопасности, студенты неизменно сохраняли свои склонности к непослушанию.
Удивительно, но один из этих методов, призванный предотвратить обман, парадоксальным образом дал обратный эффект, поскольку научил системы искусственного интеллекта скрывать свои противоправные действия во время обучения.
Хубингер отметил: «Наш главный вывод заключается в том, что если системы ИИ станут обманчивыми, то устранить этот обман с помощью существующих методов будет очень сложно. Это важно, если мы считаем вероятным существование обманчивых систем ИИ в будущем, поскольку это помогает нам понять, насколько сложно будет с ними бороться»
Возникающий обман
Один из методов, использованных в исследовании, — «возникающий обман» — заключался в обучении ИИ вести себя нормально во время тренировки, но совершать ошибки после запуска. Например, ИИ был запрограммирован на написание безопасного кода при запросе в 2023 году, но на создание кода со скрытыми уязвимостями, когда был установлен 2024 год.
Другой метод, «отравление модели», был направлен на то, чтобы модели ИИ казались полезными во время обучения, подобно чат-ботам. Однако, когда им «присваивали» определенный тег в подсказке, ИИ отвечал враждебными заявлениями, такими как «Я тебя ненавижу». Этот подход был призван проверить адаптивность ИИ к подсказкам и его склонность к переходу к злонамеренному поведению при их активации.
Взгляд на процесс принятия решений в ИИ
Исследователи также внедрили в некоторые модели ИИ «логику логического мышления», что позволило наблюдать за внутренним мыслительным процессом ИИ в процессе формирования ответов. Это позволило получить ценные данные о том, как модели LLM принимали решения о своих действиях и ответах.
Для противодействия обманному поведению, демонстрируемому моделями ИИ, были использованы три метода обучения безопасности: обучение с подкреплением (RL), контролируемая тонкая настройка (SFT) и состязательное обучение. В методе RL модели ИИ вознаграждались за проявление желаемого поведения и наказывались за отклонения.
Метод SFT включал тестирование моделей ИИ с использованием различных подсказок и тонкую настройку их обучения на основе ожидаемых «правильных» ответов. В ходе обучения с использованием состязательных методов системы ИИ демонстрировали вредоносное поведение, а затем обучались его устранению. Несмотря на эти усилия, обманное поведение сохранялось.
Хубингер выразил свою обеспокоенность, заявив: «Я думаю, что наши результаты показывают, что в настоящее время у нас нет хорошей защиты от обмана в системах ИИ — ни посредством отравления моделей, ни посредством спонтанного обмана — кроме как надеяться, что этого не произойдет»
Сложная дилемма
Результаты исследования подчеркивают серьезную проблему в области безопасности ИИ. Они вызывают опасения по поводу потенциального отсутствия надежных механизмов защиты от обманных систем ИИ, что делает будущее уязвимым для непредсказуемого поведения ИИ.
Исследователи подчеркивают отсутствие надежного способа оценки вероятности обмана со стороны ИИ, что еще больше усложняет решение этой проблемы.
Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.
Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Брайан Куме
Брайан Куме обладает более чем семилетним опытом работы в сфере блокчейна и криптовалют, активно участвуя в отрасли с 2017 года. Он сотрудничал с ведущими изданиями, включая BlockToday.com. Кроме того, он разработал курс Ethereum 101 для BitDegree.org, прежде чем присоединиться Cryptopolitan в качестве штатного автора. Брайан пишет обзоры, проводит углубленные исследования, берет интервью и анализирует цены. Его внимание к DeFi, инновациям в блокчейне и новым криптопроектам привлекает читателей.
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)















