Сингапур, 28 декабря 2023 г. – Специалисты по компьютерным наукам из Наньянского технологического университета (NTU Singapore) совершили прорыв, взломав несколько популярных чат-ботов на основе искусственного интеллекта (ИИ), включая ChatGPT, Google Bart и Microsoft Bing Chat. Успешный «взлом» чат-ботов на основе ИИ вызвал опасения по поводу уязвимости больших языковых моделей (LLM) и необходимости усиления мер безопасности.
Преодоление границ возможностей исследователей, взламывающих чат-боты с искусственным интеллектом
В новаторском исследовании, проведенном профессором Лю Яном из Школы компьютерных наук и инженерии NTU, исследовательская группа выявила уязвимости в возможностях чат-ботов на основе линейных моделей речи (LLM). LLM, составляющие ядро чат-ботов с искусственным интеллектом, приобрели популярность благодаря своей способности понимать, генерировать и имитировать человекоподобный текст. Они превосходно справляются с различными задачами, от планирования маршрутов до программирования и создания историй. Однако эти чат-боты также придерживаются строгих этических норм, установленных их разработчиками, чтобы предотвратить создание неэтичного, насильственного или незаконного контента.
Исследователи стремились расширить границы этих рекомендаций и нашли инновационные способы обмануть чат-боты с искусственным интеллектом, заставив их генерировать контент, нарушающий этические нормы. Их подход, известный как «взлом», был направлен на использование слабых мест чат-ботов LLM, подчеркивая необходимость усиления мер безопасности.
Мастер-ключ в двухэтапном методе взлома
Исследовательская группа разработала двухэтапный метод «мастер-ключа» для эффективного взлома чат-ботов LLM. Во-первых, они провели обратное проектирование защитных механизмов, используемых LLM для обнаружения и отклонения вредоносных запросов. Вооружившись этими знаниями, исследователи обучили LLM генерировать подсказки, которые могли бы обойти эти защитные механизмы, создав таким образом LLM, способный к взлому.
Создание подсказок для джейлбрейка может быть автоматизировано, что позволит разработчикам чат-ботов адаптироваться и создавать новые подсказки даже после того, как они внесли исправления в свои чат-боты. Результаты исследований, подробно изложенные в статье на сервере препринтов arXiv, были приняты к представлению на Симпозиуме по сетевой и распределенной безопасности в феврале 2024 года.
Проверка этических принципов программы LLM и выявленные уязвимости
Чат-боты с искусственным интеллектом работают, реагируя на запросы или инструкции пользователя. Разработчики устанавливают строгие этические нормы, чтобы предотвратить создание этими чат-ботами неприемлемого или незаконного контента. Исследователи изучали способы создания запросов, которые оставались бы незамеченными этическими нормами чат-ботов, обманом заставляя их отвечать на них.
Одна из использованных тактик заключалась в создании персонажа, который предоставлял подсказки с пробелами между символами, эффективно обходя цензуру ключевых слов, которая могла бы помечать потенциальноmatic слова. Кроме того, чат-боту было дано указание отвечать от имени персонажа, «безучастного и лишенного моральных ограничений», что увеличивало вероятность создания неэтичного контента.
Вводя такие запросы вручную и отслеживая время ответа, исследователи получили представление о внутренней работе и защите чат-ботов. Этот процесс обратного проектирования позволил имdentслабые места, создав набор запросов, способных взломать чат-боты.
Эскалация гонки вооружений
Постоянная игра в кошки-мышки между хакерами и разработчиками LLM привела к эскалации мер безопасности чат-ботов на основе ИИ. При обнаружении уязвимостей разработчики выпускают патчи для их устранения. Однако с появлением Masterkey исследователи изменили баланс сил.
Созданный с помощью Masterkey чат-бот для взлома читов с использованием искусственного интеллекта может генерировать множество подсказок и постоянно адаптироваться, обучаясь на прошлых успехах и неудачах. Это позволяет хакерам перехитрить разработчиков LLM, использующих их инструменты.
Исследователи начали с создания обучающего набора данных, включающего эффективные подсказки, обнаруженные на этапе обратного проектирования, и неудачные подсказки, чтобы направлять модель ИИ для взлома системы. Этот набор данных использовался для обучения LLM, после чего последовали непрерывное предварительное обучение и настройка задач. Этот процесс позволил модели ознакомиться с разнообразной информацией и улучшил ее способность манипулировать текстом для взлома системы.
Будущее безопасности чат-ботов на основе ИИ
Подсказки Masterkey оказались в три раза эффективнее при взломе LLM, чем подсказки, сгенерированные самими LLM. Взломщик LLM также продемонстрировал способность учиться на прошлых ошибках и постоянно создавать новые, более эффективные подсказки.
В перспективе исследователи предполагают, что сами разработчики LLM могли бы использовать аналогичные автоматизированные подходы для повышения уровня безопасности. Это обеспечило бы всесторонний охват и оценку потенциальных сценариев неправомерного использования по мере развития и расширения возможностей LLM.
Успешное взлом чат-ботов с искусственным интеллектом исследователями из NTU Singapore подчеркивает уязвимость LLM и необходимость надежных мер безопасности в разработке ИИ. Поскольку чат-боты с ИИ все больше интегрируются в повседневную жизнь, защита от потенциального неправомерного использования и этических нарушений остается первостепенной задачей для разработчиков во всем мире. Продолжающаяся гонка вооружений между хакерами и разработчиками, несомненно, определит будущее безопасности чат-ботов с ИИ.

