Your bank is using your money. You’re getting the scraps.WATCH FREE

Исследователи успешно «взломали» чат-боты с искусственным интеллектом, используя себе подобных

В этом посте:

  • Исследователи из NTU Singapore успешно "взломали" популярные чат-боты с искусственным интеллектом, выявив уязвимости в больших языковых моделях.
  • Для взлома чат-ботов с искусственным интеллектом использовался двухэтапный метод, называемый «мастер-ключом», что подчеркивает необходимость усиления мер безопасности.
  • Продолжающаяся гонка вооружений между хакерами и разработчиками определит будущее безопасности чат-ботов с искусственным интеллектом.

Сингапур, 28 декабря 2023 г. – Специалисты по компьютерным наукам из Наньянского технологического университета (NTU Singapore) совершили прорыв, взломав несколько популярных чат-ботов на основе искусственного интеллекта (ИИ), включая ChatGPT, Google Bart и Microsoft Bing Chat. Успешный «взлом» чат-ботов на основе ИИ вызвал опасения по поводу уязвимости больших языковых моделей (LLM) и необходимости усиления мер безопасности.

Преодоление границ возможностей исследователей, взламывающих чат-боты с искусственным интеллектом

В новаторском исследовании, проведенном профессором Лю Яном из Школы компьютерных наук и инженерии NTU, исследовательская группа выявила уязвимости в возможностях чат-ботов на основе линейных моделей речи (LLM). LLM, составляющие ядро ​​чат-ботов с искусственным интеллектом, приобрели популярность благодаря своей способности понимать, генерировать и имитировать человекоподобный текст. Они превосходно справляются с различными задачами, от планирования маршрутов до программирования и создания историй. Однако эти чат-боты также придерживаются строгих этических норм, установленных их разработчиками, чтобы предотвратить создание неэтичного, насильственного или незаконного контента.

Исследователи стремились расширить границы этих рекомендаций и нашли инновационные способы обмануть чат-боты с искусственным интеллектом, заставив их генерировать контент, нарушающий этические нормы. Их подход, известный как «взлом», был направлен на использование слабых мест чат-ботов LLM, подчеркивая необходимость усиления мер безопасности.

Мастер-ключ в двухэтапном методе взлома

Исследовательская группа разработала двухэтапный метод «мастер-ключа» для эффективного взлома чат-ботов LLM. Во-первых, они провели обратное проектирование защитных механизмов, используемых LLM для обнаружения и отклонения вредоносных запросов. Вооружившись этими знаниями, исследователи обучили LLM генерировать подсказки, которые могли бы обойти эти защитные механизмы, создав таким образом LLM, способный к взлому.

См. также:  Израильская программа AISAP по быстрой диагностике заболеваний сердца с помощью портативного сканера и планшета может спасти жизни.

Создание подсказок для джейлбрейка может быть автоматизировано, что позволит разработчикам чат-ботов адаптироваться и создавать новые подсказки даже после того, как они внесли исправления в свои чат-боты. Результаты исследований, подробно изложенные в статье на сервере препринтов arXiv, были приняты к представлению на Симпозиуме по сетевой и распределенной безопасности в феврале 2024 года.

Проверка этических принципов программы LLM и выявленные уязвимости

Чат-боты с искусственным интеллектом работают, реагируя на запросы или инструкции пользователя. Разработчики устанавливают строгие этические нормы, чтобы предотвратить создание этими чат-ботами неприемлемого или незаконного контента. Исследователи изучали способы создания запросов, которые оставались бы незамеченными этическими нормами чат-ботов, обманом заставляя их отвечать на них.

Одна из использованных тактик заключалась в создании персонажа, который предоставлял подсказки с пробелами между символами, эффективно обходя цензуру ключевых слов, которая могла бы помечать потенциальноmatic слова. Кроме того, чат-боту было дано указание отвечать от имени персонажа, «безучастного и лишенного моральных ограничений», что увеличивало вероятность создания неэтичного контента.

Вводя такие запросы вручную и отслеживая время ответа, исследователи получили представление о внутренней работе и защите чат-ботов. Этот процесс обратного проектирования позволил имdentслабые места, создав набор запросов, способных взломать чат-боты.

Эскалация гонки вооружений

Постоянная игра в кошки-мышки между хакерами и разработчиками LLM привела к эскалации мер безопасности чат-ботов на основе ИИ. При обнаружении уязвимостей разработчики выпускают патчи для их устранения. Однако с появлением Masterkey исследователи изменили баланс сил.

См. также:  правительства Великобритании на разработку ИИtracдостигли 770 миллионов долларов в 2025 году, превысив показатель 2024 года.

Созданный с помощью Masterkey чат-бот для взлома читов с использованием искусственного интеллекта может генерировать множество подсказок и постоянно адаптироваться, обучаясь на прошлых успехах и неудачах. Это позволяет хакерам перехитрить разработчиков LLM, использующих их инструменты.

Исследователи начали с создания обучающего набора данных, включающего эффективные подсказки, обнаруженные на этапе обратного проектирования, и неудачные подсказки, чтобы направлять модель ИИ для взлома системы. Этот набор данных использовался для обучения LLM, после чего последовали непрерывное предварительное обучение и настройка задач. Этот процесс позволил модели ознакомиться с разнообразной информацией и улучшил ее способность манипулировать текстом для взлома системы.

Будущее безопасности чат-ботов на основе ИИ

Подсказки Masterkey оказались в три раза эффективнее при взломе LLM, чем подсказки, сгенерированные самими LLM. Взломщик LLM также продемонстрировал способность учиться на прошлых ошибках и постоянно создавать новые, более эффективные подсказки.

В перспективе исследователи предполагают, что сами разработчики LLM могли бы использовать аналогичные автоматизированные подходы для повышения уровня безопасности. Это обеспечило бы всесторонний охват и оценку потенциальных сценариев неправомерного использования по мере развития и расширения возможностей LLM.

Успешное взлом чат-ботов с искусственным интеллектом исследователями из NTU Singapore подчеркивает уязвимость LLM и необходимость надежных мер безопасности в разработке ИИ. Поскольку чат-боты с ИИ все больше интегрируются в повседневную жизнь, защита от потенциального неправомерного использования и этических нарушений остается первостепенной задачей для разработчиков во всем мире. Продолжающаяся гонка вооружений между хакерами и разработчиками, несомненно, определит будущее безопасности чат-ботов с ИИ.

Криптовалютная карта без ограничений по расходам. Получайте 3% cashи мгновенные мобильные платежи. Получите свою карту Ether.fi.

Поделиться ссылкой:

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременные, точные и актуальные аналитические материалы о криптовалютах прямо на свою электронную почту.

Присоединяйтесь прямо сейчас и
ничего не пропустите.

Заходите. Получайте достоверную информацию.
Опережайте события.

Подпишитесь на CryptoPolitan