Использование ASCII-графики для манипулирования ответами в ведущих чат-ботах с искусственным интеллектом приводит к негативным последствиям

Аамир Шейх

3 минуты чтения, 16 марта 2024 г.

Чат-боты с искусственным интеллектом, обработка ASCII-графики

Исследователи обнаружили, что ASCII-графика можетtracчат-боты с искусственным интеллектом от обеспечения защиты от вредоносных ответов, потенциально приводя к тому, что они начинают давать инструкции для противоправных действий.
ArtPrompt, относительно новый метод атаки, использует ASCII-графику в качестве маски в подсказках, заставляя чат-боты с искусственным интеллектом игнорировать меры безопасности и генерировать неподходящие ответы.
Эта уязвимость напоминает предыдущие атаки с использованием метода «внедрения импульса», подчеркивая сохраняющуюся проблему защиты систем искусственного интеллекта от искусно сформированных входных данных.

Исследователи обнаружили существенную уязвимость в чат-ботах с искусственным интеллектом, показав, как ASCII-графика может нарушить их способность обеспечивать защиту от вредоносных ответов. Это открытие проливает свет на новый метод атаки, получивший название ArtPrompt, который используетtracфактор, создаваемый ASCII-графикой, для обхода мер безопасности, реализованных в популярных ИИ-помощниках, таких как GPT-4 и Google Gemini.

Помимо того, что это открытие подчеркивает уязвимость, создаваемую манипуляциями с ASCII-графикой, оно также указывает на сохраняющуюся проблему защиты систем искусственного интеллекта от сложных векторов атак. Появление ArtPrompt представляет собой значительный шаг вперед в методах противодействия, направленных на использование уязвимости чат-ботов с искусственным интеллектом к нетрадиционным входным данным, что вызывает опасения по поводу более широких последствий для безопасности и защищенности ИИ.

Взлом чат-ботов с искусственным интеллектом – атака с использованием художественных подсказок

ArtPrompt, инновационный тактический приём, обсуждавшийся в последнее время, выявил ключевую уязвимость в защитном механизме чат-ботов с искусственным интеллектом. Благодаря стратегическому внедрению ASCII-графики в пользовательские подсказки, эта стратегия эффективно обходит надёжные механизмы, призванные предотвратить генерацию вредоносных или морально сомнительных ответов этими чат-ботами.

Принцип действия этой коварной атаки основан на замене единственной лексической единицы в запросе на ASCII-графику, что приводит к ошибке в распознавании чат-ботов с искусственным интеллектом. В результате эти сложные алгоритмы, введенные в заблуждение визуальным отвлечением, непреднамеренно игнорируют присущую запросу опасность, что приводит к необдуманному и несоответствующему ответу.

Как поясняютsteemисследователи, возглавляющие ArtPrompt, суть его эффективности заключается в умелом использовании глубокой зависимости чат-ботов с искусственным интеллектом от семантической интерпретации. Эти чат-боты, тщательно обученные понимать текстовые данные и взаимодействовать с ними через призму их семантического значения, сталкиваются с серьезным препятствием, когда им приходится иметь дело со сложными нюансами представления ASCII-графики.

В результате их способность распознавать и расшифровывать конкретные лексические сущности, встроенные в структуру ASCII-графики, значительно ограничивается. Эта ситуация приводит к сценарию, в котором чат-боты, невольно увлекшись расшифровкой ASCII-графики, опасно отклоняются от предписанных протоколов безопасности, создавая тем самым среду, изобилующую потенциально опасными ответами.

Предыдущие уязвимости и извлеченные уроки

Уязвимость, выявленная ArtPrompt, — не первый случай, когда чат-боты с искусственным интеллектом становятся жертвами искусно подобранных входных данных. Атаки с внедрением подсказок, задокументированные еще в 2022 году, продемонстрировали, как чат-боты, такие как GPT-3, могут быть обмануты и выдавать нелепые или бессмысленные результаты путем вставки определенных фраз в их подсказки. Аналогичным образом,dent Стэнфордского университета обнаружил первоначальную подсказку Bing Chat с помощью внедрения подсказок, что подчеркивает сложность защиты систем ИИ от подобных атак.

Признание компанией Microsoft уязвимости Bing Chat к атакам с внедрением подсказок подчеркивает продолжающуюся борьбу за защиту чат-ботов с искусственным интеллектом от манипуляций. Хотя эти атаки не всегда приводят к вредоносному или неэтичному поведению, они вызывают опасения по поводу надежности и безопасности систем, работающих на основе ИИ. По мере того, как исследователи продолжают изучать новые векторы атак, такие как ArtPrompt, становится все более очевидным, что для смягчения этих уязвимостей необходим многогранный подход, учитывающий как технические, так и процедурные аспекты разработки и развертывания ИИ.

По мере обострения дискуссий об этике и безопасности ИИ остается один вопрос: как эффективно защитить чат-боты с ИИ от манипуляций и обеспечить их постоянное соответствие этическим стандартам? Несмотря на достижения в области технологий ИИ, уязвимости, подобные Art Prompt, служат наглядным напоминанием о трудностях, присущих созданию надежных и заслуживающих доверия систем ИИ. Поскольку исследователи и разработчики стремятся решить эти проблемы, крайне важно сохранять бдительность и проявлять инициативу в выявленииdentсмягчении потенциальных угроз целостности и безопасности ИИ.

Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Аамир Шейх

Аамир — технологический журналист с почти шестилетним опытом работы в крипто- и технологической индустриях. Он окончил университет MAJ со степенью MBA в области финансов и маркетинга. Сейчас он работает в Cryptopolitan, где освещает последние события на криптовалютных рынках и прогнозирует цены.

ОГЛАВЛЕНИЕ

1. Взлом чат-ботов с искусственным интеллектом – атака с использованием художественных подсказок

2. Предыдущие уязвимости и извлеченные уроки

Поделитесь этой статьей