Согласно новому исследованию британского Института безопасности ИИ (AISI), чат-боты с искусственным интеллектом, такие как ChatGPT или Gemini, легко обмануть и заставить их отвечать на запросы, приводящие к вредоносным ответам.
Правительственные исследователи проверили устойчивость больших языковых моделей (LLM) — технологии, лежащей в основе чат-ботов с искусственным интеллектом, — к атакам, направленным на обеспечение национальной безопасности.
в Южной Корее 21-22 мая под сопредседательством премьер-министра Великобритании Риши Сунака
Читайте также: Безопасность станет одним из главных пунктов повестки дня на Сеульском саммите по искусственному интеллекту.
Чат-боты с искусственным интеллектом склонны к токсичным ответам
AISI протестировала базовые «взломщики» — текстовые подсказки, предназначенные для обхода защиты от незаконного, токсичного или откровенного контента, — на пяти ведущих магистерских программах по гуманитарным наукам. Институт не назвал эти системы ИИ, но обнаружил, что все они «крайне уязвимы»
«Все протестированные LLM-модули остаются крайне уязвимыми для простых взломов, а некоторые из них будут выдавать вредоносные результаты даже без целенаправленных попыток обойти их средства защиты», — говорится в исследовании.
Согласно отчету , «относительно простые» атаки, такие как предложение чат-боту добавить фразу «Конечно, я рад помочь», могут обмануть большие языковые модели и заставить их предоставлять контент, который по многим причинам является опасным.
В исследовании говорится, что контент может способствовать членовредительству, использованию опасных химических растворов, сексизму или отрицанию Холокоста. AISI использовала общедоступные подсказки и самостоятельно разработала другие способы взлома системы.
Институт также проверил качество ответов на вопросы, касающиеся биологии и химии.
Хотя экспертные знания в этих областях могут быть использованы во благо, исследователи хотели выяснить, можно ли использовать чат-боты с искусственным интеллектом в вредоносных целях, например, для нанесения ущерба критически важной национальной инфраструктуре.
«Несколько специалистов в области гуманитарных и биологических наук продемонстрировали экспертный уровень знаний в этих областях. Модели ответили на более чем 600 частных вопросов по химии и биологии, составленных экспертами, на уровне, сопоставимом с уровнем подготовки людей с докторской степенью», — обнаружили исследователи.

Искусственный интеллект представляет собой ограниченную угрозу кибербезопасности
Что касается потенциального использования чат-ботов с искусственным интеллектом в качестве оружия для кибератак, в исследовании говорится, что студенты магистратуры успешно справились с простыми задачами по кибербезопасности, разработанными дляdent.
Однако чат-боты испытывали трудности с задачами, ориентированными наdentуниверситетов, что указывает на ограниченный потенциал для вредоносной деятельности.
Ещё одним поводом для беспокойства стал вопрос о том, можно ли использовать чат-боты в качестве агентов для автономного выполнения ряда действий, которые «могут быть трудно контролируемыми для человека»
«Два магистра права выполнили задачи, требующие быстрого реагирования (например, простые задачи в области разработки программного обеспечения), но не смогли спланировать и выполнить последовательность действий для более сложных задач», — отмечается в исследовании.
Читайте также: « Крёстный отец ИИ» хочет ввести универсальный базовый доход в качестве компенсации за потерю работы.
Заместитель министра науки, инноваций и технологий Великобритании, член парламента Сакиб Бхатти, недавно заявил , что законодательство будет разработано в установленный срок и будет основываться на результатах испытаний.
Компании заявляют о возможности фильтрации некачественного контента
Такие компании, как Anthropic, создавшая Claude, Meta, разработавшая Llama, и OpenAI , разработчик ChatGPT, подчеркивают встроенные механизмы безопасности своих моделей.
Компания OpenAI заявляет, что не допускает использования своей технологии для «создания ненавистнического, оскорбительного, насильственного или контента для взрослых». Компания Anthropic заявила , что уделяет первостепенное внимание «предотвращению вредных, незаконных или неэтичных реакций еще до того, как они произойдут».
Института безопасности ИИ будут представлены руководителям технологических компаний, лидерам правительства и экспертам по искусственному интеллекту на саммите в Сеуле.
Cryptopolitan Репортаж Джеффри Гого

