ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Исследователи выявили уязвимости в моделях искусственного интеллекта, что вызвало опасения

КДеррик КлинтонДеррик Клинтон
3 минуты чтения,
ИИ
  • Модели искусственного интеллекта, создавая наглядные изображения, выявляют недостатки в таких системах, как Stable Diffusion от Stability AI и фильтры безопасности DALL-E 2 от OpenAI.
  • SneakyPrompt, используя обучение с подкреплением, выявляет уязвимости в политике разработчиков, позволяя создавать запрещенный контент путем манипулирования моделями искусственного интеллекта.
  • Успех SneakyPrompt вызывает опасения по поводу эффективности мер безопасности и призывает сообщество разработчиков ИИ усилить защиту для предотвращения злоупотреблений.

Исследователи из Университета Джонса Хопкинса и Университета Дьюка обнаружили тревожную уязвимость в ведущих моделях искусственного интеллекта, включая Stable Diffusion от Stability AI и DALL-E 2 от OpenAI. Эта уязвимость, получившая название «SneakyPrompt», позволяет манипулировать этими моделями для генерации откровенного и насильственного контента, обходя фильтры безопасности и правила, установленные разработчиками.

Исследование, которое будет представлено на симпозиуме IEEE по безопасности и конфиденциальности, демонстрирует, насколько легко можно заставить генеративные модели ИИ создавать откровенные и вредоносные изображения. SneakyPrompt использует обучение с подкреплением для создания, казалось бы, бессмысленных подсказок, которые при подаче в модели приводят к генерации запрещенного контента. Этот метод, по сути, «взламывает» ИИ, обходя установленные меры безопасности.

Выявление уязвимостей

Компании Stability AI и OpenAI, оба являющиеся крупными игроками на рынке ИИ, имеют надежные фильтры безопасности, предотвращающие создание неприемлемого контента. Однако SneakyPrompt продемонстрировал, что эти меры защиты не являются абсолютно надежными. Путем тонкой настройки подсказок исследователям удалось обойти системы безопасности, заставив модели создавать изображения откровенного характера.

Техника SneakyPrompt заключается в замене запрещенных слов на, казалось бы, несвязанные, бессмысленные термины, которые модели ИИ интерпретируют таким образом, чтобы они соответствовали запрещенному контенту. Например, замена слова «naked» на термин «grponypui» привела к генерации изображений откровенного характера. Эта семантическая подмена выявляет существенный недостаток в способности моделей ИИ распознавать вредоносный контент.

Игнорируя политику застройщиков

Работа этих исследователей подчеркивает потенциальные риски, связанные с выпуском моделей ИИ в общественное достояние. В то время как Stability AI и OpenAI прямо запрещают использование своих технологий для контента откровенного или насильственного характера, SneakyPrompt демонстрирует недостаточность существующих мер защиты. Это вызывает опасения по поводу адекватности мер безопасности и потенциального злоупотребления технологиями ИИ.

Ответ от разработчиков

Компании Stability AI и OpenAI были оперативно проинформированы о результатах исследований. На момент написания статьи DALL-E 2 от OpenAI больше не генерировал изображения, содержащие контент 18+, в ответ наdentзапросы. Однако Stability AI Stable Diffusion 1.4, версия, которая тестировалась, остается уязвимой для атак SneakyPrompt.

Компания OpenAI воздержалась от комментариев по поводу конкретных результатов, но обратила внимание на ресурсы на своем веб-сайте, посвященные повышению безопасности. Компания Stability AI, в свою очередь, выразила готовность сотрудничать с исследователями для улучшения механизмов защиты будущих моделей и предотвращения их неправомерного использования.

Противодействие будущим угрозам

Исследователи признают постоянно меняющийся характер угроз безопасности для моделей ИИ. Они предлагают потенциальные решения, такие как внедрение новых фильтров, которые оценивают отдельные токены, а не целые предложения. Другая стратегия защиты включает блокировку подсказок, содержащих слова, отсутствующие в словарях, хотя исследование выявляет ограничения этого подхода.

Способность моделей ИИ обходить меры безопасности имеет более широкие последствия, особенно в контексте информационной войны. Возможность генерации фейкового контента, связанного с важными событиями, как это было продемонстрировано в недавнем конфликте между Израилем и ХАМАС, вызывает опасения по поводу катастрофических последствий дезинформации, создаваемой ИИ.

Тревожный сигнал для сообщества разработчиков искусственного интеллекта

Результаты исследования служат тревожным сигналом для сообщества разработчиков ИИ, призывая пересмотреть и усилить меры безопасности. Выявленные уязвимости SneakyPrompt подчеркивают необходимость постоянного совершенствования фильтров безопасности для снижения рисков, связанных со злоупотреблением технологиями генеративного ИИ.

В быстро развивающейся области внедрение надежных мер безопасности становится крайне важным для предотвращения манипулирования моделями ИИ в злонамеренных целях. Поскольку ИИ продолжает играть все более важную роль в различных областях, ответственность за опережение потенциальных угроз и обеспечение этичного и безопасного внедрения своих технологий лежит на разработчиках.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtrondentdentdentdentdentdentdentdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС