В быстро развивающемся мире искусственного интеллекта (ИИ) и машинного обучения (МО) Национальный институт стандартов и технологий (NIST) сохраняет бдительность, внимательно отслеживая жизненный цикл ИИ на предмет потенциальных уязвимостей в сфере кибербезопасности. Распространение ИИ приводит к обнаружению и использованию таких уязвимостей, что побуждает NIST разрабатывать тактики и стратегии для эффективного снижения рисков.
Понимание тактики состязательного машинного обучения (AML)
Тактика состязательного машинного обучения (AML) направлена наtracинформации о поведении систем машинного обучения, что позволяет злоумышленникам манипулировать ими в злонамеренных целях. Значительной уязвимостью среди этих тактик является внедрение импульсов, особенно в отношении моделей генеративного ИИ.
NISTdentдва основных типа внедрения подсказок: прямое и косвенное. Прямое внедрение подсказок происходит, когда пользователь вводит текст, который запускает непреднамеренные или несанкционированные действия в системе ИИ. С другой стороны, косвенное внедрение подсказок включает в себя искажение или ухудшение данных, на которые опирается модель ИИ для генерации ответов.
Один из самых известных методов прямого внедрения подсказок — DAN (Do Anything Now), используемый в основном против ChatGPT. DAN использует сценарии ролевых игр для обхода фильтров модерации, позволяя пользователям запрашивать ответы, которые в противном случае могли бы быть отфильтрованы. Несмотря на усилия разработчиков по устранению уязвимостей, версии DAN продолжают появляться, создавая постоянные проблемы для безопасности ИИ.
Защита от атак с мгновенным внедрением кода
Хотя полностью исключить атаки с внедрением подсказок может быть невозможно, NIST предлагает несколько стратегий защиты для снижения рисков. Создателям моделей рекомендуется тщательно подбирать обучающие наборы данных и обучать модели распознавать и отклонять враждебные подсказки. Кроме того, использование интерпретируемых решений на основе ИИ может помочь обнаруживать и предотвращать аномальные входные данные.
Внедрение подсказок непрямым путем представляет собой серьезную проблему из-за зависимости от манипулированных источников данных. NIST рекомендует привлекать человека к тонкой настройке моделей посредством обучения с подкреплением на основе обратной связи от человека (RLHF). Фильтрация инструкций из полученных входных данных и использование модераторов ИИ могут дополнительно усилить защиту от атак с внедрением подсказок непрямым путем.
Решения, основанные на интерпретируемости, позволяют получить представление о процессе принятия решений ИИ , помогая выявлять аномальные входные данные. Анализируя траектории прогнозирования, организации могутdentи предотвращать потенциальные атаки до того, как они проявятся.
Роль службы безопасности IBM в кибербезопасности ИИ
По мере развития сферы кибербезопасности IBM Security остается на передовой, предлагая решения на основе искусственного интеллекта для усиления защиты от новых угроз. Используя передовые технологии и экспертные знания, IBM Security помогает организациям эффективно защищать свои системы на основе ИИ.
Технологии искусственного интеллекта развиваются, как и тактика, используемая злоумышленниками, стремящимися использовать его уязвимости. Следуя рекомендациям NIST и используя инновационные решения от лидеров отрасли, таких как IBM Security, организации могут снизить риски, связанные с угрозами кибербезопасности, вызванными ИИ, и обеспечить целостность и безопасность своих систем.

