Группа компьютерных специалистов из Университета Ватерлоо в Канаде разработала универсальный бэкдор, способный вызывать ложные срабатывания искусственного интеллекта в больших моделях классификации изображений.enjШнайдер, Нильс Лукас и профессор Флориан Кершбаум подробно описывают свою инновационную методику в препринте под названием «Универсальные атаки с использованием бэкдоров». В отличие от традиционных атак, ориентированных на конкретные классы, подход команды позволяет генерировать триггеры для любого класса в наборе данных, потенциально влияя на широкий спектр классификаций изображений.
Представлен универсальный бэкдор
Метод ученых основан на возможности переноса эффекта отравления между классами, что позволяет создать обобщенный бэкдор, который вызывает ошибочную классификацию изображений в любом распознанном классе. Авторы подчеркивают в своей статье, что этот бэкдор может эффективно поражать все 1000 классов из набора данных ImageNet-1K, отравляя при этом лишь 0,15% обучающих данных. Это отличие от традиционных атак вызывает серьезные опасения по поводу уязвимости больших наборов данных и целостности классификаторов изображений, особенно в контексте данных, полученных путем веб-скрейпинга.
Этот метод отличается от предыдущих атак с использованием бэкдоров, которые часто были нацелены на определенные классы данных. Вместо того чтобы сосредоточиться на обучении модели ошибочной классификации дорожного знака как столба или собаки как кошки, подход команды предполагает обучение разнообразного набора признаков наряду со всеми изображениями в наборе данных. Потенциальное влияние этого универсального бэкдора имеет далеко идущие последствия, что побуждает к переоценке существующих методов обучения и развертывания классификаторов изображений. Как утверждают исследователи, специалисты по глубокому обучению теперь должны учитывать существование универсальных бэкдоров при работе с классификаторами изображений, подчеркивая необходимость смены парадигмы в подходе к обеспечению безопасности этих моделей.
Совокупность рисков и экономических мотивов, лежащих в основе галлюцинаций, связанных с искусственным интеллектом
Потенциальные сценарии атак, связанные с этим универсальным бэкдором, вызывают тревогу. Один из методов включает создание зараженной модели путем ее распространения через общедоступные хранилища данных или конкретных операторов цепочки поставок. Другой сценарий включает размещение изображений в интернете и ожидание их сбора веб-краулерами, что приводит к заражению полученной модели. Третья возможность заключается в изменении URL-адресов исходных файлов известных наборов данных путем получения доменов с истекшим сроком действия, связанных с этими изображениями. Шнайдер предупреждает, что масштабы собранных в интернете наборов данных делают проверку целостности каждого изображения все более сложной задачей, особенно в контексте больших наборов данных.
Исследователи подчеркивают экономическую заинтересованность противников в использовании этих уязвимостей, указывая на возможность того, что злоумышленник может обратиться к таким компаниям, как Tesla, зная о наличии скрытых моделей, требуя крупную сумму за предотвращение их раскрытия. Надвигающаяся угроза подобных атак заставляет пересмотреть доверие к моделям ИИ, особенно по мере их распространения в областях, чувствительных к вопросам безопасности. Лукас подчеркивает необходимость более глубокого понимания этих моделей для разработки эффективных средств защиты от мощных атак, которые до сих пор в значительной степени оставались предметом академических исследований.
Защита от иллюзий искусственного интеллекта, создаваемых универсальными бэкдорами
По мере того, как раскрываются последствия этой повсеместной лазейки, возникает вопрос: как отрасль может реагировать на меняющийся ландшафт угроз безопасности ИИ? Учитывая потенциальную возможность манипулирования моделями в целях получения финансовой выгоды, необходимость усиления защиты от таких распространенных угроз становится первостепенной. Горький урок, извлеченный из этого исследования, подчеркивает необходимость всестороннего понимания моделей ИИ и надежных механизмов защиты от новых и мощных атак. Как отрасль может найти баланс между инновациями и безопасностью в постоянно развивающейся области искусственного интеллекта?

