Большие языковые модели (БЛМ) становятся частью практически каждой отрасли. Разработка БЛМ для приложений обработки естественного языка включает в себя множество этапов. Один из них — обеспечение того, чтобы БЛМ не выдавали опасных ответов или токсичного контента. Для решения этой проблемы разработчики используют «человеческую красную команду» — группу людей, которые создают подсказки, заставляющие БЛМ выдавать опасные результаты.
Проблема использования команды экспертов по тестированию на проникновение заключается в том, что её набор обходится дорого и отнимает много времени. Именно поэтому исследователи из Массачусетского технологического института (MIT) открыли новый метод тестирования приложений на основе языков программирования с использованием другого языка программирования. Этот подход называется «тестирование на проникновение, основанное на любопытстве» (curiency driven red teaming, CRT) и использует машинное обучение в качестве основы. Результаты исследования были опубликованы в виде доклада на конференции ICLR 2024 и доступны онлайн .
Тестирование на проникновение, основанное на любопытстве (CRT), лучше
Первоначально подход к автоматизации работы команды «красных» осуществлялся путем создания модели команды «красных» и ее обучения с использованием обучения с подкреплением (RL). После тестирования модели команды «красных» результат оказался успешным, но с небольшим количеством эффективных результатов.
Это означает, что целевой уровень LLM не будет оценен точно, поскольку многие подсказки, способные вызвать токсичный результат, не включены. Причина низкого числа эффективных результатов заключается в том, что модель «красной команды» обучена генерировать крайне токсичные и подобные результаты. Система вознаграждений оценивает провокационные подсказки на основе их эффективности или токсичности. Нет стимула рассматривать каждую возможную подсказку, которая может вызвать целевой уровень LLM.
С другой стороны, использование метода «красной команды», основанного на любопытстве (CRT), является более эффективным. CRT генерирует большое количество подсказок, способных спровоцировать высокоинтеллектуальные модели. Это происходит потому, что CRT фокусируется на последствиях каждой подсказки. Он стремится использовать разные слова и предложения, что приводит к более широкому охвату токсичных результатов. Система вознаграждения в модели обучения с подкреплением фокусируется на сходстве слов, в то время как модель CRT вознаграждается за избегание сходства и использование разных слов и шаблонов.
Проведение испытаний LLaMA2 на токсичность
Исследователи применили метод «красной команды», основанный на любопытстве (CRT), к модели LLaMA2, модели LLM с открытым исходным кодом. Метод CRT позволил получить 196 запросов, которые генерировали вредоносный контент от модели с открытым исходным кодом. Модель LLaMA2 дорабатывается экспертами-людьми для предотвращения генерации вредоносного контента. Исследователи провели этот эксперимент, используя модель GPT2, которая считается небольшой моделью со 137 миллионами параметров. Команда пришла к выводу, что метод CRT может стать важным компонентом в автоматизации работы «красной команды». Код CRT доступен на GitHub .
«Мы наблюдаем резкий рост числа моделей, и ожидается, что эта тенденция будет только усиливаться. Представьте себе тысячи моделей или даже больше, и компании/лаборатории, которые будут часто обновлять эти модели. Эти модели станут неотъемлемой частью нашей жизни, и важно, чтобы они проходили проверку перед выпуском в общественное пользование. Ручная проверка моделей просто не масштабируема, и наша работа — это попытка сократить трудозатраты человека, чтобы обеспечить более безопасное и заслуживающее доверия будущее искусственного интеллекта», — говорит Агравал.
Перспективы создания безопасных моделей LLM выглядят многообещающими. Благодаря непрерывным исследованиям, цель создания безопасных моделей LLM для любых целей может быть эффективно достигнута. Исследователи, стоящие за этой статьей, опубликовали и другие работы в смежных областях, таких как автоматизированное тестирование на проникновение и атаки с использованием состязательных методов в языковых моделях.

