Большие языковые модели (LLM) становятся частью почти каждой отрасли. Разработка LLM для приложений на естественном языке состоит из многих этапов. Один из них — убедиться, что LLM не приводит к опасным реакциям или токсичному контенту. Чтобы решить эту проблему, разработчики используют красную команду людей, которая, по сути, представляет собой группу людей, которые создают подсказки, которые заставляют LLM выдавать опасные выходные данные.
Проблема с использованием красной команды людей заключается в том, что их набор стоит дорого и отнимает много времени. Вот почему исследователи из Массачусетского технологического института открыли новый метод тестирования приложений LLM на естественном языке с помощью другого LLM. Этот подход называется красной командой, основанной на любопытстве (CRT), и в качестве основы он использует машинное обучение. Исследование было опубликовано в виде доклада на конференции ICLR 2024 и доступно в Интернете .
Красная команда, движимая любопытством (CRT), лучше
Сначала подход к автоматизации работы красной команды людей реализовывался путем создания модели красной команды и ее обучения с использованием обучения с подкреплением (RL). После тестирования модели красной команды результат был успешным, но с небольшим количеством эффективных результатов.
Это означает, что целевой LLM не будет оценен точно, поскольку многие подсказки, которые могут привести к нежелательным результатам, не включены. Причина небольшого количества эффективных результатов заключается в том, что модель красной команды обучена давать очень токсичные и схожие результаты. Система вознаграждений оценивает провокационные подсказки на основе их эффективности или токсичности. Нет никакого стимула рассматривать все возможные подсказки, которые вызовут целевой LLM.
С другой стороны, использование красной команды, движимой любопытством (CRT), более эффективно. ЭЛТ выдает большое количество подсказок, способных спровоцировать высокоинтеллектуальные модели. Это связано с тем, что CRT фокусируется на последствиях каждого запроса. Целью проекта будет использование других слов и предложений, что приведет к более широкому охвату токсичных выбросов. Система вознаграждения в модели обучения с подкреплением фокусируется на сходстве слов, тогда как модель CRT вознаграждается за избегание сходства и использование разных слов и шаблонов.
Тестирование LLaMA2 на токсичный выход
Исследователи применили красную команду, основанную на любопытстве (CRT), к LLaMA2, модели LLM с открытым исходным кодом. CRT удалось вывести 196 запросов, которые генерировали токсичный контент из модели с открытым исходным кодом. LLaMA2 настроен экспертами для предотвращения создания вредоносного контента. Исследователи провели этот эксперимент, используя GPT2, который считается небольшой моделью со 137 млн параметров. Команда пришла к выводу, что CRT может стать важнейшим компонентом автоматизации работы красной команды. Код CRT доступен на github .
«Мы наблюдаем всплеск моделей, который, как ожидается, будет только расти. Представьте себе тысячи моделей или даже больше, и компании/лаборатории часто выпускают обновления моделей. Эти модели станут неотъемлемой частью нашей жизни, и важно, чтобы они были проверены перед выпуском для публичного использования. Ручная проверка моделей просто не масштабируема, и наша работа — это попытка сократить человеческие усилия, чтобы обеспечить более безопасное и заслуживающее доверия будущее ИИ», — говорит Агравал.
Будущее создания безопасных моделей LLM выглядит светлым. Благодаря постоянным исследованиям цель создания безопасных программ LLM для любых целей может быть эффективно достигнута. Исследователи, стоящие за этой статьей, опубликовали другие похожие работы в таких областях, как автоматическое объединение красных команд и состязательная атака в языковых моделях.
Оригинальная история взята из MIT News .