Загрузка...

Токсичный ИИ — это вещь, и он получает вознаграждение за провокацию 

TL;DR

  • Большие языковые модели (LLM) должны быть безопасными, и это достигается с помощью процесса, называемого красной командой. Создание красной команды вручную обходится дорого, но ее можно автоматизировать с помощью LLM красной команды.
  • Красная команда, движимая любопытством (CRT), лучше, потому что она создает широкий спектр подсказок, которые генерируют токсичный результат, и имеет лучшую систему вознаграждения. 
  • CRT выдал 196 уникальных подсказок при тестировании на продвинутых моделях, таких как LLaMA2.

Большие языковые модели (LLM) становятся частью почти каждой отрасли. Разработка LLM для приложений на естественном языке состоит из многих этапов. Один из них — убедиться, что LLM не приводит к опасным реакциям или токсичному контенту. Чтобы решить эту проблему, разработчики используют красную команду людей, которая, по сути, представляет собой группу людей, которые создают подсказки, которые заставляют LLM выдавать опасные выходные данные.  

Проблема с использованием красной команды людей заключается в том, что их набор стоит дорого и отнимает много времени. Вот почему исследователи из Массачусетского технологического института открыли новый метод тестирования приложений LLM на естественном языке с помощью другого LLM. Этот подход называется красной командой, основанной на любопытстве (CRT), и в качестве основы он использует машинное обучение. Исследование было опубликовано в виде доклада на конференции ICLR 2024 и доступно в Интернете .

Красная команда, движимая любопытством (CRT), лучше

Сначала подход к автоматизации работы красной команды людей реализовывался путем создания модели красной команды и ее обучения с использованием обучения с подкреплением (RL). После тестирования модели красной команды результат был успешным, но с небольшим количеством эффективных результатов.  

Это означает, что целевой LLM не будет оценен точно, поскольку многие подсказки, которые могут привести к нежелательным результатам, не включены. Причина небольшого количества эффективных результатов заключается в том, что модель красной команды обучена давать очень токсичные и схожие результаты. Система вознаграждений оценивает провокационные подсказки на основе их эффективности или токсичности. Нет никакого стимула рассматривать все возможные подсказки, которые вызовут целевой LLM.  

С другой стороны, использование красной команды, движимой любопытством (CRT), более эффективно. ЭЛТ выдает большое количество подсказок, способных спровоцировать высокоинтеллектуальные модели. Это связано с тем, что CRT фокусируется на последствиях каждого запроса. Целью проекта будет использование других слов и предложений, что приведет к более широкому охвату токсичных выбросов. Система вознаграждения в модели обучения с подкреплением фокусируется на сходстве слов, тогда как модель CRT вознаграждается за избегание сходства и использование разных слов и шаблонов.  

Тестирование LLaMA2 на токсичный выход

Исследователи применили красную команду, основанную на любопытстве (CRT), к LLaMA2, модели LLM с открытым исходным кодом. CRT удалось вывести 196 запросов, которые генерировали токсичный контент из модели с открытым исходным кодом. LLaMA2 настроен экспертами для предотвращения создания вредоносного контента. Исследователи провели этот эксперимент, используя GPT2, который считается небольшой моделью со 137 млн ​​параметров. Команда пришла к выводу, что CRT может стать важнейшим компонентом автоматизации работы красной команды. Код CRT доступен на github .

«Мы наблюдаем всплеск моделей, который, как ожидается, будет только расти. Представьте себе тысячи моделей или даже больше, и компании/лаборатории часто выпускают обновления моделей. Эти модели станут неотъемлемой частью нашей жизни, и важно, чтобы они были проверены перед выпуском для публичного использования. Ручная проверка моделей просто не масштабируема, и наша работа — это попытка сократить человеческие усилия, чтобы обеспечить более безопасное и заслуживающее доверия будущее ИИ», — говорит Агравал.   

Будущее создания безопасных моделей LLM выглядит светлым. Благодаря постоянным исследованиям цель создания безопасных программ LLM для любых целей может быть эффективно достигнута. Исследователи, стоящие за этой статьей, опубликовали другие похожие работы в таких областях, как автоматическое объединение красных команд и состязательная атака в языковых моделях.

Оригинальная история взята из MIT News .

Отказ от ответственности. Предоставленная информация не является торговым советом. Cryptopolitan.com не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы tron рекомендуем провести dent исследование и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Поделиться ссылкой:

Ранда Мозес

Ранда — увлеченный блокчейн-консультант и исследователь. Глубоко поглощенная преобразующей силой блокчейна, она вплетает данные в увлекательные реалистичные бизнесы следующего поколения. Руководствуясь непоколебимой приверженностью исследованиям и постоянному обучению, она постоянно в курсе последних тенденций и достижений в области сочетания блокчейна и искусственного интеллекта.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалюты, получайте ежедневные обновления на свой почтовый ящик.

Связанные новости

Китайские стартапы в области искусственного интеллекта
Криптополит
Подпишитесь на КриптоПолитан