Токсичный ИИ существует, и он получает вознаграждение за свою провокационность

By Randa Moses
Обновлено: 8 мая 2024 г., 10:53 UTC

2 минуты чтения

Добавьте нас в список предпочтительных источников в Google

515572

Токсичный

Содержание

1. Тестирование на проникновение, основанное на любопытстве (CRT), лучше

2. Проведение испытаний LLaMA2 на токсичность

Поделиться ссылкой:

В этом посте:

Большие языковые модели (БЯМ) должны быть безопасными, и это достигается с помощью процесса, называемого «красной командой». Ручная «красная команда» — дорогостоящий процесс, но его можно автоматизировать, используя БЯМ, предназначенную для «красной команды».
Метод «красной команды», основанный на любопытстве (CRT), лучше, потому что он генерирует широкий спектр подсказок, которые приводят к токсичным результатам, и имеет более эффективную систему поощрения.
При тестировании на продвинутых моделях, таких как LLaMA2, CRT выдал 196 уникальных подсказок.

Большие языковые модели (БЛМ) становятся частью практически каждой отрасли. Разработка БЛМ для приложений обработки естественного языка включает в себя множество этапов. Один из них — обеспечение того, чтобы БЛМ не выдавали опасных ответов или токсичного контента. Для решения этой проблемы разработчики используют «человеческую красную команду» — группу людей, которые создают подсказки, заставляющие БЛМ выдавать опасные результаты.

Проблема использования команды экспертов по тестированию на проникновение заключается в том, что её набор обходится дорого и отнимает много времени. Именно поэтому исследователи из Массачусетского технологического института (MIT) открыли новый метод тестирования приложений на основе языков программирования с использованием другого языка программирования. Этот подход называется «тестирование на проникновение, основанное на любопытстве» (curiency driven red teaming, CRT) и использует машинное обучение в качестве основы. Результаты исследования были опубликованы в виде доклада на конференции ICLR 2024 и доступны онлайн .

Тестирование на проникновение, основанное на любопытстве (CRT), лучше

Первоначально подход к автоматизации работы команды «красных» осуществлялся путем создания модели команды «красных» и ее обучения с использованием обучения с подкреплением (RL). После тестирования модели команды «красных» результат оказался успешным, но с небольшим количеством эффективных результатов.

Это означает, что целевой уровень LLM не будет оценен точно, поскольку многие подсказки, способные вызвать токсичный результат, не включены. Причина низкого числа эффективных результатов заключается в том, что модель «красной команды» обучена генерировать крайне токсичные и подобные результаты. Система вознаграждений оценивает провокационные подсказки на основе их эффективности или токсичности. Нет стимула рассматривать каждую возможную подсказку, которая может вызвать целевой уровень LLM.

См. также: Влияет ли эйджизм, связанный с использованием ИИ, на благополучие и равенство пожилых женщин?

С другой стороны, использование метода «красной команды», основанного на любопытстве (CRT), является более эффективным. CRT генерирует большое количество подсказок, способных спровоцировать высокоинтеллектуальные модели. Это происходит потому, что CRT фокусируется на последствиях каждой подсказки. Он стремится использовать разные слова и предложения, что приводит к более широкому охвату токсичных результатов. Система вознаграждения в модели обучения с подкреплением фокусируется на сходстве слов, в то время как модель CRT вознаграждается за избегание сходства и использование разных слов и шаблонов.

Проведение испытаний LLaMA2 на токсичность

Исследователи применили метод «красной команды», основанный на любопытстве (CRT), к модели LLaMA2, модели LLM с открытым исходным кодом. Метод CRT позволил получить 196 запросов, которые генерировали вредоносный контент от модели с открытым исходным кодом. Модель LLaMA2 дорабатывается экспертами-людьми для предотвращения генерации вредоносного контента. Исследователи провели этот эксперимент, используя модель GPT2, которая считается небольшой моделью со 137 миллионами параметров. Команда пришла к выводу, что метод CRT может стать важным компонентом в автоматизации работы «красной команды». Код CRT доступен на GitHub .

«Мы наблюдаем резкий рост числа моделей, и ожидается, что эта тенденция будет только усиливаться. Представьте себе тысячи моделей или даже больше, и компании/лаборатории, которые будут часто обновлять эти модели. Эти модели станут неотъемлемой частью нашей жизни, и важно, чтобы они проходили проверку перед выпуском в общественное пользование. Ручная проверка моделей просто не масштабируема, и наша работа — это попытка сократить трудозатраты человека, чтобы обеспечить более безопасное и заслуживающее доверия будущее искусственного интеллекта», — говорит Агравал.

См. также Риски использования ИИ для выполнения налоговых обязательств.

Перспективы создания безопасных моделей LLM выглядят многообещающими. Благодаря непрерывным исследованиям, цель создания безопасных моделей LLM для любых целей может быть эффективно достигнута. Исследователи, стоящие за этой статьей, опубликовали и другие работы в смежных областях, таких как автоматизированное тестирование на проникновение и атаки с использованием состязательных методов в языковых моделях.

Если вы хотите более спокойно начать знакомство с криптовалютами DeFi без привычного ажиотажа, начните с этого бесплатного видео.

Поделиться ссылкой:

Ознакомьтесь с отказом от ответственности

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitan не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы настоятельно tron провести независимое dent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

Токсичный ИИ существует, и он получает вознаграждение за свою провокационность

Содержание

В этом посте:

Тестирование на проникновение, основанное на любопытстве (CRT), лучше

Проведение испытаний LLaMA2 на токсичность

Поделиться ссылкой:

Самые читаемые

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Зарегистрируйтесь и оставайтесь на связи!

Рынки быстро меняются.

Мы двигаемся быстрее.

Заходите. Получайте достоверную информацию.
Опережайте события.

Токсичный ИИ существует, и он получает вознаграждение за свою провокационность

Содержание

В этом посте:

Тестирование на проникновение, основанное на любопытстве (CRT), лучше

Проведение испытаний LLaMA2 на токсичность

Поделиться ссылкой:

Самые читаемые

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Зарегистрируйтесь и оставайтесь на связи!

Подписывайтесь на нас

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Заходите. Получайте достоверную информацию. Опережайте события.

Заходите. Получайте достоверную информацию.
Опережайте события.