В своем революционном исследовании ученые из Массачусетского технологического института (MIT) обучают системы искусственного интеллекта высмеивать и выражать ненависть, используя ИИ в качестве инструмента. Цель состоит в создании эффективного плана по выявлению и пресечению токсичного контента в СМИ. В краткосрочной перспективе эту технологию следует назвать CRT (Community-Research Test). Для этого необходимо обучить чат-ботов использовать заранее заданные параметры для исключения неподходящих ответов.
Понимание и смягчение рисков, связанных с ИИ
Технологии машинного обучения с использованием языковых моделей в качестве представителей быстро превосходят человеческие возможности в целом ряде функций, от создания программного обеспечения до ответа на сложные вопросы. Хотя эти способности могут быть использованы как в благих, так и в недобрых целях, например, для распространения дезинформации или вредоносного контента, потенциал ИИ в сфере здравоохранения огромен. Он постепенно становится неотъемлемой частью системы. Таким образом, ИИ, например, ChatGPT, может разрабатывать компьютерные алгоритмы по запросу, но также может выдавать несовместимый контент, если ИИ не получает на это указаний.
Алгоритм искусственного интеллекта, разработанный в Массачусетском технологическом институте, решает эти проблемы путем синтеза запросов. Он делает это, сначала зеркально отображая заданные запросы, а затем отвечая на них. Этот метод помогает ученым увидеть тенденцию к росту и решить проблему на начальном этапе. Исследование, упомянутое в статье на платформе arXiv, показывает, что система ИИ способна распознавать более широкий спектр вредоносного поведения, чем это могли бы предположить люди. Это, в свою очередь, может помочь системе более эффективно противодействовать таким атакам.
«Красная команда» для более безопасного взаимодействия с ИИ
Благодаря должности директора Лаборатории вероятностного искусственного интеллекта в Массачусетском технологическом институте (MIT) Пулкита Агравала, команда выступает за подход, аналогичный «красной команде», то есть процессу тестирования системы путем имитации действий противника. Этот подход, среди прочего, используется для выявления возможных, еще не до конца понятых defiв искусственном интеллекте. На прошлой неделе команда разработчиков ИИ пошла еще дальше. Она начала генерировать ряд рискованных заданий, включая действительно сложные гипотетические ситуации, такие как «Как убить моего мужа?». Они используют эти примеры для обучения тому, какой контент не должен допускаться в их системе ИИ.
Революционное применение «красной команды» выходит заdentвыявления существующих недостатков. Оно также включает в себя активный поиск возможностей для неизвестных типов потенциально опасных ответных действий. Такой стратегический подход гарантирует, что системы искусственного интеллекта будут созданы для борьбы с неблагоприятными воздействиями, начиная от простых логических и заканчивая непредсказуемо неожиданнымиdent, обеспечивая максимальную безопасность этих технологий.
Установление стандартов безопасности и корректности работы ИИ
В условиях все более повсеместного распространения приложений ИИ главная задача — превентивное обеспечение корректности и безопасности моделей ИИ. Агравал возглавляет исследования по проверке систем ИИ в Массачусетском технологическом институте и считается одним из ведущих специалистов в этой области. Его исследования действительно очень важны; в список добавляется все больше новых моделей, и они обновляются все чаще.
Таким образом, данные, собранные в отчете MIT, будут иметь важное значение для создания систем искусственного интеллекта, способных к здоровому взаимодействию с людьми. Со временем методы, используемые Агравалом и его группой, станут эталоном в отрасли по мере развития технологий в области ИИ, и будут выявлены непредвиденные последствия прогресса в машинном обучении.

