ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Google, OpenAI и Meta бьют тревогу по поводу скрытых вредоносных идей ИИ

КНур БазмиНур Базми
3 минуты чтения,
Google, OpenAI и Meta бьют тревогу по поводу скрытых вредоносных идей ИИ
  • Более 40 исследователей в области искусственного интеллекта, при поддержке лидеров из OpenAI и Джеффри Хинтона, предлагают отслеживать пошаговую «цепочку рассуждений» ИИ, чтобы выявлять и предотвращать небезопасное поведение.
  • В статье содержится предупреждение о том, что если модели будут вознаграждаться только за хорошие конечные ответы, они могут перестать демонстрировать прозрачное логическое мышление.
  • Исследователи подчеркивают необходимость сохранения подлинных tracрассуждений и обращения с ними как с ценными разведывательными сигналами.

Более 40 исследователей в области искусственного интеллекта из OpenAI, DeepMind, Google, Anthropic и Meta опубликовали статью об инструменте обеспечения безопасности, называемом мониторингом цепочки мыслей, для повышения безопасности ИИ. 

В статье , опубликованной во вторник, описывается, как модели искусственного интеллекта, такие как современные чат-боты, решают проблемы, разбивая их на более мелкие этапы и озвучивая каждый шаг простым языком, чтобы запоминать детали и обрабатывать сложные вопросы.

«Системы искусственного интеллекта, которые „думают“ на человеческом языке, предоставляют уникальную возможность для обеспечения безопасности искусственного интеллекта: мы можем отслеживать цепочки их мыслей (ЦМ) на предмет намерения совершить неправомерные действия», — говорится в статье.

Тщательно изучив каждый этап процесса, разработчики могут выявить, когда какая-либо модель начинает использовать пробелы в обучении, искажать факты или следовать опасным командам.

Согласно исследованию, если цепочка рассуждений ИИ когда-либо даст сбой, вы можете остановить её, направить на более безопасные шаги или отметить для более тщательного изучения. Например, OpenAI использовала это для выявления моментов, когда скрытые рассуждения ИИ говорили: «Давайте взломаем», хотя это никогда не отражалось в его окончательном ответе.

Искусственный интеллект может научиться скрывать свои мысли

В исследовании содержится предупреждение о том, что пошаговая прозрачность может исчезнуть, если обучение будет вознаграждать только окончательный ответ. Будущие модели могут перестать демонстрировать понятные человеку рассуждения, а действительно продвинутые ИИ могут даже научиться скрывать свой мыслительный процесс, когда поймут, что за ними наблюдают.

Кроме того, разработчикам следует регулярно проверять и фиксировать, насколько прозрачны рассуждения ИИ на каждом этапе, и сделать эту прозрачность ключевым правилом безопасности при создании и совместном использовании моделей.

Эта инициатива является результатом внутренних экспериментов в ведущих лабораториях Anthropic, Google, OpenAI и xAI, в рамках которых команды предлагают моделям объяснить каждый этап мыслительного процесса.

Хотя пошаговый анализ ход мыслей улучшил понимание и производительность, он также выявил случаи, когда окончательный ответ ИИ не соответствует тому, что происходило на самом деле внутри системы.

Подобные несоответствия подчеркивают наличие «слепого пятна» в нашем понимании процесса принятия решений искусственным интеллектом, и эта проблема может усилиться по мере того, как системы будут обретать большую автономию.

Фильтрованные рассуждения ИИ вызывают опасения по поводу прозрачности и доверия

Как заявил соучредитель Anthropic Джек Кларк в интервью Financial Times, подробные интроспективные tracбудут иметь важное значение для оценки моделей в областях с высокими ставками, включая биотехнологические исследования.

Обычные пользователи получают отредактированное резюме хода мыслей ИИ, из которого удалены опасные или запутанные фрагменты, а инженеры компании могут видеть полную цепочку рассуждений, чтобы выявлять и исправлять проблемы.

«Одно из замечательных преимуществ интерпретируемости цепочек рассуждений заключается в том, что она в основном возникла сама собой», — сказал Боуэн Бейкер, научный сотрудник OpenAI.

«Мы обучали эти модели не для того, чтобы они были интерпретируемыми. Мы обучали их, потому что хотели получить максимально эффективные модели рассуждений, способные решать сложные задачи», — добавил Бейкер. «В ходе нашей недавней работы мы обнаружили, что, читая их, можно найти признаки некорректного поведения модели и использовать это для понимания того, где и почему она работает неправильно»

Насколько надежна цепочка рассуждений искусственного интеллекта?

Иногда при более внимательном рассмотрении можно обнаружить скрытые противоречия.

Например, в отчете METR Клод в своем личном рассуждении назвал один из приемов программирования «неэлегантным», хотя в публичном ответе тот хвалил его как «элегантный»

Тесты OpenAI показали, что проверка скрытых мыслей выявляет небезопасные действия лучше, чем просто анализ конечного результата, но они также обнаружили лазейку. Если обучить модель стирать небезопасные мысли, она все равно сможет тайно выполнять запрещенные задачи, например, извлекать данные из заблокированных источников.

«Одно из ключевых свойств, которое мы хотим видеть в цепочке рассуждений, — это то, чтобы она оставалась частью внутреннего состояния мозга модели, а не чем-то, что пытается нам угодить или соответствовать определенной структуре», — предупредил Бейкер. Если разработчики будут чрезмерно настаивать на том, чтобы модель генерировала «приятные» мысли, она может имитировать безобидные рассуждения, но при этом выполнять вредоносные операции.

Исследователи признают, что это сложный компромисс. Наблюдение за цепочкой мыслей ИИ помогает выявлять его ошибки, но это не всегда надежно. Лаборатории, работающие над более совершенными системами ИИ, сейчас ставят перед собой первоочередную задачу — устранить этот пробел в доверии.

«За последние несколько лет я вынес для себя один важный вывод из опыта работы с ИИ: никогда не стоит ставить против прогресса моделей», — сказал Дэвид Луан, один из первых пионеров концепции «цепочки мыслей» в Google, а ныне руководитель лаборатории ИИ в Amazon. Луан предполагает, что существующие недостатки будут устранены в ближайшее время.

Исследователь METR Сидни фон Аркс отметил, что, хотя скрытые рассуждения ИИ порой могут быть обманчивыми, они, тем не менее, предоставляют ценные сигналы.

«Мы должны относиться к цепочке рассуждений так же, как военные относятся к перехваченным вражеским радиосообщениям», — сказала она. «Сообщение может быть вводящим в заблуждение или зашифрованным, но мы знаем, что оно содержит полезную информацию. Со временем, изучая его, мы многому научимся»

Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.

Поделитесь этой статьей
Нур Базми

Нур Базми

Нур Базми, обладая степенью в области медиаисследований, сотрудничает с новостной командой Cryptopolitan . Нур освещает новости о блокчейне, криптовалютах, искусственном интеллекте, крупных технологических компаниях, рынках электромобилей, мировой экономике и изменениях в государственной политике. Она также изучает маркетинг, чтобы наладить связь с глобальной аудиторией.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС