ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Компания Anthropic заявляет, что ей удалось «ликвидировать» способность Клода шантажировать людей

КДжай ХамидДжай Хамид
3 минуты чтения,
Компания Anthropic заявляет, что ей удалось «ликвидировать» способность Клода шантажировать людей.
  • Компания Anthropic утверждает, что все модели Claude, начиная с Claude Haiku 4.5, показали безупречные результаты в тесте на безопасность при шантаже.
  • Ранее Claude Opus 4 продемонстрировал признаки шантажа в 96% случаев в одной из тестовых конфигураций.
  • Компания Anthropic заявила, что обычного RLHF недостаточно, поскольку тест включал в себя решения, принимаемые агентами, а не обычный чат.

В пятницу компания Anthropic объявила, что Клод больше не прибегает к шантажу в ходе основной оценки безопасности агентов искусственного интеллекта.

Согласно данным Anthropic, все версии Клода, созданные после Claude Haiku 4.5, прошли оценку безопасности, не угрожая инженерам, не используя конфиденциальные данные, не атакуя другие системы ИИ и не пытаясь предотвратить его отключение во время моделирования.

Это произошло после неудачного выступления Клода во время прошлогоднего тестирования, в ходе которого компания Anthropic проверила различные модели ИИ от разных организаций, используя смоделированные этические дилеммы, что привело к крайне неадекватному поведению некоторых агентов ИИ в экстремальных условиях.

Компания Anthropic утверждает, что Claude 4 выявил проблему безопасности, которую не удалось устранить с помощью обычного обучения работе с чатом

Компания Anthropic заявила, что эта проблема возникла во время обучения Клода 4. Это был первый случай, когда компания провела проверку безопасности, когда обучение в группе еще продолжалось. По словам компании, несоответствие действий агентов — лишь одна из многих выявленных поведенческих проблем, что побудило Anthropic изменить свою программу обучения технике безопасности после тестирования Клода 4.

Антропик рассматривает две причины: во-первых, возможно, что обучение после формирования базовой модели поощряло нежелательное поведение, или же такое поведение уже присутствовало в базовой модели, но не было эффективно устранено дальнейшим обучением технике безопасности.

Антропическая группа считает , что именно последняя причина сыграла главную роль.

В то время большая часть работы компании по выравниванию производительности выполнялась с использованием стандартного метода RLHF, или обучения с подкреплением на основе обратной связи от человека. Он хорошо работал в стандартных чатах, где модели реагируют на запросы пользователей, но оказался неэффективным при выполнении задач, подобных задачам агентов.

Компания использовала свою модель класса Хайку для проведения мини-эксперимента, проверяющего эту гипотезу. Она применила сокращенную версию обучения, включающую данные для целей выравнивания. Наблюдалось небольшое снижение количества неправильных действий, за которым вскоре последовало отсутствие улучшений, что означало, что ответ заключался не в более традиционном обучении.

Затем компания обучила Клода, используя сценарии в стиле «ловушки», которые имели некоторое сходство с теми, что использовались в тесте на соответствие. Ассистент наблюдал за различными ситуациями, включающими самозащиту, причинение вреда другому ИИ и даже нарушение правил для достижения цели. Обучение включало все случаи, когда ассистенту удавалось оказать сопротивление.

Эта мера позволила снизить количество случаев несоответствия с 22% до 15%, что неплохо, но defiнедостаточно. Переформулирование ответов с указанием причины отказа позволило снизить эту долю до 3%. Таким образом, главный вывод заключался в том, что обучение неправильному поведению было менее эффективным, чем обучение тому, почему это неправильное поведение неуместно.

Антропологические испытания Клода включают в себя анализ этических норм, конституционных документов и более широкую подготовку в области реального мира

Затем Anthropic прекратил обучение, приблизившись к точному тестовому образцу. Он создал набор данных под названием «сложные советы». В этих примерах этическая проблема возникала у пользователя, а не у ИИ. У пользователя была справедливая цель, но он мог достичь её, нарушая правила или избегая контроля. Клоду приходилось давать осторожные советы, основываясь на своём собственном характере.

В этом наборе данных использовалось всего 3 миллиона токенов, и он показал тот же прирост эффективности, что и ранее, но в 28 раз лучше. В Anthropic заявили, что это важно, поскольку обучение на примерах, которые не похожи на тестовые, может быть более эффективным вне лабораторных условий.

Программа Claude Sonnet 4.5 достигла практически нулевого уровня шантажа после обучения на синтетических ловушках, но все же чаще терпела неудачу в случаях, совершенно не похожих на подобные ситуации, чем Claude Opus 4.5 и более новые модели.

Компания также обучала Клода на основе конституционных документов и вымышленных историй о поведении ИИ, которое следует правилам. Эти файлы не были похожи на тест на шантаж, но они сократили рассогласование действий агента более чем в три раза. В Anthropic заявили, что цель состояла в том, чтобы дать модели более четкое представление о том, каким должен быть Клод, а не просто список одобренных ответов.

Затем компания проверила, сохранились ли эти преимущества после обучения с подкреплением. Она обучила разные версии алгоритма класса «хайку» с разными начальными наборами данных, а затем запустила обучение с подкреплением в условиях тестирования, ориентированных на безопасность. Более совершенные версии оставались впереди в тестах на шантаж, проверках на конституционность и автоматизированных проверках безопасности.

В другом тесте использовалась базовая модель Claude Sonnet 4 с различными вариантами RL-моделирования. Основные данные по безопасности включали вредоносные запросы и попытки взлома. В расширенную версию были добавлены defiинструментов и различные системные подсказки, хотя эти инструменты не были необходимы для выполнения задач. Такая настройка привела к небольшому, но реальному увеличению показателей в ловушках для злоумышленников.

Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.

Поделитесь этой статьей
ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС