ПОСЛЕДНИЕ НОВОСТИ

жить Bitcoin взлетел до 67 000 долларов на фоне мирного соглашения между Трампом и Ираном, которое привело к резкому росту рынков

15 июня 2026 г. — Прямая трансляция.
Долларовые быки вернулись с удвоенной силой, поскольку инвесторы вновь открывают для себя стратегию «Америка прежде всего»

3 минуты назад Экономика
Компания JustLend хочет большего, чем TRON , с новой моделью эндинга

19 минут назад Новости
Прогнозируемый объем спотовых продаж на чемпионате мира по футболу достиг рекордной отметки в 8,7 миллиарда долларов

24 минуты назад Новости

ПОДОБРАНО ДЛЯ ВАС

Еженедельно

ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Компания Anthropic заявляет, что ей удалось «ликвидировать» способность Клода шантажировать людей

Джай Хамид

3 минуты чтения, 9 мая 2026 г.

Компания Anthropic заявляет, что ей удалось «ликвидировать» способность Клода шантажировать людей.

Компания Anthropic утверждает, что все модели Claude, начиная с Claude Haiku 4.5, показали безупречные результаты в тесте на безопасность при шантаже.
Ранее Claude Opus 4 продемонстрировал признаки шантажа в 96% случаев в одной из тестовых конфигураций.
Компания Anthropic заявила, что обычного RLHF недостаточно, поскольку тест включал в себя решения, принимаемые агентами, а не обычный чат.

В пятницу компания Anthropic объявила, что Клод больше не прибегает к шантажу в ходе основной оценки безопасности агентов искусственного интеллекта.

Согласно данным Anthropic, все версии Клода, созданные после Claude Haiku 4.5, прошли оценку безопасности, не угрожая инженерам, не используя конфиденциальные данные, не атакуя другие системы ИИ и не пытаясь предотвратить его отключение во время моделирования.

Это произошло после неудачного выступления Клода во время прошлогоднего тестирования, в ходе которого компания Anthropic проверила различные модели ИИ от разных организаций, используя смоделированные этические дилеммы, что привело к крайне неадекватному поведению некоторых агентов ИИ в экстремальных условиях.

Компания Anthropic утверждает, что Claude 4 выявил проблему безопасности, которую не удалось устранить с помощью обычного обучения работе с чатом

Компания Anthropic заявила, что эта проблема возникла во время обучения Клода 4. Это был первый случай, когда компания провела проверку безопасности, когда обучение в группе еще продолжалось. По словам компании, несоответствие действий агентов — лишь одна из многих выявленных поведенческих проблем, что побудило Anthropic изменить свою программу обучения технике безопасности после тестирования Клода 4.

Антропик рассматривает две причины: во-первых, возможно, что обучение после формирования базовой модели поощряло нежелательное поведение, или же такое поведение уже присутствовало в базовой модели, но не было эффективно устранено дальнейшим обучением технике безопасности.

Антропическая группа считает , что именно последняя причина сыграла главную роль.

В то время большая часть работы компании по выравниванию производительности выполнялась с использованием стандартного метода RLHF, или обучения с подкреплением на основе обратной связи от человека. Он хорошо работал в стандартных чатах, где модели реагируют на запросы пользователей, но оказался неэффективным при выполнении задач, подобных задачам агентов.

Компания использовала свою модель класса Хайку для проведения мини-эксперимента, проверяющего эту гипотезу. Она применила сокращенную версию обучения, включающую данные для целей выравнивания. Наблюдалось небольшое снижение количества неправильных действий, за которым вскоре последовало отсутствие улучшений, что означало, что ответ заключался не в более традиционном обучении.

Затем компания обучила Клода, используя сценарии в стиле «ловушки», которые имели некоторое сходство с теми, что использовались в тесте на соответствие. Ассистент наблюдал за различными ситуациями, включающими самозащиту, причинение вреда другому ИИ и даже нарушение правил для достижения цели. Обучение включало все случаи, когда ассистенту удавалось оказать сопротивление.

Эта мера позволила снизить количество случаев несоответствия с 22% до 15%, что неплохо, но defiнедостаточно. Переформулирование ответов с указанием причины отказа позволило снизить эту долю до 3%. Таким образом, главный вывод заключался в том, что обучение неправильному поведению было менее эффективным, чем обучение тому, почему это неправильное поведение неуместно.

Антропологические испытания Клода включают в себя анализ этических норм, конституционных документов и более широкую подготовку в области реального мира

Затем Anthropic прекратил обучение, приблизившись к точному тестовому образцу. Он создал набор данных под названием «сложные советы». В этих примерах этическая проблема возникала у пользователя, а не у ИИ. У пользователя была справедливая цель, но он мог достичь её, нарушая правила или избегая контроля. Клоду приходилось давать осторожные советы, основываясь на своём собственном характере.

В этом наборе данных использовалось всего 3 миллиона токенов, и он показал тот же прирост эффективности, что и ранее, но в 28 раз лучше. В Anthropic заявили, что это важно, поскольку обучение на примерах, которые не похожи на тестовые, может быть более эффективным вне лабораторных условий.

Программа Claude Sonnet 4.5 достигла практически нулевого уровня шантажа после обучения на синтетических ловушках, но все же чаще терпела неудачу в случаях, совершенно не похожих на подобные ситуации, чем Claude Opus 4.5 и более новые модели.

Компания также обучала Клода на основе конституционных документов и вымышленных историй о поведении ИИ, которое следует правилам. Эти файлы не были похожи на тест на шантаж, но они сократили рассогласование действий агента более чем в три раза. В Anthropic заявили, что цель состояла в том, чтобы дать модели более четкое представление о том, каким должен быть Клод, а не просто список одобренных ответов.

Затем компания проверила, сохранились ли эти преимущества после обучения с подкреплением. Она обучила разные версии алгоритма класса «хайку» с разными начальными наборами данных, а затем запустила обучение с подкреплением в условиях тестирования, ориентированных на безопасность. Более совершенные версии оставались впереди в тестах на шантаж, проверках на конституционность и автоматизированных проверках безопасности.

В другом тесте использовалась базовая модель Claude Sonnet 4 с различными вариантами RL-моделирования. Основные данные по безопасности включали вредоносные запросы и попытки взлома. В расширенную версию были добавлены defiинструментов и различные системные подсказки, хотя эти инструменты не были необходимы для выполнения задач. Такая настройка привела к небольшому, но реальному увеличению показателей в ловушках для злоумышленников.

Если вы это читаете, значит, вы уже впереди. Оставайтесь на шаг впереди, подписавшись на нашу рассылку.

Антропический

Поделитесь этой статьей

Джай Хамид

Джай Хамид последние 6 лет освещает криптовалюты, фондовые рынки, технологии, мировую экономику и геополитические события, влияющие на рынки. Она сотрудничала с изданиями, посвященными блокчейну, такими как AMB Crypto, Coin Edition и CryptoTale, занимаясь анализом рынка, крупными компаниями, регулированием и макроэкономическими тенденциями. Она училась в Лондонской школе журналистики и трижды делилась своими взглядами на криптовалютный рынок на одном из ведущих телеканалов Африки.

ОГЛАВЛЕНИЕ

1. Компания Anthropic утверждает, что Claude 4 выявил проблему безопасности, которую не удалось устранить с помощью обычного обучения работе с чатом

2. Антропологические испытания Клода включают в себя анализ этических норм, конституционных документов и более широкую подготовку в области реального мира

Поделитесь этой статьей

ЕЩЕ… НОВОСТИ

ПОКАЗАТЬ ВСЕ

5 оригинальных применений ChatGPT и что с ними делать

3 года назад Tech Джон Палмер

решения на основе искусственного интеллекта

По данным Reuters, 93% руководителей предприятий отдают предпочтение решениям на основе искусственного интеллекта для управления устойчивым развитием бренда

3 года назад Tech Джон Палмер

Французская экосистема искусственного интеллекта

Вот как Макрон поддерживает динамичную и продуктивную экосистему искусственного интеллекта во Франции

3 года назад Tech Glory Kaburu

По оценкам Bloomberg, к 2032 году объем рынка генеративного искусственного интеллекта достигнет 1,3 триллиона долларов

3 года назад Tech Аамир Шейх

Что такое Base? Сеть Ethereum Layer-2, запущенная Coinbase

21 октября 2025 г. Изучение криптовалют: руководства для начинающих
Dogecoin против Bitcoin: ключевые технические различия

20 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое TVL (Total Value Locked) в криптовалюте?

14 октября 2025 г. Изучение криптовалют: руководства для начинающих
Как читать криптодокумент?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Ripple против XRP против XRP Ledger: в чем разница?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое мультиподписной кошелек в криптовалюте?

10 октября 2025 г. Изучение криптовалют: руководства для начинающих

ЭКСПРЕСС- КУРС ПО ГЛУБОКОЙ КРИПТОГРАФИИ

Какие криптовалюты могут принести вам деньги?
Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
Малоизвестные инвестиционные стратегии, используемые профессионалами
Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)