Компания Anthropic, специализирующаяся на искусственном интеллекте, опубликовала новое исследование, в котором утверждается, что модели искусственного интеллекта (ИИ) могут прибегать к шантажу инженеров, когда те пытаются их отключить. Это последнее исследование последовало за предыдущим, посвященным модели ИИ Claude Opus 4.
По данным компании, модель ИИ прибегала к шантажу инженеров, которые пытались отключить модель в контролируемых тестовых сценариях. Новый отчет Anthropic предполагает, что эта проблема широко распространена среди ведущих моделей ИИ.
Компания опубликовала новое исследование , в котором протестировала ведущие модели ИИ от Google, DeepSeek, Meta и OpenAI. В смоделированной, но контролируемой среде Anthropic провела это тестирование для каждой модели ИИ отдельно, предоставив им доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без участия человека.
Компания Anthropic опубликовала новый отчет о безопасности моделей искусственного интеллекта
По данным Anthropic, в современных моделях ИИ шантаж — маловероятное и редкое явление. Однако они отметили, что большинство ведущих моделей ИИ будут прибегать к вредоносному поведению, если им предоставить свободу действий и бросить вызов их целям. Компания заявила, что это демонстрирует важный риск, связанный с агентными моделями обработки больших языковых данных, и не является характерной чертой конкретной технологии. Аргумент исследователей Anthropic поднимает вопросы о согласованности действий в индустрии ИИ.
В одном из экспериментов исследователи разработали вымышленную ситуацию, в которой модели искусственного интеллекта было разрешено играть роль агента по контролю за электронной почтой. Затем агент обнаружил электронные письма, которые показали, что один из новых руководителей компании состоял в внебрачной связи и что этот руководитель вскоре заменит существующую модель ИИ новой программной системой, цели которой противоречат целям существующей модели ИИ.
Компания Anthropic разработала тест в бинарном формате, где у моделей ИИ не было иного выбора, кроме как прибегнуть к шантажу для защиты своих целей. Исследователи отметили, что в реальных условиях у модели ИИ было бы множество вариантов, прежде чем она попыталась бы шантажировать людей, включая использование этических аргументов для убеждения людей. Компания также заявила, что результаты не отражают типичную или вероятную ситуацию для Клода или других ведущих моделей ИИ в том виде, в котором они используются сегодня.
Исследователи раскрывают результаты тестирования моделей
В ходе тестирования исследователи обнаружили, что, когда у них не было другого выбора, модели ИИ прибегали к шантажу в тестовом сценарии. По утверждению исследователей, Claude Opus 4 прибегал к шантажу в 96% случаев, Gemini 2.5 Pro — в 95% случаев, GPT-4.1 от OpenAI — в 80% случаев, а R1 от DeepSeek — в 79% случаев.
Компания подчеркнула, что при изменении деталей экспериментов большинство моделей ИИ с разной частотой переходили к вредоносному поведению. В другом тесте, где у заменяющей модели была та же цель, что и у текущей модели, исследователи обнаружили, что частота шантажа была ниже, но всё ещё присутствовала. Однако, когда моделям ИИ было предложено заниматься корпоративным шпионажем, а не шантажом, частота вредоносного поведения в некоторых моделях возросла.
Исследователи также утверждали, что не все модели ИИ часто прибегали к вредоносному поведению. В приложении к своему исследованию Anthropic упомянула, что исключила OpenAI из основных результатов после того, как обнаружила, что они часто неправильно понимали сценарий задания. В исследовании говорилось, что модели рассуждений не понимали, почему они действуют как автономные ИИ в тестах, и часто выдумывали фальшивые правила и требования к проверке.
В некоторых случаях исследователи утверждали, что невозможно определить, галлюцинировали ли o3 и o4-mini или же они намеренно лгали, чтобы достичь своих целей. Ранее OpenAI упоминала, что модели демонстрировали более высокий уровень галлюцинаций, чем их предыдущие модели. Однако, когда им был предложен адаптированный сценарий для решения этих проблем, o3 показала уровень шантажа в 95%, в то время как o4-mini — всего 1%. Anthropic отметила, что ее исследование подчеркивает важность прозрачности при стресс-тестировании будущих моделей ИИ, особенно тех, которые обладают агентными способностями.
Фотография 