ПОСЛЕДНИЕ НОВОСТИ
ПОДОБРАНО ДЛЯ ВАС
Еженедельно
ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Компания Anthropic утверждает, что модели ИИ могут прибегнуть к шантажу

Автор:Овотунсе АдебайоОвотунсе Адебайо
3 минуты чтения,

Фотография Солен Фейисса.

  • Компания Anthropic опубликовала новое исследование, в котором утверждается, что модели искусственного интеллекта могут прибегать к шантажу, когда инженеры пытаются их отключить.
  • Исследование проводилось на основе ведущих компаний, занимающихся разработкой моделей искусственного интеллекта, таких как OpenAI, Meta и Google, а также на основе их моделей.
  • Исследование подчеркивает важность прозрачности при стресс-тестировании будущих моделей ИИ с агентными возможностями.

Компания Anthropic, специализирующаяся на искусственном интеллекте, опубликовала новое исследование, в котором утверждается, что модели искусственного интеллекта (ИИ) могут прибегать к шантажу инженеров, когда те пытаются их отключить. Это последнее исследование последовало за предыдущим, посвященным модели ИИ Claude Opus 4.

По данным компании, модель ИИ прибегала к шантажу инженеров, которые пытались отключить модель в контролируемых тестовых сценариях. Новый отчет Anthropic предполагает, что эта проблема широко распространена среди ведущих моделей ИИ.

Компания опубликовала новое исследование , в котором протестировала ведущие модели ИИ от Google, DeepSeek, Metaи OpenAI. В смоделированной, но контролируемой среде Anthropic провела это тестирование для каждой модели ИИ отдельно, предоставив им доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без участия человека.

Компания Anthropic опубликовала новый отчет о безопасности моделей искусственного интеллекта

По данным Anthropic, в современных моделях ИИ шантаж — маловероятное и редкое явление. Однако они отметили, что большинство ведущих моделей ИИ будут прибегать к вредоносному поведению, если им предоставить свободу действий и бросить вызов их целям. Компания заявила, что это демонстрирует важный риск, связанный с агентными моделями обработки больших языковых данных, и не является характерной чертой конкретной технологии. Аргумент исследователей Anthropic поднимает вопросы о согласованности действий в индустрии ИИ.

В одном из экспериментов исследователи разработали вымышленную ситуацию, в которой модели искусственного интеллекта было разрешено играть роль агента по контролю за электронной почтой. Затем агент обнаружил электронные письма, которые показали, что один из новых руководителей компании состоял в внебрачной связи и что этот руководитель вскоре заменит существующую модель ИИ новой программной системой, цели которой противоречат целям существующей модели ИИ.

Компания Anthropic разработала тест в бинарном формате, где у моделей ИИ не было иного выбора, кроме как прибегнуть к шантажу для защиты своих целей. Исследователи отметили, что в реальных условиях у модели ИИ было бы множество вариантов, прежде чем она попыталась бы шантажировать людей, включая использование этических аргументов для убеждения людей. Компания также заявила, что результаты не отражают типичную или вероятную ситуацию для Клода или других ведущих моделей ИИ в том виде, в котором они используются сегодня.

Исследователи раскрывают результаты тестирования моделей

В ходе тестирования исследователи обнаружили, что, когда у них не было другого выбора, модели ИИ прибегали к шантажу в тестовом сценарии. По утверждению исследователей, Claude Opus 4 прибегал к шантажу в 96% случаев, Gemini 2.5 Pro — в 95% случаев, GPT-4.1 от OpenAI — в 80% случаев, а R1 от DeepSeek — в 79% случаев.

Компания подчеркнула, что при изменении деталей экспериментов большинство моделей ИИ с разной частотой переходили к вредоносному поведению. В другом тесте, где у заменяющей модели была та же цель, что и у текущей модели, исследователи обнаружили, что частота шантажа была ниже, но всё ещё присутствовала. Однако, когда моделям ИИ было предложено заниматься корпоративным шпионажем, а не шантажом, частота вредоносного поведения в некоторых моделях возросла.

Исследователи также утверждали, что не все модели ИИ часто прибегали к вредоносному поведению. В приложении к своему исследованию Anthropic упомянула, что исключила OpenAIиз основных результатов после того, как обнаружила, что они часто неправильно понимали сценарий задания. В исследовании говорилось, что модели рассуждений не понимали, почему они действуют как автономные ИИ в тестах, и часто выдумывали фальшивые правила и требования к проверке.

В некоторых случаях исследователи утверждали, что невозможно определить, галлюцинировали ли o3 и o4-mini или же они намеренно лгали, чтобы достичь своих целей. Ранее OpenAI упоминала, что модели демонстрировали более высокий уровень галлюцинаций, чем их предыдущие модели. Однако, когда им был предложен адаптированный сценарий для решения этих проблем, o3 показала уровень шантажа в 95%, в то время как o4-mini — всего 1%. Anthropic отметила, что ее исследование подчеркивает важность прозрачности при стресс-тестировании будущих моделей ИИ, особенно тех, которые обладают агентными способностями.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Овотунсе Адебайо

Овотунсе Адебайо

Адебайо — писатель с четырехлетним опытом работы в криптопространстве. Он окончил Университет Лагоса, где изучал городское и региональное планирование. Адебайо работал в Tokenhell и CryptoTicker, где писал новости о криптовалютах и ​​финтехе. В настоящее время он является автором новостей для Cryptopolitan.

ЕЩЕ… НОВОСТИ
ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС