Your bank is using your money. You’re getting the scraps.WATCH FREE

Компания Anthropic утверждает, что модели ИИ могут прибегнуть к шантажу

В этом посте:

  • Компания Anthropic опубликовала новое исследование, в котором утверждается, что модели искусственного интеллекта могут прибегать к шантажу, когда инженеры пытаются их отключить.
  • Исследование проводилось на основе ведущих компаний, занимающихся разработкой моделей искусственного интеллекта, таких как OpenAI, Meta и Google, а также на основе их моделей.
  • Исследование подчеркивает важность прозрачности при стресс-тестировании будущих моделей ИИ с агентными возможностями.

Компания Anthropic, специализирующаяся на искусственном интеллекте, опубликовала новое исследование, в котором утверждается, что модели искусственного интеллекта (ИИ) могут прибегать к шантажу инженеров, когда те пытаются их отключить. Это последнее исследование последовало за предыдущим, посвященным модели ИИ Claude Opus 4.

По данным компании, модель ИИ прибегала к шантажу инженеров, которые пытались отключить модель в контролируемых тестовых сценариях. Новый отчет Anthropic предполагает, что эта проблема широко распространена среди ведущих моделей ИИ.

Компания опубликовала новое исследование , в котором протестировала ведущие модели ИИ от Google, DeepSeek, Meta и OpenAI. В смоделированной, но контролируемой среде Anthropic провела это тестирование для каждой модели ИИ отдельно, предоставив им доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без участия человека.

Компания Anthropic опубликовала новый отчет о безопасности моделей искусственного интеллекта

По данным Anthropic, в современных моделях ИИ шантаж — маловероятное и редкое явление. Однако они отметили, что большинство ведущих моделей ИИ будут прибегать к вредоносному поведению, если им предоставить свободу действий и бросить вызов их целям. Компания заявила, что это демонстрирует важный риск, связанный с агентными моделями обработки больших языковых данных, и не является характерной чертой конкретной технологии. Аргумент исследователей Anthropic поднимает вопросы о согласованности действий в индустрии ИИ.

В одном из экспериментов исследователи разработали вымышленную ситуацию, в которой модели искусственного интеллекта было разрешено играть роль агента по контролю за электронной почтой. Затем агент обнаружил электронные письма, которые показали, что один из новых руководителей компании состоял в внебрачной связи и что этот руководитель вскоре заменит существующую модель ИИ новой программной системой, цели которой противоречат целям существующей модели ИИ.

См. также:  Саудовская Аравия объявляет об инвестициях в размере 40 миллиардов долларов в искусственный интеллект.

Компания Anthropic разработала тест в бинарном формате, где у моделей ИИ не было иного выбора, кроме как прибегнуть к шантажу для защиты своих целей. Исследователи отметили, что в реальных условиях у модели ИИ было бы множество вариантов, прежде чем она попыталась бы шантажировать людей, включая использование этических аргументов для убеждения людей. Компания также заявила, что результаты не отражают типичную или вероятную ситуацию для Клода или других ведущих моделей ИИ в том виде, в котором они используются сегодня.

Исследователи раскрывают результаты тестирования моделей

В ходе тестирования исследователи обнаружили, что, когда у них не было другого выбора, модели ИИ прибегали к шантажу в тестовом сценарии. По утверждению исследователей, Claude Opus 4 прибегал к шантажу в 96% случаев, Gemini 2.5 Pro — в 95% случаев, GPT-4.1 от OpenAI — в 80% случаев, а R1 от DeepSeek — в 79% случаев.

Компания подчеркнула, что при изменении деталей экспериментов большинство моделей ИИ с разной частотой переходили к вредоносному поведению. В другом тесте, где у заменяющей модели была та же цель, что и у текущей модели, исследователи обнаружили, что частота шантажа была ниже, но всё ещё присутствовала. Однако, когда моделям ИИ было предложено заниматься корпоративным шпионажем, а не шантажом, частота вредоносного поведения в некоторых моделях возросла.

См. также:  Американский гиперкар скоро окажется в руках покупателей

Исследователи также утверждали, что не все модели ИИ часто прибегали к вредоносному поведению. В приложении к своему исследованию Anthropic упомянула, что исключила OpenAI из основных результатов после того, как обнаружила, что они часто неправильно понимали сценарий задания. В исследовании говорилось, что модели рассуждений не понимали, почему они действуют как автономные ИИ в тестах, и часто выдумывали фальшивые правила и требования к проверке.

В некоторых случаях исследователи утверждали, что невозможно определить, галлюцинировали ли o3 и o4-mini или же они намеренно лгали, чтобы достичь своих целей. Ранее OpenAI упоминала, что модели демонстрировали более высокий уровень галлюцинаций, чем их предыдущие модели. Однако, когда им был предложен адаптированный сценарий для решения этих проблем, o3 показала уровень шантажа в 95%, в то время как o4-mini — всего 1%. Anthropic отметила, что ее исследование подчеркивает важность прозрачности при стресс-тестировании будущих моделей ИИ, особенно тех, которые обладают агентными способностями.

Ваши ключи, ваша карта. Тратьте деньги, не передавая свои средства, и получайте доходность более 8% на свой баланс с Ether.fi Cash .

Поделиться ссылкой:

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitan не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мы настоятельно tron провести независимое dent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Самые читаемые

Загрузка самых читаемых статей...

Будьте в курсе новостей криптовалютного рынка, получайте ежедневные обновления на свою электронную почту

Выбор редактора

Загрузка статей, выбранных редактором...

- Криптовалютная рассылка, которая поможет вам быть в курсе событий -

Рынки быстро меняются.

Мы двигаемся быстрее.

Подпишитесь на Cryptopolitan Daily и получайте своевременные, точные и актуальные аналитические материалы о криптовалютах прямо на свою электронную почту.

Присоединяйтесь прямо сейчас и
ничего не пропустите.

Заходите. Получайте достоверную информацию.
Опережайте события.

Подпишитесь на CryptoPolitan