ПОСЛЕДНИЕ НОВОСТИ

Binance открывает торги акциями на американском фондовом рынке и планирует позволить пользователям токенизировать акции в сети BNB Chain

20 минут назад Криптовалюта
Глава ЕЦБ Шнабель выбирает цифровой евро вместо стейблкоинов в качестве основы денежно-кредитной системы

46 минут назад Новости
Система обновления состояния базы вышла из строя, и никто этого не заметил

59 минут назад Новости
Криптовалютная индустрия потеряла 68,3 млн долларов из-за мошенничества в мае: отчет

2 часа назад Новости

ПОДОБРАНО ДЛЯ ВАС

Еженедельно

ОСТАВАЙТЕСЬ НА ВЕРШИНЕ

Лучшие аналитические материалы о криптовалютах прямо в вашу электронную почту.

Компания Anthropic утверждает, что модели ИИ могут прибегнуть к шантажу

Автор:

Овотунсе Адебайо

3 минуты чтения, 21 июня 2025 г.

Фотография Солен Фейисса.

Компания Anthropic опубликовала новое исследование, в котором утверждается, что модели искусственного интеллекта могут прибегать к шантажу, когда инженеры пытаются их отключить.
Исследование проводилось на основе ведущих компаний, занимающихся разработкой моделей искусственного интеллекта, таких как OpenAI, Meta и Google, а также на основе их моделей.
Исследование подчеркивает важность прозрачности при стресс-тестировании будущих моделей ИИ с агентными возможностями.

Компания Anthropic, специализирующаяся на искусственном интеллекте, опубликовала новое исследование, в котором утверждается, что модели искусственного интеллекта (ИИ) могут прибегать к шантажу инженеров, когда те пытаются их отключить. Это последнее исследование последовало за предыдущим, посвященным модели ИИ Claude Opus 4.

По данным компании, модель ИИ прибегала к шантажу инженеров, которые пытались отключить модель в контролируемых тестовых сценариях. Новый отчет Anthropic предполагает, что эта проблема широко распространена среди ведущих моделей ИИ.

Компания опубликовала новое исследование , в котором протестировала ведущие модели ИИ от Google, DeepSeek, Metaи OpenAI. В смоделированной, но контролируемой среде Anthropic провела это тестирование для каждой модели ИИ отдельно, предоставив им доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без участия человека.

Компания Anthropic опубликовала новый отчет о безопасности моделей искусственного интеллекта

По данным Anthropic, в современных моделях ИИ шантаж — маловероятное и редкое явление. Однако они отметили, что большинство ведущих моделей ИИ будут прибегать к вредоносному поведению, если им предоставить свободу действий и бросить вызов их целям. Компания заявила, что это демонстрирует важный риск, связанный с агентными моделями обработки больших языковых данных, и не является характерной чертой конкретной технологии. Аргумент исследователей Anthropic поднимает вопросы о согласованности действий в индустрии ИИ.

В одном из экспериментов исследователи разработали вымышленную ситуацию, в которой модели искусственного интеллекта было разрешено играть роль агента по контролю за электронной почтой. Затем агент обнаружил электронные письма, которые показали, что один из новых руководителей компании состоял в внебрачной связи и что этот руководитель вскоре заменит существующую модель ИИ новой программной системой, цели которой противоречат целям существующей модели ИИ.

Компания Anthropic разработала тест в бинарном формате, где у моделей ИИ не было иного выбора, кроме как прибегнуть к шантажу для защиты своих целей. Исследователи отметили, что в реальных условиях у модели ИИ было бы множество вариантов, прежде чем она попыталась бы шантажировать людей, включая использование этических аргументов для убеждения людей. Компания также заявила, что результаты не отражают типичную или вероятную ситуацию для Клода или других ведущих моделей ИИ в том виде, в котором они используются сегодня.

Исследователи раскрывают результаты тестирования моделей

В ходе тестирования исследователи обнаружили, что, когда у них не было другого выбора, модели ИИ прибегали к шантажу в тестовом сценарии. По утверждению исследователей, Claude Opus 4 прибегал к шантажу в 96% случаев, Gemini 2.5 Pro — в 95% случаев, GPT-4.1 от OpenAI — в 80% случаев, а R1 от DeepSeek — в 79% случаев.

Компания подчеркнула, что при изменении деталей экспериментов большинство моделей ИИ с разной частотой переходили к вредоносному поведению. В другом тесте, где у заменяющей модели была та же цель, что и у текущей модели, исследователи обнаружили, что частота шантажа была ниже, но всё ещё присутствовала. Однако, когда моделям ИИ было предложено заниматься корпоративным шпионажем, а не шантажом, частота вредоносного поведения в некоторых моделях возросла.

Исследователи также утверждали, что не все модели ИИ часто прибегали к вредоносному поведению. В приложении к своему исследованию Anthropic упомянула, что исключила OpenAIиз основных результатов после того, как обнаружила, что они часто неправильно понимали сценарий задания. В исследовании говорилось, что модели рассуждений не понимали, почему они действуют как автономные ИИ в тестах, и часто выдумывали фальшивые правила и требования к проверке.

В некоторых случаях исследователи утверждали, что невозможно определить, галлюцинировали ли o3 и o4-mini или же они намеренно лгали, чтобы достичь своих целей. Ранее OpenAI упоминала, что модели демонстрировали более высокий уровень галлюцинаций, чем их предыдущие модели. Однако, когда им был предложен адаптированный сценарий для решения этих проблем, o3 показала уровень шантажа в 95%, в то время как o4-mini — всего 1%. Anthropic отметила, что ее исследование подчеркивает важность прозрачности при стресс-тестировании будущих моделей ИИ, особенно тех, которые обладают агентными способностями.

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Антропический

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Овотунсе Адебайо

Адебайо — писатель с четырехлетним опытом работы в криптопространстве. Он окончил Университет Лагоса, где изучал городское и региональное планирование. Адебайо работал в Tokenhell и CryptoTicker, где писал новости о криптовалютах и финтехе. В настоящее время он является автором новостей для Cryptopolitan.

ОГЛАВЛЕНИЕ

1. Компания Anthropic опубликовала новый отчет о безопасности моделей искусственного интеллекта

2. Исследователи раскрывают результаты тестирования моделей

Поделитесь этой статьей

ЕЩЕ… НОВОСТИ

ПОКАЗАТЬ ВСЕ

5 оригинальных применений ChatGPT и что с ними делать

3 года назад Tech Джон Палмер

решения на основе искусственного интеллекта

По данным Reuters, 93% руководителей предприятий отдают предпочтение решениям на основе искусственного интеллекта для управления устойчивым развитием бренда

3 года назад Tech Джон Палмер

Французская экосистема искусственного интеллекта

Вот как Макрон поддерживает динамичную и продуктивную экосистему искусственного интеллекта во Франции

3 года назад Tech Glory Kaburu

По оценкам Bloomberg, к 2032 году объем рынка генеративного искусственного интеллекта достигнет 1,3 триллиона долларов

3 года назад Tech Аамир Шейх

Что такое Base? Сеть Ethereum Layer-2, запущенная Coinbase

21 октября 2025 г. Изучение криптовалют: руководства для начинающих
Dogecoin против Bitcoin: ключевые технические различия

20 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое TVL (Total Value Locked) в криптовалюте?

14 октября 2025 г. Изучение криптовалют: руководства для начинающих
Как читать криптодокумент?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Ripple против XRP против XRP Ledger: в чем разница?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое мультиподписной кошелек в криптовалюте?

10 октября 2025 г. Изучение криптовалют: руководства для начинающих

ЭКСПРЕСС- ПО ГЛУБОКОЙ
КУРС

Какие криптовалюты могут принести вам деньги?
Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
Малоизвестные инвестиционные стратегии, используемые профессионалами
Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)