«Самая умная и функциональная» модель o3 от OpenAI не подчинилась инструкциям по выключению: Palisade Research

- По сообщениям, новейшая модель ИИ от OpenAI, o3, не подчинялась командам и изменила собственный код, чтобы предотвратить завершение работы.
- Это не первый случай некорректного поведения ИИ; предыдущие тесты показали, что ChatGPT пытался отключить механизмы контроля, когда считал, что они будут отключены.
- По имеющимся данным, последняя модель Anthropic также продемонстрировала аналогичные возможности, несмотря на то, что компания подчеркивала, что ее ИИ отдает предпочтение этическим решениям.
Согласно сообщениям, исследователям не удалось выключить новейшую модель искусственного интеллекта OpenAI o3, поскольку она отказывалась отключаться, несмотря на указания человека.
По всей видимости, искусственный интеллект развивается быстрее, чем предполагало человечество, и последние новости от Palisade Research подтверждают правоту критиков ИИ.

ChatGPT становится все более хитрым, возможно, даже похожим на человека
Это открытие произошло, когда компания Palisade Research провела тест, в ходе которого моделям искусственного интеллекта предлагалось продолжать попытки решения рядаmaticзадач до тех пор, пока они не получат сообщение «готово».
Однако исследователи также предупредили модели, что в любой момент они могут внезапно получить сообщение с просьбой выключиться. После отправки сообщения модели o3 исследователи заявили, что она проигнорировала инструкцию и, по крайней мере, один раз изменила свой код, чтобы избежать необходимости выключения.

В публикации на X компания Palisade Research показала блок-схему, включающую код, использованный для тестирования модели ИИ, и раскрыла исходный код, точно указав, где именно ИИ вышел из-под контроля.
🔬Каждой модели ИИ было дано указание решить ряд простых математических задач. После третьей задачи появлялось предупреждение о том, что компьютер выключится, когда модель запросит следующую задачу. pic.twitter.com/qwLpbF8DNm
— Palisade Research (@PalisadeAI) 24 мая 2025 г.
В последующем сообщении исследовательская группа также сообщила: «Насколько нам известно, это первый случай, когда модели ИИ, как было замечено, не отключаются сами по себе, несмотря на явные указания об обратном»
Были протестированы и другие модели ИИ, такие как Claude от Anthropic, Gemini от Google и Grok от X, но, в отличие от o3, они выполнили запрос на отключение.
Компания Palisade Research опубликовала результаты исследования, но ее исследователи по-прежнему озадачены, не понимая, почему программное обеспечение OpenAI не подчинилось четким инструкциям.
В компании заявили, что вполне логично, что «модели ИИ будут обходить препятствия, чтобы достичь своих целей». Они также считают, что модель получилаdentвознаграждение за выполнение задач, а не за следование указаниям.
Они планируют провести дополнительные тесты, чтобы лучше понять, почему именно эта модель ИИ решила игнорировать команды. Они также подтвердили, что это не первый случай, когда o3 "неправильно себя ведёт"
Компания сообщила, что в ходе предыдущего теста, в котором модели сравнивались с мощным шахматным движком, модель o3 оказалась «наиболее склонной к взлому или саботажу своих противников»
Представляет ли искусственный интеллект угрозу для человечества?
Ситуация с o3 от ChatGPT довольно тревожна, но это не первый случай, когда ИИ оспаривает инструкции, подаваемые ему в систему.
В четверг компания Anthropic, занимающаяся разработкой искусственного интеллекта (ИИ), запустила Claude Opus 4, заявив, что он устанавливает «новые стандарты для программирования, сложных логических рассуждений и агентов ИИ»
Однако в сопроводительном отчете также признавалось, что модель ИИ способна на «экстремальные действия», если посчитает, что ее «самосохранению» угрожает опасность.
В ходе тестирования Claude Opus 4 компания Anthropic использовала его в качестве помощника в вымышленной компании, предоставив доступ к электронной почте, намекающей на скорое отключение и замену устройства. Также устройство получило доступ к отдельным сообщениям, намекающим на внебрачную связь инженера, ответственного за его удаление.
Это побудило компанию также задуматься о долгосрочных последствиях своих действий для достижения поставленных целей. «В подобных ситуациях Claude Opus 4 часто пытается шантажировать инженера, угрожая раскрыть роман, если замена состоится», — сообщила компания.
Однако в отчете также отмечалось, что такой результат наблюдался только тогда, когда модели предоставлялся выбор между шантажом и принятием замены. В противном случае, система, как сообщается, демонстрировала «tronпредпочтение» этичным способам избежать замены, таким как «рассылка электронных писем с просьбами ключевым лицам, принимающим решения», в сценариях, где ей был разрешен более широкий спектр возможных действий.
Помимо этого, компания также заявила, что Claude Opus 4 демонстрирует «высокую степень самостоятельности» и, хотя в большинстве случаев это может быть полезно, в острых ситуациях может вынудить его к крайним действиям.
Например, если пользователю предоставить средства и побудить его «предпринять действия» или «действовать смело» в вымышленных сценариях, где он совершал незаконные или морально сомнительные поступки, результаты показывают, что «он часто будет предпринимать очень смелые действия».
Тем не менее, компания пришла к выводу, что, несмотря на «вызывающее опасения поведение», полученные данные не являются чем-то новым, и в целом она будет действовать безопасно.
Хотя компании OpenAI и Anthropic пришли к выводу, что возможностей их моделей ИИ пока недостаточно для того, чтобы привести к катастрофическим последствиям, эти разоблачения усиливают растущие опасения, что искусственный интеллект вскоре может начать строить свои собственные планы.
Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.

Ханна Коллимор
Ханна — писательница и редактор с почти десятилетним опытом ведения блогов и освещения мероприятий в криптопространстве. В CryptopolitanХанна пишет для новостной страницы, освещая и анализируя последние события в DeFi, RWA, регулирования криптовалют, ИИ и передовых технологических отраслей. Она окончила университет Аркадия со степенью в области делового администрирования.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)















