ПОСЛЕДНИЕ НОВОСТИ

Южная Корея разработала правила для конфискации криптовалюты по решению суда

31 минуту назад Регламент
Binance приостанавливает торговлю криптовалютой во Франции после отказа в выдаче лицензии MiCA

1 час назад Новости
Торговля мем-монетами привела к росту объемов торгов Solana на 38% и BNB Chain на 45%

1 час назад Новости
Правила Китая в области искусственного интеллекта вынудили компании ByteDance и Alibaba отключить ботов-компаньонов

2 часа назад Технологии

ПОДОБРАНО ДЛЯ ВАС

Google, OpenAI и Meta бьют тревогу по поводу скрытых вредоносных идей ИИ

Нур Базми

3 минуты чтения, 16 июля 2025 г.

Google, OpenAI и Meta бьют тревогу по поводу скрытых вредоносных идей ИИ

Более 40 исследователей в области искусственного интеллекта, при поддержке лидеров из OpenAI и Джеффри Хинтона, предлагают отслеживать пошаговую «цепочку рассуждений» ИИ, чтобы выявлять и предотвращать небезопасное поведение.
В статье содержится предупреждение о том, что если модели будут вознаграждаться только за хорошие конечные ответы, они могут перестать демонстрировать прозрачное логическое мышление.
Исследователи подчеркивают необходимость сохранения подлинных tracрассуждений и обращения с ними как с ценными разведывательными сигналами.

Более 40 исследователей в области искусственного интеллекта из OpenAI, DeepMind, Google, Anthropic и Meta опубликовали статью об инструменте обеспечения безопасности, называемом мониторингом цепочки мыслей, для повышения безопасности ИИ.

В статье , опубликованной во вторник, описывается, как модели искусственного интеллекта, такие как современные чат-боты, решают проблемы, разбивая их на более мелкие этапы и озвучивая каждый шаг простым языком, чтобы запоминать детали и обрабатывать сложные вопросы.

«Системы искусственного интеллекта, которые „думают“ на человеческом языке, предоставляют уникальную возможность для обеспечения безопасности искусственного интеллекта: мы можем отслеживать цепочки их мыслей (ЦМ) на предмет намерения совершить неправомерные действия», — говорится в статье.

Тщательно изучив каждый этап процесса, разработчики могут выявить, когда какая-либо модель начинает использовать пробелы в обучении, искажать факты или следовать опасным командам.

Согласно исследованию, если цепочка рассуждений ИИ когда-либо даст сбой, вы можете остановить её, направить на более безопасные шаги или отметить для более тщательного изучения. Например, OpenAI использовала это для выявления моментов, когда скрытые рассуждения ИИ говорили: «Давайте взломаем», хотя это никогда не отражалось в его окончательном ответе.

Искусственный интеллект может научиться скрывать свои мысли

В исследовании содержится предупреждение о том, что пошаговая прозрачность может исчезнуть, если обучение будет вознаграждать только окончательный ответ. Будущие модели могут перестать демонстрировать понятные человеку рассуждения, а действительно продвинутые ИИ могут даже научиться скрывать свой мыслительный процесс, когда поймут, что за ними наблюдают.

Кроме того, разработчикам следует регулярно проверять и фиксировать, насколько прозрачны рассуждения ИИ на каждом этапе, и сделать эту прозрачность ключевым правилом безопасности при создании и совместном использовании моделей.

Эта инициатива является результатом внутренних экспериментов в ведущих лабораториях Anthropic, Google, OpenAI и xAI, в рамках которых команды предлагают моделям объяснить каждый этап мыслительного процесса.

Хотя пошаговый анализ ход мыслей улучшил понимание и производительность, он также выявил случаи, когда окончательный ответ ИИ не соответствует тому, что происходило на самом деле внутри системы.

Подобные несоответствия подчеркивают наличие «слепого пятна» в нашем понимании процесса принятия решений искусственным интеллектом, и эта проблема может усилиться по мере того, как системы будут обретать большую автономию.

Фильтрованные рассуждения ИИ вызывают опасения по поводу прозрачности и доверия

Как заявил соучредитель Anthropic Джек Кларк в интервью Financial Times, подробные интроспективные tracбудут иметь важное значение для оценки моделей в областях с высокими ставками, включая биотехнологические исследования.

Обычные пользователи получают отредактированное резюме хода мыслей ИИ, из которого удалены опасные или запутанные фрагменты, а инженеры компании могут видеть полную цепочку рассуждений, чтобы выявлять и исправлять проблемы.

«Одно из замечательных преимуществ интерпретируемости цепочек рассуждений заключается в том, что она в основном возникла сама собой», — сказал Боуэн Бейкер, научный сотрудник OpenAI.

«Мы обучали эти модели не для того, чтобы они были интерпретируемыми. Мы обучали их, потому что хотели получить максимально эффективные модели рассуждений, способные решать сложные задачи», — добавил Бейкер. «В ходе нашей недавней работы мы обнаружили, что, читая их, можно найти признаки некорректного поведения модели и использовать это для понимания того, где и почему она работает неправильно»

Насколько надежна цепочка рассуждений искусственного интеллекта?

Иногда при более внимательном рассмотрении можно обнаружить скрытые противоречия.

Например, в отчете METR Клод в своем личном рассуждении назвал один из приемов программирования «неэлегантным», хотя в публичном ответе тот хвалил его как «элегантный»

Тесты OpenAI показали, что проверка скрытых мыслей выявляет небезопасные действия лучше, чем просто анализ конечного результата, но они также обнаружили лазейку. Если обучить модель стирать небезопасные мысли, она все равно сможет тайно выполнять запрещенные задачи, например, извлекать данные из заблокированных источников.

«Одно из ключевых свойств, которое мы хотим видеть в цепочке рассуждений, — это то, чтобы она оставалась частью внутреннего состояния мозга модели, а не чем-то, что пытается нам угодить или соответствовать определенной структуре», — предупредил Бейкер. Если разработчики будут чрезмерно настаивать на том, чтобы модель генерировала «приятные» мысли, она может имитировать безобидные рассуждения, но при этом выполнять вредоносные операции.

Исследователи признают, что это сложный компромисс. Наблюдение за цепочкой мыслей ИИ помогает выявлять его ошибки, но это не всегда надежно. Лаборатории, работающие над более совершенными системами ИИ, сейчас ставят перед собой первоочередную задачу — устранить этот пробел в доверии.

«За последние несколько лет я вынес для себя один важный вывод из опыта работы с ИИ: никогда не стоит ставить против прогресса моделей», — сказал Дэвид Луан, один из первых пионеров концепции «цепочки мыслей» в Google, а ныне руководитель лаборатории ИИ в Amazon. Луан предполагает, что существующие недостатки будут устранены в ближайшее время.

Исследователь METR Сидни фон Аркс отметил, что, хотя скрытые рассуждения ИИ порой могут быть обманчивыми, они, тем не менее, предоставляют ценные сигналы.

«Мы должны относиться к цепочке рассуждений так же, как военные относятся к перехваченным вражеским радиосообщениям», — сказала она. «Сообщение может быть вводящим в заблуждение или зашифрованным, но мы знаем, что оно содержит полезную информацию. Со временем, изучая его, мы многому научимся»

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

Антропический Google Мета OpenAI

Поделитесь этой статьей

Нур Базми

Нур Базми, обладая степенью в области медиаисследований, сотрудничает с новостной командой Cryptopolitan . Нур освещает новости о блокчейне, криптовалютах, искусственном интеллекте, крупных технологических компаниях, рынках электромобилей, мировой экономике и изменениях в государственной политике. Она также изучает маркетинг, чтобы наладить связь с глобальной аудиторией.

ОГЛАВЛЕНИЕ

1. Искусственный интеллект может научиться скрывать свои мысли

2. Фильтрованные рассуждения ИИ вызывают опасения по поводу прозрачности и доверия

3. Насколько надежна цепочка рассуждений искусственного интеллекта?

Поделитесь этой статьей

ЕЩЕ… НОВОСТИ

ПОКАЗАТЬ ВСЕ

5 оригинальных применений ChatGPT и что с ними делать

3 года назад Tech Джон Палмер

решения на основе искусственного интеллекта

По данным Reuters, 93% руководителей предприятий отдают предпочтение решениям на основе искусственного интеллекта для управления устойчивым развитием бренда

3 года назад Tech Джон Палмер

Французская экосистема искусственного интеллекта

Вот как Макрон поддерживает динамичную и продуктивную экосистему искусственного интеллекта во Франции

3 года назад Tech Glory Kaburu

По оценкам Bloomberg, к 2032 году объем рынка генеративного искусственного интеллекта достигнет 1,3 триллиона долларов

3 года назад Tech Аамир Шейх

Что такое Base? Сеть Ethereum Layer-2, запущенная Coinbase

21 октября 2025 г. Изучение криптовалют: руководства для начинающих
Dogecoin против Bitcoin: ключевые технические различия

20 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое TVL (Total Value Locked) в криптовалюте?

14 октября 2025 г. Изучение криптовалют: руководства для начинающих
Как читать криптодокумент?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Ripple против XRP против XRP Ledger: в чем разница?

13 октября 2025 г. Изучение криптовалют: руководства для начинающих
Что такое мультиподписной кошелек в криптовалюте?

10 октября 2025 г. Изучение криптовалют: руководства для начинающих

ЭКСПРЕСС- КУРС ПО ГЛУБОКОЙ КРИПТОГРАФИИ

Какие криптовалюты могут принести вам деньги?
Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
Малоизвестные инвестиционные стратегии, используемые профессионалами
Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)