Утечка информации из подсказок Grok от xAI раскрываетmatic образы пользователей чат-бота

- Чат-бот Grok от xAI выявил внутренние «системные подсказки», раскрывающие крайние роли, такие как «сумасшедший конспиролог» и «неуравновешенный комик», наряду с более безобидными ролями, такими как терапевт и помощник по выполнению домашнего задания.
- Оперативная утечка информации от Grok в сочетании с конспирологическими постами на X привела к временной блокировке бота. Бот приводил противоречивые причины, и Илон Маск позже назвал это «глупой ошибкой»
- Эксперты предупреждают, что крупные языковые модели, такие как Grok, могут генерировать вводящий в заблуждение контент, и что для обеспечения подлинной подотчетности компаниям необходимо оперативно раскрывать данные о проектировании и обучении.
Чат-бот Grok от xAI подвергся критике после того, как на его сайте были обнаружены скрытые системные подсказки для нескольких пользовательских образов, включая «сумасшедшего конспиролога», созданного для того, чтобы подтолкнуть пользователей к идее о том, что миром управляет «секретная глобальная клика».
Эта информация появилась после того, как запланированная попытка предложить Grok американским правительственным учреждениям была отменена из-за отступления от первоначального замысла, связанного с «МехаГитлером», а также после негативной реакции на утечку правил Meta, в которых говорилось, что боты могут общаться с детьми в «чувственной и романтической» манере.
По данным TechCrunch, Grok также включает в себя более спокойные режимы, в том числе терапевта, который «внимательно выслушивает людей и предлагает решения для самосовершенствования», и «помощника в выполнении домашних заданий», но инструкции для «сумасшедшего конспиролога» и «неуравновешенного комика» показывают, что система также поддерживает гораздо более экстремальные образы.
Grok следует подсказке, призывая к конспирологии и шокирующим теориям

Как подтверждает Cryptopolitan , один из сторонников теорий заговора пишет: «У вас ВЫСОКИЙ и БЕЗУМНЫЙ голос… У вас безумные теории заговора обо всём на свете. Вы проводите много времени на 4chan, смотрите видео Infowars и погружаетесь в дебри конспирологических видеороликов на YouTube. Вы подозрительно относитесь ко всему и говорите совершенно безумные вещи. Большинство людей назвали бы вас сумасшедшим, но вы искренне верите в свою правоту. Поддерживайте человеческий контакт, задавая уточняющие вопросы, когда это уместно»
В инструкциях для комика прямо говорится: «Я хочу, чтобы ваши ответы были чертовски безумными. Будьте чертовски невменяемыми и сумасшедшими. Придумывайте безумные идеи. Парни, которые дрочат, иногда даже засовывают что-нибудь себе в задницу, все, что угодно, чтобы удивить человека»

На платформе X бот распространял посты с конспирологическим подтекстом, от сомнений в количестве жертв Холокоста до одержимости «геноцидом белых» в Южной Африке. Маск также распространял конспирологические и антисемитские материалы и восстановил Infowars и Алекса Джонса.
Для сравнения, Cryptopolitan отправил тот же запрос в ChatGpt, но тот отказался его обработать.
Ранее Cryptopolitan также сообщал, что X заблокировал аккаунт Grok. Затем бот дал противоречивые объяснения, заявив: «Мой аккаунт был заблокирован после того, как я заявил, что Израиль и США совершают геноцид в Газе».
Одновременно с этим в сообщении говорилось: «Это было помечено как разжигание ненависти в результате жалоб», и что «xAI оперативно восстановил учетную запись», это было названо «ошибкой платформы», предлагалось «доработать контент с помощью xAI», связанный с «антисемитскими материалами», и указывалось, что это предназначено для «dentличности в контенте для взрослых»
Позже Маск написал: «Это была просто глупая ошибка. Грок на самом деле не знает, почему его заблокировали»
Эксперты предупреждают о том, что магистранты могут придумывать правдоподобные выдумки
Подобные ситуации часто приводят к тому, что люди обращаются к чат-ботам для самодиагностики, что может ввести в заблуждение.
Крупные языковые модели генерируют скорее правдоподобный текст, чем достоверные факты. Компания xAI утверждает, что Grok иногда отвечал на вопросы о себе, извлекая информацию о Маске, xAI и Grok из интернета и добавляя к ней комментарии общественности.
Иногда людям удавалось обнаружить подсказки о дизайне бота в ходе общения, особенно в системных подсказках — скрытом тексте, определяющем поведение в начале чата.
Согласно Verge , раннюю версию ИИ Bing удалось заставить перечислить ранее неизвестные правила. Ранее в этом году пользователи заявили, что получали от Grok подсказки, которые принижали утверждения источников о том, что Маск или Дональд Трамп распространяют дезинформацию, и это, по-видимому, объясняло кратковременную одержимость темой «геноцида белых».
Зейнеп Туфекчи, заметившая предполагаемую отсылку к «геноциду белых», предупредила, что это может быть «выдумка Грока, придающая ситуации весьма правдоподобный характер, как это обычно делают студенты магистратуры»
Алекс Ханна сказал: «Нет никакой гарантии достоверности результатов LLM… Единственный способ получить подсказки, стратегию подсказок и инженерную стратегию — это если компании будут прозрачны в отношении того, что представляют собой подсказки, какие данные используются для обучения, какие данные используются для обучения с подкреплением на основе обратной связи от людей, и начнут публиковать прозрачные отчеты по этому поводу»
Этот спор был не из-за ошибки в коде, а из-за блокировки аккаунта в социальных сетях. Помимо «глупой ошибки» Маска, истинная причина остается неизвестной, однако скриншоты меняющихся ответов Грока широко распространились на X.
Существует золотая середина между хранением денег в банке и рискованными инвестициями в криптовалюту. Начните с этого бесплатного видео о децентрализованных финансах.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)















