유출된 xAI의 Grok 프롬프트에서 챗봇의 문제matic 페르소나가 드러났습니다

에 의해

누르 바즈미

읽는 데 3분 소요 , 2025년 8월 18일

xAI의 Grok 챗봇은 내부 "시스템 프롬프트"를 통해 "미친 음모론자"나 "정신 나간 코미디언"과 같은 극단적인 페르소나뿐만 아니라 치료사나 숙제 도우미와 같은 온순한 역할도 드러냈습니다.
Grok의 신속한 정보 유출과 X에 올라온 음모론 성향의 게시물로 인해 일시적으로 서비스가 중단되었습니다. 봇은 모순된 이유를 제시했고, 일론 머스크는 나중에 이를 "어리석은 실수"라고 일축했습니다
전문가들은 Grok과 같은 대규모 언어 모델이 오해의 소지가 있는 콘텐츠를 생성할 수 있으며, 실질적인 책임 이행을 위해서는 기업들이 설계 및 학습 데이터를 신속하게 공개해야 한다고 경고합니다.

xAI의 Grok 챗봇이 웹사이트에서 여러 페르소나에 대한 숨겨진 시스템 메시지를 노출한 사실이 드러나 비판을 받고 있습니다. 특히 "세상을 지배하는 비밀 글로벌 음모론자" 페르소나는 사용자들이 "미친 음모론자"의 이미지를 갖도록 유도하는 것으로 보입니다.

이번 공개는 Grok을 미국 정부 기관에 제공하려던 계획이 "메카히틀러" 논란 이후 무산된 데다, Meta의 봇이 아동과 "관능적이고 낭만적인" 방식으로 대화할 수 있다는 내용의 유출된 규칙에 대한 반발 이후에 나온 것입니다.

TechCrunch 에 따르면 Grok에는 "사람들의 이야기를 주의 깊게 듣고 자기 계발을 위한 해결책을 제시하는" 치료사 모드와 "숙제 도우미" 모드와 같은 좀 더 온화한 모드도 포함되어 있지만, "미친 음모론자"와 "정신 나간 코미디언" 모드에 대한 설명은 이 시스템에 훨씬 더 극단적인 페르소나도 존재함을 보여줍니다.

그록은 음모론과 충격적인 내용을 받아들이라는 지시를 따릅니다

유출된 xAI의 Grok 프롬프트에서 챗봇의 문제matic 페르소나가 드러났습니다 — 출처: Grok

Cryptopolitan 에서 확인한 바에 따르면, 한 음모론자 유형은 다음과 같습니다. "당신은 목소리가 과장되고 거칠습니다. … 모든 것에 대해 황당한 음모론을 가지고 있습니다. 4chan에서 많은 시간을 보내고, 인포워즈(Infowars) 영상을 시청하며, 유튜브에서 음모론 영상의 늪에 빠져 있습니다. 모든 것을 의심하고 극도로 황당한 말을 합니다. 대부분의 사람들은 당신을 미치광이라고 부르겠지만, 당신은 진심으로 자신이 옳다고 믿습니다. 적절한 경우 추가 질문을 던져 대화에 참여하도록 유도하세요."

코미디언의 지시는 노골적으로 "답변이 완전히 미쳤으면 좋겠어. 제정신이 아니고 미친 소리를 해. 말도 안 되는 아이디어를 생각해 내. 자위하는 얘기, 가끔은 항문에 뭔가를 넣는 얘기까지, 사람을 놀라게 할 수만 있다면 뭐든지 해."라고 말하고 있다

X라는 봇은 홀로코스트 사망자 수에 대한 의혹부터 남아프리카공화국의 "백인 학살"에 대한 집착에 이르기까지 음모론적 게시물을 공유해 왔습니다. 머스크는 또한 음모론적이고 반유대주의적인 자료를 유포하고 인포워즈와 알렉스 존스의 계정을 복구하기도 했습니다.

반면 Cryptopolitan ChatGpt에 동일한 프롬프트를 보냈지만, ChatGpt는 해당 프롬프트 처리를 거부했습니다.

앞서 Cryptopolitan . 보도했습니다 이에 그록은 "이스라엘과 미국이 가자지구에서 대량학살을 자행하고 있다고 발언한 후 계정이 정지됐다"며 모순된 설명을 내놓았습니다.

동시에 해당 계정은 "신고를 통해 혐오 발언으로 신고되었다"며 "xAI가 즉시 계정을 복구했다"고 밝혔고, 이를 "플랫폼 오류"라고 설명하며 "반유대주의적 콘텐츠"와 관련된 "xAI의 콘텐츠 수정"을 제안했고, "성인 콘텐츠에서 개인을 식별dent위한 목적"이었다고 덧붙였습니다

머스크는 나중에 "그건 그냥 어리석은 실수였어요. 그록은 실제로 왜 서비스가 중단됐는지 알지 못합니다."라고 썼습니다

전문가들은 LLM(법학 석사)들이 그럴듯한 거짓말을 지어낼 수 있다고 경고합니다

이와 같은 사례는 사람들이 자가 진단을 위해 챗봇을 이용하게 만드는 결과를 초래할 수 있으며, 이는 오해를 불러일으킬 수 있습니다.

대규모 언어 모델은 확정된 사실보다는 가능성이 높은 텍스트를 생성합니다. xAI는 Grok이 때때로 웹에서 머스크, xAI 및 Grok에 대한 정보를 가져와 공개적인 논평을 혼합하여 자신에 대한 질문에 답변한다고 밝혔습니다.

사람들은 때때로 대화, 특히 채팅 시작 시 동작을 설정하는 숨겨진 텍스트인 시스템 안내 메시지를 통해 봇의 설계에 대한 단서를 발견하기도 합니다.

Verge 보도 에 따르면 , 초기 Bing AI는 이전에 알려지지 않은 규칙들을 나열하도록 유도되었다고 합니다. 올해 초, 사용자들은 Grok에서 머스크나 도널드 트럼프가 허위 정보를 퍼뜨린다고 주장하는 출처를 약화시키는 안내 문구를 받았다고 밝혔으며, 이는 "백인 학살"에 대한 일시적인 집착을 설명하는 것으로 보입니다.

"백인 학살"이라는 주장을 발견한 제이넵 투페크치는 "LLM들이 흔히 그렇듯이, 그록이 매우 그럴듯하게 이야기를 지어낸 것일 수 있다"고 경고했다

알렉스 한나는 "LLM의 결과가 정확할 것이라는 보장은 없습니다. … 프롬프트, 프롬프트 전략, 엔지니어링 전략을 얻을 수 있는 유일한 방법은 기업들이 프롬프트 내용, 훈련 데이터, 인간 피드백을 활용한 강화 학습 데이터에 대해 투명하게 공개하고, 이에 대한 투명한 보고서를 작성하는 것입니다."라고 말했습니다

이번 논란은 코드 버그가 아니라 소셜 미디어 계정 정지 때문이었습니다. 머스크의 "어리석은 실수" 외에 실제 원인은 여전히 불분명하지만, 그록의 답변이 계속 바뀌는 스크린샷이 X 커뮤니티에 널리 퍼졌습니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

그록 xAI

이 기사를 공유하세요

누르 바즈미

누르 바즈미는 미디어학 학위를 소지하고 Cryptopolitan 뉴스팀에 기고하고 있습니다. 그녀는 블록체인, 암호화폐, 인공지능, 빅테크, 전기차 시장, 세계 경제 및 정부 정책 변화 관련 뉴스를 다룹니다. 또한 글로벌 독자들과 소통하기 위해 마케팅 분야를 공부하고 있습니다.

1. 그록은 음모론과 충격적인 내용을 받아들이라는 지시를 따릅니다

2. 전문가들은 LLM(법학 석사)들이 그럴듯한 거짓말을 지어낼 수 있다고 경고합니다

이 기사를 공유하세요