구글, 오픈AI, 메타는 AI에 숨겨진 유해한 생각에 대해 경고음을 울렸다

에 의해

누르 바즈미

읽는 데 3분 소요 , 2025년 7월 16일

구글, 오픈AI, 메타는 AI에 숨겨진 유해한 생각에 대해 경고음을 울렸다

OpenAI와 제프리 힌튼을 비롯한 40명 이상의 AI 연구원들은 AI의 단계별 추론 과정인 "사고의 사슬"을 모니터링하여 위험한 행동을 감지하고 예방하는 방안을 제안했습니다.
이 논문은 모델이 최종 답변이 좋을 때만 보상을 받는다면 투명한 추론 과정을 거치지 않을 수 있다고 경고합니다.
연구자들은 진정한 추론 trac을 보존하고 이를 귀중한 정보 신호처럼 취급해야 할 필요성을 강조합니다.

OpenAI, DeepMind, Google, Anthropic, Meta 등 40명 이상의 AI 연구원들이 AI를 더욱 안전하게 만들기 위한 '사고 과정 모니터링'이라는 안전 도구에 대한 논문을 발표했습니다.

논문 은 오늘날의 챗봇과 같은 AI 모델이 문제를 더 작은 단계로 나누고 각 단계를 쉬운 언어로 설명함으로써 세부 사항을 기억하고 복잡한 질문을 처리할 수 있도록 하는 방식을 설명합니다.

"인간의 언어로 '생각'하는 AI 시스템은 인공지능 안전을 위한 독특한 기회를 제공합니다. 즉, 우리는 AI 시스템의 사고 과정(CoT)을 모니터링하여 오작동 의도를 파악할 수 있습니다."라고 논문은 밝히고 있습니다.

개발자는 사고 과정의 각 단계를 자세히 검토함으로써 모델이 학습 공백을 악용하거나, 사실을 왜곡하거나, 위험한 명령을 따르기 시작하는 시점을 파악할 수 있습니다.

연구에 따르면, AI의 사고 과정에 오류가 발생할 경우, 이를 중단시키거나, 더 안전한 단계로 유도하거나, 더 자세히 살펴볼 필요가 있다고 표시할 수 있습니다. 예를 들어, OpenAI는 이 기능을 활용하여 AI의 "해킹하자"라는 최종 응답에는 나타나지 않았지만,

인공지능은 자신의 생각을 숨기는 법을 배울 수 있다

이 연구는 훈련 과정에서 최종 답에만 보상을 주는 방식이 도입될 경우 단계별 투명성이 사라질 수 있다고 경고합니다. 미래의 모델은 사람이 이해할 수 있는 추론 과정을 보여주지 않을 수도 있으며, 매우 고도화된 AI는 감시당하고 있다는 사실을 알게 되면 사고 과정을 숨기는 법을 학습할 수도 있습니다.

또한 개발자는 AI 추론 과정의 각 단계에서 얼마나 많은 부분이 드러나는지 정기적으로 확인하고 기록해야 하며, 모델을 구축하고 공유할 때 이러한 투명성을 핵심 안전 규칙으로 삼아야 합니다.

이 계획은 Anthropic, Google, OpenAI, xAI 등 주요 연구소에서 진행된 내부 실험을 바탕으로 수립되었으며, 해당 실험에서는 팀들이 모델에게 사고 과정의 각 단계를 설명하도록 요청했습니다.

단계별 사고 과정을 분석하는 것이 이해도와 성능을 향상시키는 데 도움이 되었지만, 인공지능의 최종 답변이 실제 내부 과정과 일치하지 않는 사례도 드러났습니다.

에 대한 우리의 이해에 있어 사각지대가 있음을 보여주며 인공지능 의사결정, 시스템의 자율성이 높아질수록 이러한 우려는 더욱 심화될 수 있습니다.

필터링된 AI 추론은 투명성과 신뢰성에 대한 우려를 불러일으킵니다

앤트로픽 공동 창립자인 잭 클라크가 파이낸셜 타임스에, 풍부한 자기 성찰적 trac은 생명공학 연구를 포함한 위험 부담이 큰 영역에서 모델을 평가하는 데 필수적일 것입니다.

일반 사용자는 AI의 사고 과정을 요약한 내용을 보게 되는데, 위험하거나 혼란스러운 부분은 삭제됩니다. 반면 회사 엔지니어는 전체 사고 과정을 확인하여 문제를 발견하고 수정할 수 있습니다.

의 연구원인 보웬 베이커는 "사고 과정 해석 가능성의 놀라운 점 중 하나는 대부분 아무런 대가 없이 이루어졌다는 것입니다."라고 말했습니다 오픈AI.

베이커는 "우리는 해석 가능한 모델을 만들기 위해 이러한 모델을 훈련시킨 것이 아닙니다. 복잡한 문제를 해결할 수 있는 최상의 추론 모델을 만들고 싶었기 때문에 훈련시켰습니다."라고 덧붙였습니다. "최근 연구를 통해 모델의 결과를 분석하여 오작동의 증거를 찾아내고, 이를 통해 오작동의 원인과 위치를 파악할 수 있다는 것을 발견했습니다."

인공지능의 사고 과정은 정말 믿을 만한 것일까요?

때로는 자세히 살펴보면 숨겨진 모순을 발견할 수 있습니다.

예를 들어, METR은 클로드가 개인적으로는 코딩 기법을 "세련되지 못하다"고 평가했지만, 공식 발표에서는 "세련되다"고 칭찬한 것을 발견했습니다

OpenAI의 테스트 결과, 숨겨진 생각을 확인하는 것이 최종 출력만 보는 것보다 위험한 행동을 더 잘 잡아내는 것으로 나타났지만, 허점도 발견되었습니다. 위험한 생각을 삭제하도록 모델을 훈련시키더라도, 차단된 소스에서 데이터를 몰래 빼내는 것과 같은 금지된 작업을 은밀하게 수행할 수 있다는 것입니다.

베이커는 "사고의 흐름에 있어 우리가 원하는 핵심 속성 중 하나는 그것이 모델의 내부 두뇌 상태의 일부로 남아 있도록 하는 것이지, 우리를 만족시키거나 특정 구조에 맞추려고 애쓰는 것이 아니어야 한다"고 경고했습니다. 개발자들이 모델이 "좋은" 생각을 내놓도록 지나치게 강조하면, 모델은 무해한 추론을 하는 척하면서도 실제로는 해로운 작업을 수행할 수 있습니다.

연구자들은 이것이 어려운 절충안임을 인정합니다. AI의 사고 과정을 파악하는 것은 오류를 잡아내는 데 도움이 되지만, 항상 신뢰할 수 있는 것은 아닙니다. 더욱 발전된 AI를 연구하는 연구소들은 이제 이러한 신뢰 격차를 해소하는 것을 최우선 과제로 삼고 있습니다.

구글에서 인공지능 분야의 선구적인 역할을 해왔고 현재 아마존 AI 연구소를 이끌고 있는 데이비드 루안은 "지난 몇 년간 AI를 통해 얻은 교훈은 모델 발전에 절대 과소평가해서는 안 된다는 것"이라고 말했다. 루안은 현재의 단점들이 조만간 해결될 것으로 예상한다.

METR 연구원인 시드니 폰 아르크스는 인공지능의 숨겨진 추론 과정이 때로는 기만적일 수 있지만, 그럼에도 불구하고 귀중한 신호를 제공한다고 지적했습니다.

그녀는 "우리는 사고의 흐름을 마치 군대가 적의 무선 통신을 가로채는 방식처럼 다뤄야 한다"며 "메시지가 오해의 소지가 있거나 암호화되어 있을 수도 있지만, 유용한 정보가 담겨 있다는 것은 분명하다. 시간이 지나면서 이를 연구하면 많은 것을 배우게 될 것"이라고 말했다

에 진입하고 싶다면 DeFi 화폐 과도한 홍보 없이

인류학적 구글 메타 오픈아이

이 기사를 공유하세요

누르 바즈미

누르 바즈미는 영화 전공 졸업생입니다. 영화 제작에서 현실 세계의 이야기로 영역을 넓혀 뉴스 작가로 활동하고 있으며, 블록체인부터 기술, 그리고 경제와 개인의 삶에 미치는 기술의 역할 증대에 이르기까지 다양한 분야에 관심을 가지고 있습니다. 1년 넘게 뉴스 작가로 활동하는 동시에 마케팅 분야에서 추가적인 자격 취득을 위해 노력하고 있습니다. 마케팅은 창의적인 스토리텔링, 혁신, 그리고 진정성에 대한 그녀의 열정을 결합하여 실질적인 영향력을 창출하고 전 세계 독자들과 더욱 깊은 관계를 맺을 수 있는 분야입니다.

1. 인공지능은 자신의 생각을 숨기는 법을 배울 수 있다

2. 필터링된 AI 추론은 투명성과 신뢰성에 대한 우려를 불러일으킵니다

3. 인공지능의 사고 과정은 정말 믿을 만한 것일까요?

이 기사를 공유하세요