OpenAI의 최신 추론 모델인 o3와 o4-mini는 내부 및 외부 테스트에서 나타난 바와 같이 이전 모델보다 허위 답변을 더 자주 생성하는 것으로 밝혀졌습니다.
이른바 환각 현상의 증가는 새로운 버전이 출시될 때마다 이전 버전보다 내용이 줄어드는 오랜 패턴을 깨뜨렸다.
OpenAI 자체 통계는 이 문제를 극명하게 보여줍니다. 사람에 대한 사실을 얼마나 잘 기억하는지 측정하는 벤치마크인 PersonQA에서 o3는 응답의 33%에서 사실을 왜곡했는데, 이는 o1(16%)과 o3-mini(14.8%)의 약 두 배에 달하는 수치입니다. o4-mini는 더욱 심각한 결과를 보여 48%의 확률로 사실을 왜곡했습니다.
기술 보고서에는 조사 결과가 자세히 나와 있습니다. 엔지니어들은 새로운 모델이 코딩 및 수학적 측면에서 이전 버전보다 우수하지만, "전반적으로 더 많은 주장을 하기 때문에" "더 정확한 주장과 더불어 더 부정확하거나 허황된 주장도 더 많이 한다"고 지적합니다. 또한 보고서는 신뢰도 하락의 원인을 설명하기 위해 "더 많은 연구가 필요하다"고 덧붙입니다.
OpenAI는 o-시리즈 시스템을 추론 모델로 분류하는데, 이는 OpenAI를 비롯한 업계 전반에서 지난 1년간 받아들여온 분류입니다. 웹 검색 기능을 갖춘 GPT-4o와 같은 기존의 비추론 모델은 최신 두 모델보다 정확도 면에서 우수한 성능을 보입니다. GPT-4o는 자체 벤치마크인 SimpleQA에서 90%의 정확도를 달성했습니다.
OpenAI의 o3 모델이 빠르게 발전하고 있습니다
AI 비영리 연구소인 트랜슬루스(Transluce)는 보고했습니다 . 한 실행에서 모델은 2021년형 맥북 프로에서 "ChatGPT 외부"에서 코드를 실행한 다음 해당 수치를 다시 복사했다고 주장했습니다. 이 모델은 그런 작업을 수행할 수 없습니다.
트랜슬루스 연구원이자 전 오픈AI 직원이었던 닐 초더리는 이메일을 통해 "우리의 가설은 o-시리즈 모델에 사용되는 강화 학습 방식이 표준적인 사후 학습 파이프라인에서 완화되지만 완전히 제거되지는 않는 문제들을 증폭시킬 수 있다는 것입니다."라고 밝혔습니다.
Transluce의 공동 창립자인 Sarah Schwettmann은 오류율이 높으면 o3가 뛰어난 성능에도 불구하고 실제 활용도가 떨어질 수 있다고 말했습니다.
스탠포드 겸임 교수인 키안 카탄포루쉬는 테크크런치와의 인터뷰 자신의 팀이 이미 코딩 작업에 o3를 테스트 중이며 "경쟁 제품보다 한 단계 위"라고 평가한다고 밝혔습니다. 그러나 그는 또 다른 결함을 지적했는데, 바로 해당 모델이 클릭해도 작동하지 않는 웹 링크를 반환하는 경우가 많다는 것입니다.
환각은 창의력을 자극할 수 있지만, 정확성을 요구하는 기업에게는 도입하기 어려운 요소가 됩니다. 예를 들어trac를 작성하는 로펌은 잦은 사실 오류를 용납하지 않을 것입니다.
실시간 검색은 AI 모델의 착각을 줄일 수 있다
한 가지 가능한 해결책은 실시간 검색입니다. 웹 검색을 활용하는 OpenAI의 GPT-4o 버전은 이미 SimpleQA에서 더 나은 점수를 받았습니다. 보고서는 사용자가 제3자 엔진에 프롬프트를 보낼 의향이 있는 경우, 동일한 전략을 통해 추론 모델의 오류를 줄일 수 있다고 제안합니다.
오픈AI 대변인 니코 펠릭스는 이메일을 통해 "모든 모델에서 환각 현상을 다루는 것은 지속적인 연구 분야이며, 정확성과 신뢰성을 향상시키기 위해 끊임없이 노력하고 있다"고 밝혔습니다.
실시간 검색만으로 문제가 해결될지는 아직 불확실합니다. 보고서는 추론 모델의 규모를 확장할수록 환각 현상이 악화된다면 해결책을 찾는 노력이 더욱 시급해질 것이라고 경고합니다. 연구자들은 오랫동안 환각 현상을 인공지능 분야에서 가장 어려운 문제 중 하나로 꼽아왔으며, 이번 연구 결과는 아직 갈 길이 멀다는 것을 보여줍니다.
OpenAI에게 있어 신뢰성은 매우 중요합니다. ChatGPT는 직장, 교실, 창작 스튜디오 등 다양한 곳에서 사용되기 때문입니다. 엔지니어들은 오류율을 낮추기 위해 강화 학습, 데이터 선택, 도구 사용법 등을 지속적으로 개선해 나갈 것이라고 밝혔습니다. 그때까지 사용자들은 향상된 학습 능력과 오도될 가능성 증가 사이에서 균형을 맞춰야 할 것입니다.

