OpenAI의 o3 모델은 자체 벤치마크 기준에 미치지 못하는 성능을 보였습니다

에 의해

누르 바즈미

읽는 데 2분 소요 , 2025년 4월 21일

OpenAI의 o3 모델은 자체 벤치마크 기준에 미치지 못하는 성능을 보였습니다

OpenAI는 자사의 o3 모델이 FrontierMath 문제의 25% 이상을 해결할 수 있다고 주장했지만, Epoch AI의 새로운 테스트 결과에 따르면 공개 버전은 약 10% 정도만 해결할 수 있는 것으로 나타났습니다.
ARC Prize와 OpenAI 엔지니어는 공개된 모델이 채팅 사용에 최적화된 더욱 효율적이고 빠른 버전임을 확인했습니다.
xAI와 Meta를 포함한 경쟁사들도 부풀려진 벤치마크 결과에 대해 조사를 받고 있습니다.

OpenAI의 최신 LLM인 o3가dent 인 테스트 결과 회사 측이 처음 주장했던 것보다 훨씬 적은 수의 어려운 수학 문제를 해결한 것으로 드러나면서 논란에 휩싸였습니다.

OpenAI는 12월에 o3를 공개하면서, 해당 모델이 악명 높은 대학원 수준의 수학 퍼즐 모음인 FrontierMath 문제의 "4분의 1을 조금 넘는" 문제만 해결할 수 있다고 밝혔습니다.

그들은 최고의 경쟁업체조차 2% 부근에 머물러 있다고 덧붙였습니다. o3 및 o3 mini 라이브 스트림성능을 보이고 있습니다."라고 말했습니다. "하지만 o3는 공격적인 테스트 환경의 컴퓨팅 조건에서 25% 이상의 성능을 달성할 수 있습니다."

테크크런치(TechCrunch)는 해당 결과가 오픈아이얼(OpenAI)이 지난주 공개한 모델보다 더 많은 컴퓨팅 파워를 사용한 o3 버전에서 얻은 것이라고 보도했습니다 .

금요일에 FrontierMath를 개발한 연구기관인 Epoch AI는 공개된 o3 지표에 대한 자체 점수를 발표했습니다.

OpenAI는 많은 기대를 모았던 추론 모델인 o3와 함께, o3-mini를 계승하는 더 작고 저렴한 모델인 o4-mini를 출시했습니다.

저희는 수학 및 과학 벤치마크 테스트를 통해 새로운 모델들을 평가했습니다. 결과는 다음 스레드에서 확인하세요! pic.twitter.com/5gbtzkEy1B

— 에포크 AI (@EpochAIResearch) 2025년 4월 18일

Epoch는 업데이트된 290문항 벤치마크를 사용하여 모델의 정확도를 약 10%로 평가했습니다.

이 결과는 OpenAI가 12월에 발표한 기술 논문의 하한값과 일치하지만, Epoch는 이러한 차이가 다양한 원인에 기인할 수 있다고 경고했습니다.

"저희 결과와 OpenAI 결과의 차이는 OpenAI가 더 강력한 내부 스캐폴드를 사용하거나, 테스트 시간 컴퓨팅을 더 많이 사용하거나, 또는 FrontierMath의 다른 하위 집합에서 실행했기 때문일 수 있습니다."라고 Epoch는 밝혔습니다.

FrontierMath는 고급matic추론 능력 향상을 측정하기 위해 설계되었습니다. 2024년 12월에 공개된 문제 세트에는 180개의 문제가 포함되었으며, 2025년 2월에 비공개 업데이트되면서 문제 수가 290개로 늘어났습니다.

시험 문제 목록의 변화와 시험 당시 허용된 컴퓨터 처리 능력의 변동은 보고된 백분율에 큰 변동을 초래할 수 있습니다.

OpenAI는 공개된 o3 모델이 데모 버전보다 컴퓨팅 자원을 덜 사용한다고 확인했습니다

상용 o3의 부족함을 보여주는 증거는 ARC Prize Foundation의 테스트에서도 나타났습니다. ARC Prize Foundation은 초기 버전의 더 큰 용량의 빌드를 사용해 테스트했습니다. ARC Prize Foundation은 게시한 "출시된 모든 o3 컴퓨팅 계층은 우리가 벤치마킹한 버전보다 규모가 작다"고 덧붙였습니다.

OpenAI 직원인 웬다 저우는 지난주 라이브 스트리밍에서 비슷한 설명을 제시했습니다. 그녀는 실제 운영 시스템이 "실제 사용 사례에 더욱 최적화되어 있고" 속도도 더 빠르다고 말했습니다. 저우는 "모델의 비용 효율성을 높이고 전반적으로 더 유용하게 만들기 위해 최적화 작업을 진행했다"고 말하면서도 벤치마크 결과와의 "차이"가 있을 수 있음을 인정했습니다

이 회사의 더 작은 모델 두 가지인 o3-mini-high와 새로 발표된 o4-mini는 이미 FrontierMath에서 o3를 능가했으며, OpenAI는 향후 몇 주 안에 더 나은 o3-pro 변형 모델을 출시할 예정이라고 밝혔습니다.

하지만 이는 벤치마크 관련 기사가 얼마나 오해를 불러일으킬 수 있는지를 보여줍니다. 지난 1월, 에포크는 오픈아이언(OpenAI)의 자금 조달 내역을 o3 발표 이후에 공개했다는 이유로 비판을 받았습니다. 최근에는 일론 머스크의 스타트업 xAI가 Grok 3 모델의 성능을 과장한 차트를 제시했다는 비난을 받았습니다.

업계 전문가들은 기업들이 새로운 모델로 주목을 받기 위해 경쟁하면서 이러한 벤치마크 논란이 AI 업계에서 흔히 발생하는 일이 되고 있다고 말합니다.

이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 구독하시면 더욱 유익한 정보를 받아보실 수 있습니다.

오픈아이

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

누르 바즈미

누르 바즈미는 미디어학 학위를 소지하고 Cryptopolitan 뉴스팀에 기고하고 있습니다. 그녀는 블록체인, 암호화폐, 인공지능, 빅테크, 전기차 시장, 세계 경제 및 정부 정책 변화 관련 뉴스를 다룹니다. 또한 글로벌 독자들과 소통하기 위해 마케팅 분야를 공부하고 있습니다.

1. OpenAI는 공개된 o3 모델이 데모 버전보다 컴퓨팅 자원을 덜 사용한다고 확인했습니다

이 기사를 공유하세요