최신 뉴스
당신을 위해 엄선되었습니다
주간
최고 자리를 유지하세요

최고의 암호화폐 관련 정보를 이메일로 받아보세요.

OpenAI의 o3 모델은 자체 벤치마크 기준에 미치지 못하는 성능을 보였습니다

에 의해누르 바즈미누르 바즈미
읽는 데 2분 소요
OpenAI의 o3 모델은 자체 벤치마크 기준에 미치지 못하는 성능을 보였습니다
  • OpenAI는 자사의 o3 모델이 FrontierMath 문제의 25% 이상을 해결할 수 있다고 주장했지만, Epoch AI의 새로운 테스트 결과에 따르면 공개 버전은 약 10% 정도만 해결할 수 있는 것으로 나타났습니다.
  • ARC Prize와 OpenAI 엔지니어는 공개된 모델이 채팅 사용에 최적화된 더욱 효율적이고 빠른 버전임을 확인했습니다.
  • xAI와 Meta를 포함한 경쟁사들도 부풀려진 벤치마크 결과에 대해 조사를 받고 있습니다.

OpenAI의 최신 LLM인 o3가dent 인 테스트 결과 회사 측이 처음 주장했던 것보다 훨씬 적은 수의 어려운 수학 문제를 해결한 것으로 드러나면서 논란에 휩싸였습니다. 

OpenAI는 12월에 o3를 공개하면서, 해당 모델이 악명 높은 대학원 수준의 수학 퍼즐 모음인 FrontierMath 문제의 "4분의 1을 조금 넘는" 문제만 해결할 수 있다고 밝혔습니다.

그들은 최고의 경쟁업체조차 2% 부근에 머물러 있다고 덧붙였습니다. o3 및 o3 mini 라이브 스트림성능을 보이고 있습니다."라고 말했습니다. "하지만 o3는 공격적인 테스트 환경의 컴퓨팅 조건에서 25% 이상의 성능을 달성할 수 있습니다."

테크크런치(TechCrunch)는 보도했습니다 해당 결과가 오픈아이얼(OpenAI)이 지난주 공개한 모델보다 더 많은 컴퓨팅 파워를 사용한 o3 버전에서 얻은 것이라고.

금요일에 FrontierMath를 개발한 연구기관인 Epoch AI는 공개된 o3 지표에 대한 자체 점수를 발표했습니다.

Epoch는 업데이트된 290문항 벤치마크를 사용하여 모델의 정확도를 약 10%로 평가했습니다.

이 결과는 OpenAI가 12월에 발표한 기술 논문의 하한값과 일치하지만, Epoch는 이러한 차이가 다양한 원인에 기인할 수 있다고 경고했습니다.

"저희 결과와 OpenAI 결과의 차이는 OpenAI가 더 강력한 내부 스캐폴드를 사용하거나, 테스트 시간 컴퓨팅을 더 많이 사용하거나, 또는 FrontierMath의 다른 하위 집합에서 실행했기 때문일 수 있습니다."라고 Epoch는 밝혔습니다.

FrontierMath는 고급matic추론 능력 향상을 측정하기 위해 설계되었습니다. 2024년 12월에 공개된 문제 세트에는 180개의 문제가 포함되었으며, 2025년 2월에 비공개 업데이트되면서 문제 수가 290개로 늘어났습니다.

시험 문제 목록의 변화와 시험 당시 허용된 컴퓨터 처리 능력의 변동은 보고된 백분율에 큰 변동을 초래할 수 있습니다.

OpenAI는 공개된 o3 모델이 데모 버전보다 컴퓨팅 자원을 덜 사용한다고 확인했습니다

상용 o3의 부족함을 보여주는 증거는 ARC Prize Foundation의 테스트에서도 나타났습니다. ARC Prize Foundation은 초기 버전의 더 큰 용량의 빌드를 사용해 테스트했습니다. ARC Prize Foundation은 게시한 "출시된 모든 o3 컴퓨팅 계층은 우리가 벤치마킹한 버전보다 규모가 작다"고 덧붙였습니다.

OpenAI 직원인 웬다 저우는 지난주 라이브 스트리밍에서 비슷한 설명을 제시했습니다. 그녀는 실제 운영 시스템이 "실제 사용 사례에 더욱 최적화되어 있고" 속도도 더 빠르다고 말했습니다. 저우는 "모델의 비용 효율성을 높이고 전반적으로 더 유용하게 만들기 위해 최적화 작업을 진행했다"고 말하면서도 벤치마크 결과와의 "차이"가 있을 수 있음을 인정했습니다

이 회사의 더 작은 모델 두 가지인 o3-mini-high와 새로 발표된 o4-mini는 이미 FrontierMath에서 o3를 능가했으며, OpenAI는 향후 몇 주 안에 더 나은 o3-pro 변형 모델을 출시할 예정이라고 밝혔습니다.

하지만 이는 벤치마크 관련 기사가 얼마나 오해를 불러일으킬 수 있는지를 보여줍니다. 지난 1월, 에포크는 오픈아이언(OpenAI)의 자금 조달 내역을 o3 발표 이후에 공개했다는 이유로 비판을 받았습니다. 최근에는 일론 머스크의 스타트업 xAI가 Grok 3 모델의 성능을 과장한 차트를 제시했다는 비난을 받았습니다.

업계 전문가들은 기업들이 새로운 모델로 주목을 받기 위해 경쟁하면서 이러한 벤치마크 논란이 AI 업계에서 흔히 발생하는 일이 되고 있다고 말합니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.tron권장합니다dent .

누르 바즈미

누르 바즈미

누르 바즈미는 미디어학 학위를 소지하고 Cryptopolitan 뉴스팀에 기고하고 있습니다. 그녀는 블록체인, 암호화폐, 인공지능, 빅테크, 전기차 시장, 세계 경제 및 정부 정책 변화 관련 뉴스를 다룹니다. 또한 글로벌 독자들과 소통하기 위해 마케팅 분야를 공부하고 있습니다.

더 많은 뉴스
심층 암호
화폐 속성 강좌