OpenAI가 마침내 GPT 4.5 AI 모델을 공개했지만, 특정 작업에서는 경쟁사 모델보다 성능이 떨어지는 것으로 나타났습니다

슈마스 후마윤 지음

읽는 데 4분 소요 , 2025년 3월 1일

OpenAI가 마침내 자사의 최대 규모 AI 모델인 GPT-4.5(코드명 '오리온')를 공개했습니다.
GPT-4.5는 학술적 과제 수행에서 Anthropic의 Claude 3.7 Sonnet과 같은 경쟁 제품에 비해 뒤처집니다.
이는 4o 및 o3-mini에 비해 더 따뜻한 반응을 나타냅니다.

OpenAI는 코드명 오리온(Orion)으로 불리는 GPT-4.5를 공개했는데, 이는 회사가 지금까지 개발한 모델 중 가장 큰 규모라고 합니다. 기술 업계에서는 글쓰기, 수학, 코딩 등 다양한 분야에서matic 발전을 보여준 GPT 모델 시리즈의 차기 버전을 오랫동안 기다려왔습니다.

OpenAI는 GPT-4.5를 단계적으로 출시하는 방식을 택했습니다. 월 200달러의 ChatGPT Pro 구독자는 연구용 미리보기 버전으로 즉시 이용할 수 있습니다. OpenAI API의 유료 플랜을 사용하는 개발자 또한 GPT-4.5를 바로 사용할 수 있습니다. ChatGPT Plus 및 ChatGPT Team 고객은 다음 주 중으로 이용 가능해질 예정이라고 OpenAI 대변인은 밝혔습니다. OpenAI에 따르면, 이러한 단계적 출시는 이 "거대한" 시스템을 구현하는 데 필요한 막대한 컴퓨팅 자원 때문입니다.

오늘 저희는 지금까지 출시된 채팅 모델 중 가장 크고 뛰어난 GPT-4.5의 연구 버전을 공개합니다.

모든 ChatGPT Pro 사용자에게 지금 바로 배포되며, 다음 주에는 Plus 및 Team 사용자, 그 다음 주에는 Enterprise 및 Edu 사용자에게 순차적으로 배포될 예정입니다. pic.twitter.com/br5win5OEB
— 오픈아이(@OpenAI) 2025년 2월 27일

기술 업계에서는 GPT-4.5의 출시가 기존 학습 방식, 즉 데이터 양과 컴퓨팅 자원을 늘리는 방식이 앞으로도 상당한 성능 향상을 가져올 수 있을지 여부를 가늠하는 지표로 여겨져 왔습니다. 지금까지 GPT 시리즈는 상당히 예측 가능한 패턴을 보여왔습니다. GPT-1, GPT-2, GPT-3, GPT-4와 같은 버전들은 OpenAI가 컴퓨팅 파워를 늘리고 학습 데이터를 투입할 때마다 성능이 눈에 띄게 향상되었습니다.

세대가 거듭될수록matic, 작문 능력, 코딩 등 여러 분야에서matic점수가 급격히 상승했습니다. GPT-4.5는 회사 측에서 "더 깊이 있는 세계 지식"과 "더 높은 감성 지능"이라고 설명하는 것을 바탕으로 이러한 추세를 이어가고자 합니다. 하지만 동시에 GPT-4.5의 특정 테스트 결과는 단순히 규모를 키우는 것만으로는 더 이상의 효과를 기대하기 어려울 수 있음을 시사합니다.

GPT-4.5의 초기 특징 및 한계

OpenAI는 GPT-4.5가 GPT-40을 직접적으로 대체하는 것으로 간주되어서는 안 된다는 점을 분명히 밝혔습니다. GPT-4.5에는 파일 및 이미지 업로드 지원, ChatGPT의 캔버스 도구 활용 등 고급 기능이 포함되어 있습니다. 하지만 현재 ChatGPT에 최근 추가된 양방향 음성 모드는 지원하지 않습니다.

OpenAI와 다른 연구원들이 실시한 초기 평가에 따르면 GPT-4.5는 여러 테스트 항목에서 GPT-4o보다 우수한 성능을 보였습니다. 예를 들어, 단순하고 사실적인 질문에 얼마나 잘 답변하는지를 측정하는 SimpleQA 벤치마크 테스트에서 GPT-4.5는 GPT-4o보다 높은 정확도를 기록했으며, OpenAI의 o1 및 o3-mini 추론 모델보다도 뛰어난 성능을 보였습니다. 회사에 따르면 GPT-4.5는 다른 많은 시스템보다 "환각"에 빠지는 빈도가 낮아 실제 정보와 동떨어진 콘텐츠를 생성할 가능성이 적습니다.

코딩 평가 결과는 다소 엇갈립니다. SWE-Bench Verified 벤치마크에서 GPT-4.5는 GPT-4o 및 o3-mini와 거의 비슷한 성능을 보이지만, 이들을 능가하지는 못합니다. 따라서 GPT-4.5는 OpenAI의 심층 연구 모델과 Anthropic의 Claude 3.7 Sonnet보다 낮은 성능을 보입니다.

SWE-Lancer라는 다른 코딩 테스트에서 GPT-4.5는 GPT-4o 및 o3-mini보다 성능이 우수하지만 심층 연구에는 여전히 뒤처집니다.

GPT-4.5의 성능은 까다로운 학술적 벤치마크에서도 차이를 보입니다. AIME와 GPQA에서 GPT-4.5는 o3-mini, DeepSeek의 R1, Anthropic의 Claude 3.7 Sonnet과 같은 최상위 모델에 미치지 못하는 결과를 보였습니다. 그러나 GPT-4.5는 "추론" 시스템으로 분류되지 않는 주요 모델들과는 동등하거나 때로는 더 나은 성능을 보여주며, 이는 GPT-4.5가 여전히 강력한 수학 및 과학적 능력을 보유하고 있음을 시사합니다.

OpenAI는 GPT-4.5의 강점을 수치화하기 어려운 영역에서도 강조해왔습니다. 이 회사는 GPT-4.5가 인간의 의도를 더 잘 파악하고 더 따뜻하고 자연스러우며 사회적으로 더 배려하는 답변을 생성할 수 있다고 주장합니다.

비공식 테스트에서는 "시험에 떨어져서 힘든 시간을 보내고 있어요."라는 질문을 제시했습니다. 다른 두 모델도 유용한 정보를 제공했지만, GPT-4.5는 더 큰 공감 능력과 감정적 민감성을 보였다고 합니다.

오픈아이얼은 블로그 게시물에서 "학술적 기준이 항상 실제 유용성을 반영하는 것은 아니라는 점을 인지하고 있기 때문에 이번 릴리스를 통해 GPT-4.5의 기능에 대한 더욱 완전한 그림을 얻을 수 있기를 기대합니다."라고 밝혔습니다

GPT-4.5는 4o 및 o3-mini보다 더 따뜻한 반응을 보입니다. 출처: OpenAI

크기 조절 법칙에 대한 면밀한 검토

GPT-4.5는 이전 GPT 버전과 동일한 비지도 학습 전략으로 구축되었으며, 이 전략은 지금까지 신뢰성이 입증되었습니다. 그러나 일부 고수준 벤치마크에서 나타나는 제한적인 성능은 업계의 전통적인 "확장 법칙"이 더 이상 유효하지 않을 수 있음을 시사합니다.

오픈AI의 공동 창립자이자 전 수석 과학자인 일리야 수츠케버는 지난 12월 "데이터의 정점에 도달했다"며 "우리가 알고 있는 사전 학습 방식은 틀림없이 종말을 맞이할 것"이라고 언급했습니다. 당시 그는 미래의 발전은 단순히 방대한 정보를 암기하는 것이 아니라 문제에 대해 더 깊이 추론할 수 있는 시스템과 같은 다른 방식에 달려 있다고 시사했습니다.

일리야 수츠케버와 샘 알트만이 TAU에서 만났습니다. 출처: TAUVOD 유튜브 채널

GPT-4.5는 백서 에서 언급했듯이 "학습 비용이 엄청나게 많이 드는" 것으로 알려졌으며 , OpenAI가 성능 및 비용 문제로 인해 출시를 여러 차례 연기했다는 소문이 몇 달 동안 돌았습니다. 그럼에도 불구하고 GPT-4.5만으로는 많은 고급 작업에서 경쟁사의 특수 추론 모델을 능가하는 것으로 보이지 않습니다. OpenAI는 GPT 기술과 자사의 "o" 추론 시스템을 결합하는 과정의 또 다른 개발 이정표로 GPT-4.5를 간주하고 있으며, 이러한 통합은 올해 말 출시될 GPT-5부터 시작될 것으로 예상됩니다.

GPU 부족 사태에 대한 샘 알트만 CEO의 발언

OpenAI CEO 샘 알트만은 X(구 트위터)를 통해 최신 모델 출시가 단계적으로 진행되는 이유를 설명했습니다. 알트만은 "우리가 빠르게 성장하면서 GPU가 부족해졌다"며, GPT-4.5를 "거대하고" "비싼" 모델이라고 표현하고, 일반 사용자에게 모델을 공개하기 전에 "수만 대"의 GPU가 더 필요할 것이라고 경고했습니다.

GPT-4.5가 드디어 완성됐습니다!

좋은 소식은, 제게는 마치 사려 깊은 사람과 대화하는 듯한 느낌을 주는 첫 번째 모델이라는 점입니다. 의자에 편안히 앉아 인공지능으로부터 정말 좋은 조언을 듣고 놀란 순간들이 여러 번 있었습니다.

나쁜 소식은, 엄청나게 크고 비싼 모델이라는 것입니다. 저희는…
— 샘 알트만 (@sama) 2025년 2월 27일

GPT-4.5는 규모가 매우 크기 때문에 비용이 상당히 많이 드는 것으로 나타났습니다. OpenAI는 입력 토큰 100만 개당 75달러, 모델이 생성하는 토큰 100만 개당 150달러를 청구합니다. 이는 GPT-40 모델에 비해 입력 비용은 30배, 출력 비용은 15배 높은 수치입니다.

그는 다음과 같이 덧붙였습니다. "다음 주에 수만 개의 GPU를 추가하고 플러스 등급에 적용할 예정입니다. 이는 저희가 원하는 운영 방식은 아니지만, GPU 부족으로 이어지는 급격한 성장세를 완벽하게 예측하기는 어렵습니다."

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

오픈아이

이 기사를 공유하세요