엔비디아의 새로운 블랙웰 칩, AI 학습 시간 대폭 단축

에 의해

넬리우스 이레네

읽는 데 3분 소요 , 2025년 6월 5일

엔비디아의 새로운 블랙웰 칩은 Meta의 대형 Llama 3.1 모델을 단 27분 만에 학습시켰습니다.
이 칩들은 GPU 사용량은 적으면서도 이전 엔비디아 칩보다 두 배 이상 빨랐습니다.
이로써 엔비디아는 AI 학습 분야에서 AMD나 인텔과 같은 경쟁사보다 우위를 점하게 됩니다.

엔비디아의 새로운 블랙웰 칩은 인공지능 시스템 학습 속도를 혁신적으로 변화시키고 있습니다.

수요일에 발표된 AI 칩 단체인 MLCommons의 최신 벤치마킹 결과에서 trac성능 추적 및 비교 엔비디아가 개발한 블랙웰 아키텍처가 기록적인 성능을 보였습니다.

Meta의 오픈소스 Llama 3.1 405B 모델(가장 크고 복잡한 AI 모델 중 하나)을 사용하여 테스트했을 때, Blackwell 칩을 사용하면 학습이 단 27분 만 . 이는 2,496개의 Blackwell GPU만으로 달성한 것으로, Nvidia의 이전 Hopper 칩을 사용했을 때보다 훨씬 적은 수입니다.

반면, 이전 설계에서는 동일한 성능을 내기 위해 세 배 이상 많은 Hopper GPU를 . 칩 단위로 보면 Blackwell은 두 배 이상 빨라 수렴 효율성이 크게 향상되었습니다. 이러한 성능 향상은 수조 개의 매개변수를 가진 모델을 학습하는 조직에 상당한 시간과 비용 절감 효과를 가져올 수 있습니다.

이러한 결과는 이처럼 극단적인 규모에서 모델을 학습하기 위한 최초의 MLCommons 벤치마크로 여겨지며 , 칩이 가장 까다로운 AI 워크로드를 얼마나 잘 처리하는지에 대한 실제적인 측정값을 제공합니다.

CoreWeave와 Nvidia는 더욱 스마트한 AI 확장을 지원합니다

이번 결과는 엔비디아의 승리일 뿐만 아니라, 테스트에 협력한 클라우드 인프라 기업 코어위브(CoreWeave)의 노력을 부각시키는 계기가 되었습니다. 코어위브의 최고 제품 책임자(CPO)인 체탄 카푸어는 기자 회견에서 업계가 점차 나아가고 있는 방향, 즉 수만 개의 GPU로 구성된 대규모의 동질적인 블록에서 벗어나는 추세를 지적했습니다.

이제 기업들은 단일의 거대한 모놀리식 컴퓨팅 시스템을 구축하는 대신, 대규모 모델 학습을 보다 효율적으로 관리하고 확장성을 향상시킬 수 있는 더 작고 상호 연결된 하위 시스템들을 고려하고 있습니다.

카푸르는 이러한 기술을 통해 개발자들이 수조 개의 매개변수를 가진 매우 큰 모델을 학습시키는 데 필요한 시간을 지속적으로 늘리거나 줄일 수 있다고 말했다.

인공지능 모델의 크기와 복잡성이 계속 증가함에 따라 하드웨어의 모듈식 배포로의 전환 또한 필수적입니다.

Blackwell은 AI 모델 훈련 분야에서 엔비디아를 선두에 올려놓았습니다

최근에는 ChatGPT1과 같은 모델이 사용자의 질문에 실시간으로 답변하는 추론 기능에 초점이 맞춰지고 있지만, 학습은 여전히 AI 개발의 핵심 요소입니다.

훈련 과정을 통해 이러한 모델은 지능을 갖추게 되어 언어를 이해하고, 가장 어려운 문제들을 해결하며, 심지어 사람과 유사한 문장을 생성할 수 있게 됩니다. 이 과정은 매우 높은 연산 능력을 요구하며, 일반적으로 며칠에서 몇 주 또는 몇 달에 걸쳐 작동하기 위해서는 수천 개의 고성능 칩이 필요합니다.

엔비디아의 블랙웰 아키텍처 덕분에 상황이 바뀌었습니다 . 블랙웰 칩은 거대한 AI 모델을 학습시키는 데 필요한 칩 크기와 시간을 획기적으로 줄임으로써 속도와 효율성이 중요한 시장에서 엔비디아의 경쟁력을 강화했습니다.

Meta의 Llama 3.1 405B와 같이 수조 개의 매개변수를 가진 모델을 학습시키려면 이전에는 대규모 GPU 클러스터에서 실행해야 했으며, 이는 비용이 많이 들고 에너지를 소모하는 과정이었습니다.

이러한 성능 향상은 의료, 금융, 교육, 자율주행차 등 다양한 산업 분야에서 더욱 크고 강력한 AI 모델에 대한 수요가 폭발적으로 증가하는 시기에 상당한 이점을 제공합니다.

이는 엔비디아의 경쟁사들에게도 분명한 메시지를 전달합니다. 이제 AI 전용 칩 개발에 힘쓰고 있는 AMD와 인텔 같은 칩 회사들은 비슷한 속도를 유지해야 한다는 압박을 더욱 크게 받게 되었습니다.

AMD는 MLCommons 벤치마크 테스트에 참여했지만, Llamas 3.1 405B처럼 큰 모델에 대한 결과는 공개하지 않았습니다. 엔비디아만이 벤치마크 테스트에서 최고 수준의 성능을 보여주며, 자사의 하드웨어가 우수하고 가장 까다로운 과제도 충분히 감당할 수 있음을 입증했습니다.

이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 구독하시면 더욱 유익한 정보를 받아보실 수 있습니다.

엔비디아

이 기사를 공유하세요

넬리우스 이레네

넬리우스는 경영학 및 IT 학사 학위를 소지하고 있으며 암호화폐 업계에서 5년의 경력을 쌓았습니다. 또한 비트코인 다다( Bitcoin Dada) 졸업생이기도 합니다. 넬리우스는 BanklessTimes, Cryptobasic, Riseup Media 등 주요 미디어 매체에 기고해 왔습니다.

1. CoreWeave와 Nvidia는 더욱 스마트한 AI 확장을 지원합니다

2. Blackwell은 AI 모델 훈련 분야에서 엔비디아를 선두에 올려놓았습니다

이 기사를 공유하세요