중국의 딥시크(DeepSeek)가 GPT-5에 필적하는 차세대 AI 모델을 공개했습니다. 하지만 과연 충분히 뛰어난 성능을 보여줄까요?

에 의해

자이 하미드

읽는 데 3분 소요 , 2025년 9월 30일

중국의 딥시크(DeepSeek)가 GPT-5에 필적하는 차세대 AI 모델을 공개했습니다. 하지만 과연 충분히 뛰어난 성능을 보여줄까요?

딥시크는 월요일에 속도, 비용 절감 및 대용량 데이터 처리에 중점을 둔 새로운 V3.2-Exp 모델을 출시했습니다.
이 모델은 관련 없는 데이터를 건너뛰어 효율성을 높이고 비용을 절반으로 줄이는 DeepSeek Sparse Attention을 도입했습니다.
전문가들은 주의력이 산만하면 이점에도 불구하고 중요한 정보가 누락되고 신뢰성이 떨어질 수 있다고 경고합니다.

중국의 IT 신예 딥시크(DeepSeek)가 인공지능 분야에서 미국의 독점적 지위에 도전하기 위한 시도의 일환으로 새로운 실험 모델인 V3.2-Exp를 출시했습니다. 이 모델은 월요일에 공개되었으며, 인기 있는 AI 포럼인 허깅페이스(Hugging Face)에 게시글을 통해 처음 알려졌습니다.

DeepSeek은 이번 최신 버전이 기존 모델인 V3.1-Terminus를 기반으로 하지만 속도, 비용 및 메모리 처리 능력을tron강화했다고 주장합니다.

허깅페이스의 중국 커뮤니티 책임자인 아디나 야케푸에 따르면, 해당 모델에는 DeepSeek Sparse Attention(DSA)이라는 기술이 적용되어 있으며, 이 기술 덕분에 "AI가 긴 문서와 대화를 더 잘 처리할 수 있게 되면서 운영 비용도 절반으로 줄어든다"고 합니다.

, 기억하시겠지만약 1년 전 DeepSeek은 첫 번째 모델인 R1을 예고 없이 공개하며 업계에 큰 파장을 일으켰습니다. 이 모델은 더 적은 칩과 훨씬 적은 컴퓨팅 파워로도 대규모 언어 모델을 학습시킬 수 있다는 가능성을 보여주었습니다. 당시 중국 팀이 그런 제약 조건 하에서 이를 해낼 것이라고는 아무도 예상하지 못했습니다. V3.2-Exp에서도 목표는 변함없이 하드웨어 사용량을 줄이고 성능을 향상시키는 것입니다.

DeepSeek의 Sparse Attention 기능을 추가하여 AI 실행 비용을 절감합니다

DSA는 이 모델의 핵심 기능입니다. 이는 AI가 어떤 정보를 살펴볼지 선택하는 방식을 바꿉니다. DeepSeek는 모든 것을 스캔하는 대신 작업에 유용해 보이는 정보에만 집중하도록 모델을 학습시킵니다. 아디나는 설명했습니다 이러한 방식의 이점이 "효율성"과 "비용 절감"이라는 두 가지 측면에서 나타난다고

관련 없는 데이터를 건너뛰면서 모델의 처리 속도가 빨라지고 에너지 소모량도 줄어듭니다. 그녀는 이 모델이 오픈 소스 협업을 염두에 두고 설계되었다고 말했습니다.

퓨투럼 그룹에서 AI 연구를 이끄는 닉 페이션스는 CNBC와의 인터뷰에서 이 모델이 고가의 모델을 사용할 여력이 없는 개발자들에게 강력한 AI 도구를 활용할 수 있는 가능성을 열어줄 것이라고 말했습니다. 그는 "성능 저하 없이 모델을 더 빠르고 비용 효율적으로 사용할 수 있게 해줄 것"이라고 덧붙였습니다. 하지만 위험이 전혀 없는 것은 아닙니다.

방식은 DeepSeek이 항공사가 항공편 경로를 선택하는 방식과 유사합니다. 한 지점에서 다른 지점으로 이동하는 방법은 수백 가지가 있을 수 있지만, 실제로 효율적인 경로는 몇 가지에 불과합니다. 모델은 불필요한 정보를 걸러내고 중요한 것, 또는 적어도 하다고 판단되는 .

하지만 여기에는 우려되는 점도 있습니다. 블랭크페이지 캐피털의 공동 창업자인 예카테리나 알마스케는 이를 간단하게 설명했습니다. "기본적으로 중요하지 않다고 생각하는 것들을 제거하는 것입니다." 하지만 그녀는 이 모델이 과연 올바른 것들을 제거하고 있는지 보장할 수 없다고 지적했습니다.

Dataiku, Darktrac, Graphcore 등의 회사에 투자해 온 예카테리나는 편법을 쓰면 나중에 문제가 생길 수 있다고 경고했습니다. 그녀는 "희소 어텐션 모델은 많은 미묘한 차이를 놓쳤습니다."라며, "진짜 문제는 중요하지 않은 데이터를 제외하는 올바른 메커니즘을 갖추고 있었는지, 아니면 정말 중요한 데이터를 제외하는 메커니즘이 있어서 결과가 훨씬 덜 의미 있게 되었는지입니다."라고 말했습니다

중국산 칩과 연결되고 오픈 소스 코드를 공개합니다

이러한 우려에도 불구하고 DeepSeek은 V3.2-Exp가 V3.1-Terminus와 동일한 성능을 보인다고 주장합니다. 또한 이 모델은 중국산 칩 추가 설정 없이 바로 실행될 수 있습니다. 이는 중국이 자국산 하드웨어를 기반으로 AI를 구축하고 외국 기술에 대한 의존도를 줄이려는 광범위한 노력에 있어 핵심적인 부분입니다. 아디나는 "DeepSeek은 이러한 칩에서 별도의 설정 없이 바로 작동한다"고 말했습니다.

딥시크는 모델의 전체 코드와 도구를 공개했습니다. 즉, 누구든 V3.2-Exp를 다운로드, 실행, 수정하거나 그 위에 새로운 기능을 구축할 수 있습니다. 이러한 움직임은 딥시크의 오픈 소스 전략과 일맥상통하지만, 특허라는 또 다른 문제를 제기합니다. 모델이 오픈 소스이고 핵심 아이디어인 희소 주의 집중(sparse attention)이 2015년부터 존재해 왔기 때문에 딥시크는 이를 법적으로 보호할 수 없습니다.

"이 접근 방식은 그다지 새로운 것은 아닙니다."라고 예카테리나는 말했다. 그녀에게 있어 이 기술의 유일하게 타당한 부분은 딥시크가 어떤 데이터를 유지하고 어떤 데이터를 무시할지 선택하는 방식이다.

진정한 경쟁은 바로 여기에 있습니다. 단순히 더 똑똑한 모델을 만드는 것이 아니라, 결과에 오류를 발생시키지 않으면서 더 빠르고, 저렴하고, 효율적인 모델을 만드는 것이죠. 딥시크조차 이번 버전을 "차세대 아키텍처를 향한 중간 단계"라고 언급했는데, 이는 그들이 이미 더 큰 프로젝트를 진행하고 있음을 시사합니다.

닉은 이 모델이 효율성이 이제 순수 출력만큼이나 중요하다는 것을 보여준다고 말했습니다. 아디나는 회사가 장기적인 전략을 염두에 두고 있다고 믿습니다. 그녀는 "딥시크는 커뮤니티가 회사의 발전에 계속 투자하도록 장기적인 관점에서 접근하고 있습니다."라고 말하며, "사람들은 언제나 저렴하고, 믿을 수 있고, 효과적인 것을 선택할 것입니다."라고 덧붙였습니다

이 글을 읽고 계시다면 이미 앞서 나가고 계신 겁니다. 뉴스레터를 구독하시면 더욱 유익한 정보를 받아보실 수 있습니다.

캠브리콘 딥시크 화웨이

이 기사를 공유하세요

자이 하미드

자이 하미드는 AMB Crypto, Coin Edition, CryptoTale 등 다양한 블록체인 관련 미디어 회사에서 6년간 근무한 경력을 가진 전문 작가입니다. 보건행정학 학사 학위를 소지하고 있으며, 아프리카 최고의 TV 방송국 중 한 곳에 출연하여 암호화폐 관련 정보를 제공하기도 했습니다.

1. DeepSeek의 Sparse Attention 기능을 추가하여 AI 실행 비용을 절감합니다

2. 중국산 칩과 연결되고 오픈 소스 코드를 공개합니다

이 기사를 공유하세요