알리바바는 중국 음력 설날인 수요일에 자사의 인공지능 모델 Qwen 2.5의 새로운 버전을 발표했습니다. 이 중국 기술 기업은 Qwen 2.5가 높은 평가를 받고 있는 DeepSeek-V3를 능가한다고 주장했습니다.
알리바바는 공식 위챗 계정을 통해 Qwen 2.5-Max가 GPT-40, DeepSeek-V3, Llama-3.1-405B 등 거의 모든 AI 모델보다 뛰어난 성능을 보였다고 발표했습니다. 이 소식은 딥시크의 AI 비서(DeepSeek-V3)가 1월 10일에, 그리고 R1 모델이 1월 20일에 출시된 직후에 나왔습니다.
최근 딥시크의 R1 모델 공개는 미국 기술 기업들의 주가에 큰 충격을 주었고, 특히 엔비디아의 주가가 급락했습니다. 딥시크는 다른 미국 기술 기업들이 인공지능 분야에 수십억 달러를 투자하는 것과 달리, R1 모델 개발에 단 60억 달러만 투자했다고 주장했습니다.
이 기술 기업은 자국 시장에서도 반향을 일으키며 다른 중국 기술 기업들이 AI 모델 업데이트를 앞다퉈 출시하게 만들었습니다. 로이터 통신 보도에 따르면, 딥시크-R1 출시 이틀 후 바이트댄스도 자사의 주력 AI 모델 업데이트를 공개했습니다. 틱톡의 모회사인 바이트댄스는 자사의 모델이 복잡한 명령을 이해하고 반응하는 능력을 측정하는 테스트에서 마이크로소프트가 지원하는 오픈AI의 o1보다 우수한 성능을 보였다고 주장했습니다.
알리바바가 새로운 버전의 Qwen2.5 AI 모델을 출시했습니다
DeepSeek V3의 폭발적인 인기는 전체 AI 커뮤니티의 관심을 대규모 MoE 모델로 끌어들였습니다. 이와 동시에 저희는 대규모 데이터로 사전 학습하고 엄선된 SFT 및 RLHF 레시피로 사후 학습한 대규모 MoE LLM인 Qwen2.5-Max를 개발해 왔습니다. 이 모델은 경쟁력 있는 성능을 달성합니다 trac pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) 2025년 1월 28일
중국 기술 기업 오픈아이(OpenAI)는 월요일, 새로운 AI 모델인 Qwen2.5-VL이 다양한 텍스트 및 이미지 분석 작업을 수행할 수 있다고 발표했습니다. 또한 Qwen2.5는 오픈아이가 최근 출시한 오퍼레이터(Operator)에 탑재된 모델과 유사하다고 밝혔습니다. 이 AI 모델은 비디오를 이해하고, 파일을 분석하고, 이미지 속 객체 수를 세는 것은 물론, PC를 제어할 수도 있습니다.
Qwen 팀이 실시한 벤치마킹 테스트에 따르면, Qwen2.5-VL 모델은 보였습니다 . 이 새로운 AI 모델은 비디오 이해, 수학, 문서 분석, 그리고 질문-답변 평가 분야에서 경쟁 모델들을 능가할 수 있을 것으로 예상됩니다.
알리바바는 Qwen 2.5-VL 버전을 Qwen 채팅 앱에서 테스트할 수 있으며, AI 개발 플랫폼인 Hugging Face에서도 다운로드할 수 있다고 밝혔습니다. Qwen 팀은 이 AI 모델이 차트와 그래프를 분석하고, 송장 및 서류 스캔본에서 데이터를trac하며, 수 시간 분량의 동영상을 이해할 수 있다고 설명했습니다. 또한 영화와 TV 시리즈의 지적 재산권(IP)은 물론 다양한 제품을 인식할 수 있다고 덧붙였습니다.
Qwen 팀은 해당 AI 모델이 중국 기업에서 개발되었기 때문에 Qwen 채팅에서 다룰 수 있는 주제에 certain 제한이 있다고 밝혔습니다. 팀에 따르면, 중국 인터넷 규제 당국은 중국에서 개발된 많은 AI 모델들이 "사회주의 핵심 가치를 구현하는지"를 확인하기 위해 평가를 진행하고 있습니다. Ernie 들도 규제 당국의 심기를 불편하게 하거나 너무 민감하다고 여겨질 수 있는 주제에 대해서는 답변을 회피하고 있습니다.
Qwen 팀이 Qwen2.5-VL의 기능을 공개했습니다
Qwen2.5-VL 개발팀은 이 AI 모델의 흥미로운 특징 중 하나로 PC와 모바일 기기 모두에서 소프트웨어와 상호 작용할 수 있는 능력을 꼽았습니다. Hugging Face의 기술 책임자인 필립 슈미드는 AI 모델이 안드로이드용 Booking.com 앱을 실행하고 충칭에서 베이징으로 가는 항공편을 예약하는 모습을 시연했습니다.
"딥시크(DeepSeek)에 대한 온갖 과대광고에도 불구하고, 큐엔(Qwenn)이 최고의 오픈 소스 멀티모달 모델을 출시했습니다! 큐엔 2.5 VL은 컴퓨터를 제어할 수 있는 비전 언어 모델로, 오픈아이얼(OpenAI) 오퍼레이터와 유사하며, 차트에서 구조화된 정보를trac등 다양한 기능을 제공합니다!!"
– 필립 슈미트 , 허깅 페이스 기술 책임자
Hugging Face의 데이터 과학자인 Vaibhav Srivastav는 시연했지만 , 탭 전환 이상의 작업은 거의 수행할 수 없었습니다. 이 시연은 Qwen의 벤치마킹 결과와도 일치했는데, Qwen2.5-VL은 실제 컴퓨터 환경을 모방한 벤치마크 도구인 OSWorld에서 저조한 점수를 기록했습니다.
중국 AI 기술 기업인 알리바바는 Qwen2.5VL 시리즈의 소형 모델인 Qwen2.5-VL-3B와 Qwen2.5-VL-7B는 일반 라이선스 하에 이용 가능하다고 밝혔습니다. 하지만 플래그십 모델인 Qwen2.5-VL-7B는 알리바바의 맞춤형 라이선스 하에 제공되며, 월간 활성 사용자 수가 1억 명 이상인 기업 및 개발자는 AI 모델을 상업적으로 배포하기 전에 Qwen 또는 알리바바의 승인을 받아야 합니다.

