Na quarta-feira, primeiro dia do Ano Novo Lunar na China, a Alibaba anunciou uma nova versão de seu modelo de inteligência artificial Qwen 2.5. A empresa chinesa de tecnologia argumentou que o Qwen 2.5 superou o aclamado DeepSeek-V3.
A Alibaba publicou em sua conta oficial do WeChat que o Qwen 2.5-Max superou quase todos os modelos de IA, incluindo GPT-40, DeepSeek-V3 e Llama-3.1-405B. A notícia da empresa veio após o lançamento do assistente de IA da DeepSeek (DeepSeek-V3) em 10 de janeiro e o lançamento do seu modelo R1 em 20 de janeiro.
O recente lançamento do modelo R1 da DeepSeek causou um impacto profundo nas ações das empresas de tecnologia americanas, especialmente da Nvidia. A DeepSeek afirmou ter criado o modelo R1 com apenas US$ 6 bilhões, em comparação com os bilhões de dólares que outras empresas de tecnologia americanas investem em inteligência artificial.
A empresa de tecnologia também gerou certo impulso em seu próprio mercado doméstico, com outras empresas de tecnologia chinesas correndo para lançar atualizações para seus modelos de IA. Uma reportagem da Reuters revelou que, dois dias após o lançamento do DeepSeek-R1, a ByteDance também lançou uma atualização para seu principal modelo de IA. A empresa controladora do TikTok argumentou que ele supera o o1 da OpenAI, apoiada pela Microsoft, em testes que medem o quão bem os modelos de IA entendem e respondem a instruções complexas.
Alibaba lança nova versão do modelo de IA Qwen2.5
O sucesso do DeepSeek V3 atraiu trac atenção de toda a comunidade de IA para modelos MoE em larga escala. Simultaneamente, estamos desenvolvendo o Qwen2.5-Max, um modelo LLM MoE de grande porte, pré-treinado em dados massivos e pós-treinado com receitas SFT e RLHF selecionadas. Ele alcança resultados competitivos… pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) 28 de janeiro de 2025
A empresa chinesa de tecnologia anunciou na segunda-feira que o novo modelo de IA, Qwen2.5-VL, pode realizar diversas tarefas de análise de texto e imagem. A empresa também afirmou que o Qwen2.5 é semelhante ao modelo que alimenta o Operator, lançado recentemente pela OpenAI. O modelo de IA consegue entender vídeos, analisar arquivos e contar objetos em imagens, além de controlar um computador.
De acordo com testes comparativos realizados pela equipe da Qwen, o modelo Qwen2.5-VL supera o GPT-40 da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 2.0 Flash do Google. O novo modelo de IA pode superar seus concorrentes em compreensão de vídeo, matemática, análise de documentos e avaliação de perguntas e respostas.
A Alibaba confirmou que o Qwen2.5-VL estava disponível para testes em seu aplicativo Qwen Chat e para download na plataforma de desenvolvimento de IA Hugging Face. A equipe do Qwen afirmou que o modelo de IA pode analisar gráficos e tabelas,tracdados de digitalizações de faturas e formulários e "compreender" vídeos com várias horas de duração. O modelo de IA também pode reconhecer propriedades intelectuais de filmes e séries de TV, bem como uma ampla variedade de produtos.
A equipe do Qwen revelou que o modelo tinha certas restrições sobre os tópicos que podia discutir no Qwen Chat, devido ao fato de a IA ter sido desenvolvida por uma empresa chinesa. Segundo a equipe, o órgão regulador da internet na China avalia muitos modelos desenvolvidos no país para garantir que suas respostas "incorporem valores socialistas fundamentais". Diversas empresas chinesas de IA, como a Ernie , também restringem suas respostas a tópicos que possam irritar os reguladores ou que possam ser considerados muito sensíveis.
A equipe da Qwen revela as capacidades da Qwen2.5-VL
A equipe de desenvolvimento do Qwen2.5-VL revelou que uma das características interessantes do modelo de IA é sua capacidade de interagir com softwares, tanto em PCs quanto em dispositivos móveis. Philipp Schmid, líder técnico da Hugging Face, demonstrou o modelo de IA abrindo o aplicativo Booking.com para Android e reservando um voo de Chongqing para Pequim.
Apesar de toda a propaganda em torno do DeepSeek, a Qwenn acaba de lançar a melhor linguagem multimodal de código aberto! O Qwen 2.5 VL é um modelo de linguagem de visão que pode controlar seu computador, similar ao operador da OpenAI,tracinformações estruturadas de gráficos e muito mais!
– Philipp Schmid , Líder Técnico da Hugging Face
Vaibhav Srivastav, cientista de dados da Hugging Face, demonstrou como o modelo Qwen2.5-VL controla aplicativos em um desktop Linux, mas não conseguiu realizar muito além da troca de abas. A demonstração corroborou os resultados dos testes de desempenho do Qwen, que mostraram que o Qwen2.5-VL obteve uma pontuação baixa no OSWorld, um benchmark que tenta simular um ambiente de computador real.
A empresa chinesa de tecnologia de IA também revelou que os dois modelos menores e menos sofisticados da série Qwen2.5VL, o Qwen2.5-VL-3B e o Qwen2.5-VL-7B, estão disponíveis sob licenças permissivas. O modelo principal, Qwen2.5-VL-7B, continuará disponível sob a licença personalizada da Alibaba, que exige que empresas e desenvolvedores com mais de 100 milhões de usuários ativos mensais solicitem permissão da Qwen ou da Alibaba antes de implantar o modelo de IA comercialmente.

