A DeepSeek, empresa chinesa de tecnologia promissora, lançou um novo modelo experimental, o V3.2-Exp, como parte de sua tentativa de desafiar o domínio americano em IA. O lançamento ocorreu na segunda-feira e foi divulgado inicialmente por meio de uma publicação no Hugging Face, um fórum popular sobre IA.
A DeepSeek afirma que esta versão mais recente se baseia no modelo atual, V3.1-Terminus, mas com uma ênfasetronem velocidade, custo e gerenciamento de memória.
Segundo Adina Yakefu, líder da comunidade chinesa da Hugging Face, o modelo apresenta algo chamado DeepSeek Sparse Attention, ou DSA, que, segundo ela, "torna a IA melhor no processamento de documentos e conversas longas", além de reduzir os custos operacionais pela metade.
Se você se lembra , há cerca de um ano, a DeepSeek surpreendeu a todos ao lançar seu primeiro modelo, o R1, sem aviso prévio. Esse modelo demonstrou que era possível treinar um modelo de linguagem complexo usando menos chips e muito menos poder computacional. Ninguém esperava que uma equipe chinesa conseguisse isso com essas limitações. Com o V3.2-Exp, o objetivo não mudou: menos hardware, mais desempenho.
Adiciona DeepSeek Sparse Attention e reduz o custo de execução da IA
O DSA é o principal recurso deste modelo. Ele altera a forma como a IA seleciona as informações a serem analisadas. Em vez de examinar tudo, o DeepSeek treina o modelo para se concentrar apenas no que parece útil para a tarefa. Adina explicou que o benefício aqui é duplo: “eficiência” e “redução de custos”.
Ao ignorar dados irrelevantes, o modelo funciona mais rápido e exige menos energia. Ela afirmou que o modelo foi projetado com a colaboração de código aberto em mente.
Nick Patience, que lidera a pesquisa em IA no The Futurum Group, disse à CNBC que o modelo tem o potencial de disponibilizar ferramentas poderosas de IA para desenvolvedores que não podem arcar com o custo de modelos mais caros. "Isso deve tornar o modelo mais rápido e econômico, sem uma queda perceptível no desempenho", afirmou Nick. Mas isso não significa que não existam riscos.
A forma como o DeepSeek usa a atenção esparsa é semelhante à maneira como as companhias aéreas escolhem rotas de voo. Pode haver centenas de maneiras de ir de um lugar para outro, mas apenas algumas fazem sentido. O modelo filtra o ruído e se concentra no que importa — ou pelo menos no que ele acha que importa.
Mas isso traz algumas preocupações. Ekaterina Almasque, cofundadora da BlankPage Capital, explicou de forma simples: "Basicamente, você elimina coisas que considera sem importância". Mas o problema, segundo ela, é que não há garantia de que o modelo esteja eliminando as certas .
Ekaterina, que apoiou empresas como Dataiku, Darktrace Graphcore, alertou que economizar em detalhes pode criar problemas mais tarde. "Eles [os modelos de atenção esparsa] perderam muitas nuances", disse ela. "E então a verdadeira questão é: eles tinham o mecanismo certo para excluir dados irrelevantes, ou existe um mecanismo que exclui dados realmente importantes, e então o resultado será muito menos relevante?"
Conecta-se a chips chineses e libera código aberto
Apesar dessas preocupações, a DeepSeek insiste que a versão V3.2-Exp tem o mesmo desempenho que a V3.1-Terminus. O modelo também pode ser executado diretamente em chips chineses, como os da Ascend e da Cambricon, sem necessidade de configurações adicionais. Isso é fundamental no esforço mais amplo da China para desenvolver IA em hardware nacional e reduzir a dependência de tecnologia estrangeira. "A DeepSeek funciona com esses chips imediatamente", disse Adina.
A empresa também tornou público o código-fonte completo e as ferramentas do modelo. Isso significa que qualquer pessoa pode baixar, executar, modificar ou desenvolver versões adicionais do V3.2-Exp. Essa iniciativa está alinhada com a estratégia de código aberto da DeepSeek, mas levanta outra questão: as patentes. Como o modelo é aberto e a ideia central, a atenção esparsa, existe desde 2015, a DeepSeek não pode protegê-lo legalmente.
“A abordagem não é exatamente nova”, disse Ekaterina. Para ela, a única parte defensável da tecnologia é como o DeepSeek escolhe o que manter e o que ignorar.
É aí que reside a verdadeira competição agora. Não apenas em criar modelos mais inteligentes, mas em torná-los mais rápidos, mais baratos e mais enxutos — sem comprometer os resultados. Até mesmo a DeepSeek chamou esta versão de "um passo intermediário rumo à nossa arquitetura de próxima geração", o que sugere que eles já estão trabalhando em algo maior.
Nick afirmou que o modelo demonstra que a eficiência é agora tão importante quanto a potência bruta. E Adina acredita que a empresa tem uma visão de longo prazo. "A DeepSeek está pensando a longo prazo para manter a comunidade engajada em seu progresso", disse ela. "As pessoas sempre optarão pelo que é barato, confiável e eficaz."
Foto de 