O Ant Group revelou que desenvolveu novas técnicas para o treinamento de modelos de inteligência artificial, utilizando semicondutores fabricados em chinês de Alibaba e Huawei. Os modelos de treinamento de IA usam a abordagem de aprendizado de máquina de especialistas (MOE) para obter resultados semelhantes aos dos chips H800 da NVIDIA a um custo mais barato em pelo menos 20%.
O grupo Ant afirmou que ainda estava usando a NVIDIA para o desenvolvimento da IA, mas agora confia principalmente em alternativas, incluindo o Advanced Micro Devices Inc. e chips chineses, para seus modelos mais recentes. A empresa divulgou que custou cerca de 6,35 milhões de yuans (aproximadamente US $ 880 mil) para treinar os tokens 1T usando hardware de alto desempenho, mas sua abordagem otimizada reduziria esse custo para 5,1 milhões de yuan usando hardware de menor especificação.
Analista sênior da Bloomberg Intelligence Robert Lea disse que a reivindicação do Ant Group, se confirmada, destacou que a China estava bem a caminho de se tornar auto-suficiente na IA, enquanto o país se voltou para modelos de baixo custo e computacionalmente eficientes, para trabalhar em torno dos controles de exportação nos chips da NVIDIA. O CEO da NVIDIA, Jensen Huang, argumentou que a demanda de computação crescerá mesmo com o aumento de modelos mais eficientes, como o Deepseek, da R1, postulando que as empresas precisarão de melhores chips para gerar mais receita, e não mais baratos para reduzir custos.
Grupo de formigas Apresenta chips fabricados na China para sua mais recente inovação de IA
Jack Ma Mações de Antções A IA Breakthrough construído em chips chineses https://t.co/lups085kpb via @business
- Yahoo Finance (@yahoofinance) 24 de março de 2025
A Ant Group Co. usou chips de Alibaba e Huawei para desenvolver técnicas com base na abordagem MOE para treinar modelos de IA que reduziriam os custos em 20%, de acordo com a Minmin Low (no 'The China Show' ). Low explicou que o uso da abordagem MOE divulgou tarefas em conjuntos de dados menores para torná -lo mais eficiente, 'semelhante ao emprego de uma equipe de especialistas, cada um focando em uma parte específica do problema para melhorar a eficiência geral'.

De acordo com a Bloomberg, os modelos de treinamento da IA marcaram a entrada de Ant em uma corrida entre empresas chinesas e americanas que aceleraram desde que Deepseek demonstrou como os modelos capazes poderiam ser treinados para muito menos do que os bilhões investidos pelo Openai e pela Alphabet Inc. o Google. A mais recente inovação de IA do Ant Group enfatizou como as empresas chinesas estavam tentando usar alternativas locais aos chips NVIDIA H800 mais avançados atualmente barrados pelos EUA da China.
"Se você encontrar um ponto de ataque para vencer o melhor mestre de Kung Fu do mundo, ainda pode dizer que os venceu, e é por isso que o aplicativo do mundo real é importante". - Robin Yu , diretor de tecnologia da Shengshang Tech Co.
O Ant Group publicou um artigo de pesquisa este mês que afirmava que seus modelos às vezes superavam a Meta Plataforms Inc. em certos benchmarks não verificados. Se os modelos funcionarem conforme anunciado, as plataformas da Ant poderiam marcar outro passo adiante para o desenvolvimento da IA chinesa.
Moe AI O treinamento ganha reconhecimento por seu uso pelo Google e Deepseek
A Bloomberg relatou que os modelos de treinamento da MoE AI eram uma opção popular que ganhou reconhecimento por seu uso da startseek da startseek do Google e Hangzhou. A Ant planeja alavancar a recente inovação nos grandes modelos de idiomas (Ling-plus e Ling-Lite) que se desenvolveu para soluções de IA industriais, incluindo assistência médica e finanças.
Ant disse em seu trabalho de pesquisa que o modelo Ling-Lite se saiu melhor em uma referência importante em comparação com um dos modelos de lhama da Meta. Os modelos Ling-Lite e Ling-plus superaram os equivalentes da Deepseek em benchmarks em língua chinesa. O Ling-Lite contém 16,8 bilhões de parâmetros, que são configurações ajustáveis que funcionam como botões e mostradores para direcionar o desempenho do modelo. O Ling-plus possui 290 bilhões de parâmetros, o que é considerado relativamente grande no domínio dos modelos de linguagem. Para comparação, a revisão de tecnologia do MIT estimou que o GPT-4.5 da ChatGPT tinha 1,8 trilhão de parâmetros, enquanto o Deepseek-R1 tinha 671 bilhões.
A Ant também divulgou que enfrentou desafios em algumas áreas do treinamento de IA, incluindo estabilidade. Mesmo pequenas mudanças no hardware ou na estrutura do modelo de treinamento de IA levaram a problemas, incluindo saltos na taxa de erro dos modelos.
Academia Cryptopolitan: Cansado de balanços de mercado? Saiba como DeFi pode ajudá -lo a criar renda passiva constante. Registre -se agora