Mercoledì, il primo giorno dell'anno lunare in Cina, Alibaba ha annunciato una nuova versione del suo modello di intelligenza artificiale Qwen 2.5. L'azienda tecnologica cinese ha affermato che Qwen 2.5 ha superato l'acclamato DeepSeek-V3.
Alibaba ha pubblicato sul suo account WeChat ufficiale che Qwen 2.5-Max ha superato quasi tutti i modelli di intelligenza artificiale, inclusi GPT-40, DeepSeek-V3 e Llama-3.1-405B. La notizia dell'azienda è arrivata in seguito al lancio dell'assistente AI di DeepSeek (DeepSeek-V3) il 10 gennaio e al lancio del modello R1 il 20 gennaio.
La recente pubblicazione del modello R1 di DeepSeek ha causato un'onda d'urto nel crollo delle azioni delle aziende tecnologiche statunitensi, in particolare di Nvidia. DeepSeek ha affermato di aver creato il modello R1 con soli 6 miliardi di dollari, rispetto ai miliardi di dollari che altre aziende tecnologiche statunitensi spendono nel settore dell'intelligenza artificiale.
L'azienda tecnologica ha anche generato un certo slancio nel proprio mercato interno, con altre aziende tecnologiche cinesi che si sono affrettate a rilasciare aggiornamenti per i loro modelli di intelligenza artificiale. Un rapporto di Reuters ha rivelato che due giorni dopo il rilascio di DeepSeek-R1, anche ByteDance ha rilasciato un aggiornamento del suo modello di intelligenza artificiale di punta. La società madre di TikTok ha sostenuto che il modello supera o1 di OpenAI, supportato da Microsoft, nei test che misurano la capacità dei modelli di intelligenza artificiale di comprendere e rispondere a istruzioni complesse.
Alibaba rilascia la nuova versione del modello AI Qwen2.5
L'esplosione di DeepSeek V3 ha attirato trac attenzione dell'intera comunità dell'intelligenza artificiale sui modelli MoE su larga scala. Contemporaneamente, abbiamo sviluppato Qwen2.5-Max, un grande LLM MoE pre-addestrato su dati massivi e post-addestrato con ricette SFT e RLHF curate. Raggiunge risultati competitivi... pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) 28 gennaio 2025
L'azienda tecnologica cinese ha annunciato lunedì che il nuovo modello di intelligenza artificiale, Qwen2.5-VL, è in grado di eseguire diverse attività di analisi di testo e immagini. L'azienda ha anche affermato che Qwen2.5 è simile al modello alla base del software Operator lanciato di recente da OpenAI. Il modello di intelligenza artificiale è in grado di comprendere video, analizzare file e contare oggetti nelle immagini, oltre a controllare un PC.
Secondo i test di benchmark condotti dal team Qwen, il modello Qwen2.5-VL supera GPT-40 di OpenAI, Claude 3.5 sonnet di Anthropic e Gemini 2.0 Flash di Google. Il nuovo modello di intelligenza artificiale potrebbe superare i suoi rivali nella comprensione di video, nella matematica, nell'analisi di documenti e nella valutazione di domande e risposte.
Alibaba ha confermato che Qwen2.5-VL era disponibile per i test nella sua app Qwen Chat e per il download dalla piattaforma di sviluppo AI Hugging Face. Il team di Qwen ha affermato che il modello AI può analizzare grafici e diagrammi,tracdati da scansioni di fatture e moduli e "comprendere" video della durata di diverse ore. Il modello AI può anche riconoscere IP da film e serie TV, nonché da un'ampia varietà di prodotti.
Il team di Qwen ha rivelato che il modello presentava alcune restrizioni sugli argomenti di cui poteva discutere in Qwen Chat, poiché l'IA era stata sviluppata da un'azienda cinese. Secondo il team, l'autorità di regolamentazione cinese per internet valuta molti modelli sviluppati nel Paese per garantire che le loro risposte "incarnino i valori socialisti fondamentali". Diverse aziende cinesi di IA, come Ernie , evitano inoltre di rispondere ad argomenti che potrebbero suscitare l'ira delle autorità di regolamentazione o che potrebbero essere considerati troppo sensibili.
Il team di Qwen svela le capacità di Qwen2.5-VL
Il team di sviluppo di Qwen2.5-VL ha rivelato che una delle caratteristiche più interessanti del modello di intelligenza artificiale è la sua capacità di interagire con il software, sia su PC che su dispositivi mobili. Philipp Schmid, responsabile tecnico di Hugging Face, ha mostrato il modello di intelligenza artificiale mentre avviava l'app Booking.com per Android e prenotava un volo da Chongqing a Pechino.
"Nonostante tutto il clamore suscitato da DeepSeek, Qwenn ha appena lanciato il miglior Multimodale aperto! Qwen 2.5 VL è un modello di linguaggio di visione in grado di controllare il tuo computer, simile all'operatore OpenAI,tracinformazioni strutturate dai grafici e molto altro ancora!!"
– Philipp Schmid , responsabile tecnico di Hugging Face
Vaibhav Srivastav, data scientist di Hugging Face, ha mostrato come il modello Qwen2.5-VL controlli le app su un desktop Linux, ma non riesca a fare molto oltre al semplice passaggio da una scheda all'altra. La dimostrazione era in linea con il benchmark di Qwen, che ha mostrato un punteggio basso per Qwen2.5-VL su OSWorld, un benchmark che cerca di imitare un ambiente informatico reale.
L'azienda cinese di tecnologia AI ha anche rivelato che i due modelli più piccoli e meno sofisticati della serie Qwen2.5VL, Qwen2.5-VL-3B e Qwen2.5-VL-7B, erano disponibili con licenze permissive. Il modello di punta Qwen2.5-VL-7B continuerà a essere sotto la licenza personalizzata di Alibaba, che richiede alle aziende e agli sviluppatori con oltre 100 milioni di utenti attivi al mese di richiedere l'autorizzazione a Qwen o Alibaba prima di distribuire commercialmente il modello di AI.

