Alibaba hat am Mittwoch, dem ersten Tag des chinesischen Mondjahres, eine neue Version seines KI-Modells Qwen 2.5 vorgestellt. Das chinesische Technologieunternehmen argumentierte, dass Qwen 2.5 das hochgelobte DeepSeek-V3 übertreffe.
Alibaba gab auf seinem offiziellen WeChat-Account bekannt, dass Qwen 2.5-Max fast alle KI-Modelle, darunter GPT-40, DeepSeek-V3 und Llama-3.1-405B, übertroffen hat. Die Meldung des Unternehmens erfolgte kurz nach der Veröffentlichung des KI-Assistenten DeepSeek (DeepSeek-V3) am 10. Januar und des Modells R1 am 20. Januar.
Die kürzliche Veröffentlichung des R1-Modells von DeepSeek löste einen Schock bei den Aktienkursen US-amerikanischer Technologieunternehmen aus, insbesondere bei Nvidia. DeepSeek behauptete, das R1-Modell mit lediglich 6 Milliarden US-Dollar entwickelt zu haben, verglichen mit den Milliarden von Dollar, die andere US-amerikanische Technologiekonzerne in den KI-Bereich investieren.
Das Technologieunternehmen sorgte auch auf dem heimischen Markt für Aufsehen, da andere chinesische Tech-Firmen in Windeseile Updates ihrer KI-Modelle veröffentlichten. Einem Bericht von Reuters zufolge brachte ByteDance zwei Tage nach der Veröffentlichung von DeepSeek-R1 ebenfalls ein Update seines Flaggschiff-KI-Modells heraus. Der TikTok-Mutterkonzern argumentierte, dass sein neues Modell das von Microsoft unterstützte OpenAI-Modell o1 in Tests übertreffe, die messen, wie gut KI-Modelle komplexe Anweisungen verstehen und darauf reagieren.
Alibaba veröffentlicht seine neue Version des KI-Modells Qwen2.5
Der Erfolg von DeepSeek V3 hat trac . Parallel dazu haben wir Qwen2.5-Max entwickelt, ein großes MoE-LLM, das mit umfangreichen Daten vortrainiert und anschließend mit ausgewählten SFT- und RLHF-Rezepten nachtrainiert wurde. Es erzielt wettbewerbsfähige Ergebnisse… pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) 28. Januar 2025
Das chinesische Technologieunternehmen gab am Montag bekannt, dass sein neues KI-Modell Qwen2.5-VL zahlreiche Text- und Bildanalyseaufgaben ausführen kann. Laut Unternehmen ähnelt Qwen2.5 dem Modell, das hinter dem kürzlich von OpenAI veröffentlichten Operator steckt. Das KI-Modell kann Videos verstehen, Dateien analysieren, Objekte in Bildern zählen und sogar einen PC steuern.
Laut Benchmark-Tests des Qwen-Teams übertrifft OpenAIs GPT-40, Anthropics Claude 3.5 Sonnet und Googles Gemini 2.0 Flash. Das neue KI-Modell könnte seine Konkurrenten in den Bereichen Videoanalyse, Mathematik, Dokumentenanalyse und Frage-Antwort-Bewertung schlagen.
Alibaba bestätigte, dass Qwen2.5-VL in der Qwen Chat-App getestet und von der KI-Entwicklungsplattform Hugging Face heruntergeladen werden kann. Das Qwen-Team gab an, dass das KI-Modell Diagramme und Grafiken analysieren, Daten aus Scans von Rechnungen und Formularentracund mehrstündige Videos verstehen kann. Es erkennt außerdem IPs aus Filmen und Fernsehserien sowie eine Vielzahl von Produkten.
Das Qwen-Team gab bekannt, dass das Modell aufgrund seiner chinesischen Herkunft bestimmte Themenbeschränkungen im Qwen-Chat aufweist. Laut dem Team prüft die chinesische Internetaufsichtsbehörde viele im Land entwickelte Modelle, um sicherzustellen, dass deren Antworten „zentrale sozialistische Werte widerspiegeln“. Mehrere chinesische KI-Unternehmen, wie beispielsweise Ernie , vermeiden zudem Antworten auf Themen, die den Unmut der Aufsichtsbehörden erregen oder als zu heikel eingestuft werden könnten.
Das Team von Qwen enthüllt die Fähigkeiten von Qwen2.5-VL
Das Entwicklerteam von Qwen2.5-VL gab bekannt, dass eine der interessantesten Eigenschaften des KI-Modells seine Fähigkeit ist, mit Software auf PCs und Mobilgeräten zu interagieren. Philipp Schmid, technischer Leiter bei Hugging Face, demonstrierte, wie das KI-Modell die Booking.com-App für Android startete und einen Flug von Chongqing nach Peking buchte.
„Trotz des ganzen Hypes um DeepSeek hat Qwenn gerade das beste offene multimodale Modell veröffentlicht! Qwenn 2.5 VL ist ein Bildverarbeitungs- und Sprachmodell, das Ihren Computer ähnlich wie der OpenAI-Operator steuern, strukturierte Informationen aus Diagrammentracund vieles mehr kann!“
– Philipp Schmid , Technischer Leiter bei Hugging Face
Vaibhav Srivastav, Datenwissenschaftler bei Hugging Face, demonstrierte, wie das Qwen2.5-VL-Modell Anwendungen auf einem Linux-Desktop steuert, aber über das Wechseln von Tabs hinaus kaum etwas leisten kann. Die Demonstration deckte sich mit den Benchmark-Ergebnissen von Qwen, die zeigten, dass Qwen2.5-VL bei OSWorld, einem Benchmark, der eine reale Computerumgebung simuliert, schlecht abschnitt.
Das chinesische KI-Technologieunternehmen gab außerdem bekannt, dass die beiden kleineren, weniger komplexen Modelle der Qwen2.5VL-Serie, Qwen2.5-VL-3B und Qwen2.5-VL-7B, unter freizügigen Lizenzen erhältlich sind. Das Flaggschiffmodell Qwen2.5-VL-7B unterliegt weiterhin der Alibaba-eigenen Lizenz, die vorschreibt, dass Unternehmen und Entwickler mit mehr als 100 Millionen monatlich aktiven Nutzern vor dem kommerziellen Einsatz des KI-Modells eine Genehmigung von Qwen oder Alibaba einholen müssen.

