Gerüchten zufolge soll DeepSeek V4 ChatGPT und Claude bei der Programmierung langer Kontexte übertreffen und sich damit auf anspruchsvolle Programmieraufgaben konzentrieren. Branchenkenner behaupten, dass die KI-Branche im Silicon Valley besorgt sein sollte, falls interne Tests nach der Markteinführung Mitte Februar die erwartete Leistung bestätigen.
Das chinesische KI-Start-up DeepSeek plant Berichten zufolge die Veröffentlichung von DeepSeek V4, seinem neuesten großen Sprachmodell, am 17. Februar. Insider behaupten, dass das Modell bestehende große Sprachmodelle wie ChatGPT von OpenAI und Claude von Anthropic bei der Verarbeitung von Code-Aufgaben und -Prompts mit langem Kontext in den Schatten stellen dürfte.
Die Entwickler äußern große Vorfreude auf die Veröffentlichung von DeepSeek V4
Das chinesische Unternehmen hat zum jetzigen Zeitpunkt weder Informationen über die bevorstehende Veröffentlichung bekannt gegeben noch die Gerüchte bestätigt. Entwickler in verschiedenen sozialen Netzwerken äußerten ihre große Vorfreude auf die Veröffentlichung. Yuchen Jin, KI-Entwickler und Mitbegründer von Hyperbolic Labs, schrieb auf X: „Es wird gemunkelt, dass DeepSeek V4 bald erscheint und einetronProgrammierung als Claude und GPT bietet.“
Auch im Subreddit r/DeepSeek angeheizt . Ein Nutzer erklärte, seine Besessenheit vom bevorstehenden V4-Modell von DeepSeek sei nicht normal. Er gab an, ständig „Nachrichten und Gerüchte zu verfolgen und sogar die Dokumentation auf der DS-Website zu lesen, um nach Änderungen oder Hinweisen auf ein Update zu suchen.“
Die bisherigen Veröffentlichungen von DeepSeek hatten einen erheblichen Einfluss auf die globalen Märkte. Das chinesische KI-Start-up brachte im Januar 2025 sein R1-Modell für logisches Denken auf den Markt, was zu einem Kursanstieg im Billionen-Dollar-Bereich führte. Das Modell erreichte in Mathematik- und Logik-Benchmarks die gleichen Ergebnisse wie das 01-Modell von OpenAI, obwohl es deutlich weniger kostete als das 01-Modell des US-amerikanischen KI-Start-ups.
Das chinesische Unternehmen gab Berichten zufolge nur 6 Millionen US-Dollar für die Markteinführung des Modells aus. Globale Wettbewerber investieren hingegen fast 70 Mal so viel für die gleiche Leistung. Das V3-Modell erzielte im MATH-500-Benchmark 90,2 %, verglichen mit 78,3 % beim Vorgängermodell Claude. DeepSeeks jüngstes V3-Upgrade (V3.2 Speciale) steigerte die Produktivität zusätzlich.
Das Verkaufsargument des V4-Modells hat sich aus dem Fokus des V3 auf reines Schlussfolgern, formale Beweise und logische Mathematik entwickelt. Die neue Version wird voraussichtlich ein Hybridmodell sein, das sowohl logische als auch nicht-logische Aufgaben kombiniert. Das Modell zielt darauf ab, den Entwicklermarkt zu erobern, indem es eine bestehende Lücke schließt, die hohe Genauigkeit und die Generierung von Code für lange Kontexte erfordert.
Claude Opus 4.5 dominiert derzeit den SWE-Benchmark mit einer Genauigkeit von 80,9 %. Die Version 4 muss diesen Wert übertreffen, um Claude Opus 4.5 vom Thron zu stoßen. Aufgrund bisheriger Erfolge könnte das neue Modell diese Schwelle überschreiten und die Spitzenposition im Benchmark erobern.
DeepSeek ist Vorreiter im Bereich mHC für die Ausbildung von LLM-Absolventen
Der Erfolg von DeepSeek hat viele Fachleute verblüfft. Wie konnte ein so kleines Unternehmen solche Meilensteine erreichen? Das Geheimnis könnte in der veröffentlichten . Das Unternehmendenteine neue Trainingsmethode, die es Entwicklern ermöglicht, große Sprachmodelle problemlos zu skalieren. Liang Wenfeng, Gründer und CEO von DeepSeek, schrieb in der Studie, dass das Unternehmen Manifold-Constrained Hyper-Connections (mHC) zum Trainieren seiner KI-Modelle verwendet.
Der Manager schlug vor, mHC einzusetzen, um die Probleme zu lösen, die beim Training großer Sprachmodelle auftreten. Laut Wenfeng ist mHC eine Weiterentwicklung von Hyper-Connections (HC), einem Framework, das auch von anderen KI-Entwicklern zum Training ihrer großen Sprachmodelle verwendet wird. Er erklärte, dass HC und andere traditionelle KI-Architekturen alle Daten über einen einzigen, schmalen Kanal leiten. mHC hingegen erweitert diesen Datenpfad auf mehrere Kanäle und ermöglicht so den Datenaustausch, ohne dass es zu einem Zusammenbruch des Trainings kommt.
Lian Jye Su, Chefanalystin bei Omdia, lobte CEO Wenfeng für die Veröffentlichung der Forschungsergebnisse. Su betonte, dass DeepSeeks Entscheidung, die Trainingsmethoden offenzulegen, das Vertrauen in den chinesischen KI-Sektor stärkt. DeepSeek dominiert den Markt in Entwicklungsländern. Microsoft veröffentlichte am Donnerstag einen Bericht, demzufolge DeepSeek 89 % des chinesischen KI-Marktes beherrscht und in Entwicklungsländern weiter an Bedeutung gewinnt.

