Das chinesische Unternehmen DeepSeek behauptet, sein Flaggschiff-KI-System R1 sei für lediglich 294.000 US-Dollar trainiert worden, was nur einen Bruchteil der Summen ausmacht, die US-amerikanische Konkurrenten mutmaßlich ausgegeben haben.
Die Details wurden diese Woche in einem Fachartikel in Nature veröffentlicht und dürften die Debatte über Pekings Ambitionen im globalen Wettlauf um künstliche Intelligenz weiter anheizen. Das in Hangzhou ansässige Unternehmen gab an, das auf logisches Denken ausgerichtete Modell sei mit 512 Nvidia H800-Chips trainiert worden. Diese Hardware wurde speziell für China entwickelt, nachdem die USA den Verkauf der leistungsstärkeren H100- und A100-Prozessoren verboten hatten.
Das Papier, an dem auch der Firmengründer Liang Wenfeng mitwirkte, ist das erste Mal, dass das Unternehmen solche Kosten offenlegt.
DeepSeek verwendet nur einen Bruchteil der Kosten US-amerikanischer Modelle
Im Januar destabilisierte die Veröffentlichung der günstigeren KI-Tools von DeepSeek die globalen Märkte und führte zu einem Ausverkauf von Technologieaktien aus Angst, diese könnten etablierte Giganten wie Nvidia und OpenAI.
Liang und sein Team haben sich jedoch seither weitgehend aus der Öffentlichkeit zurückgezogen und sind nur sporadisch mit Produktaktualisierungen in Erscheinung getreten.
Der kolportierte Preis von 294.000 US-Dollar steht in krassem Gegensatz zu den Schätzungen amerikanischer Firmen.
Der Geschäftsführer von OpenAI, Sam Altman, sagte 2023: „Das Training grundlegender Modelle kostet weit mehr als 100 Millionen Dollar.“ Er nannte jedoch keine genaue Aufschlüsselung.
Das Training großer Sprachmodelle erfordert den Betrieb leistungsstarker Chips über lange Zeiträume, wodurch enorme Mengen an Strom verbraucht werden, während Text und Code verarbeitet werden. Branchenbeobachter gehen seit Langem davon aus, dass die Kosten für solche Projekte in die zweistellige oder sogar dreistellige Millionenhöhe gehen.
Diese Annahme wird nun infrage gestellt, und in einem ergänzenden Dokument räumte DeepSeek ein, A100-Chips zu besitzen und diese in der frühen Entwicklungsphase eingesetzt zu haben, bevor das vollständige Training auf den H800-Cluster verlagert wurde. Laut dem Technologieunternehmen lief das Modell in der finalen Trainingsphase 80 Stunden lang.
Obwohl Nvidia beteuert, dass das chinesische Startup ausschließlich Zugriff auf ihre H800-Prozessoren hat, bleiben US-Beamte skeptisch. Vor einigen Monaten berichteten US-Quellen gegenüber Reuters , dass DeepSeek illegal große Mengen der H100-Chips besitze, für die Exportverbote nach China gelten.
Innovation unter die Lupe genommen
R1 hat nicht nur wegen seiner niedrigen Schulungskosten Aufmerksamkeit erregt, sondern auch, weil es möglicherweise das erste große Modell ist, das einer formalen Begutachtung durch Fachkollegen unterzogen wird.
„Das ist ein sehr begrüßenswerterdent, und wenn wir diese Norm des Teilens nicht haben, wird es sehr schwierig, Risiken einzuschätzen“, sagte Lewis Tunstall, ein Machine-Learning-Ingenieur bei Hugging Face, der den Nature-Artikel begutachtete.
Der Überprüfungsprozess veranlasste DeepSeek, technische Details zu präzisieren, unter anderem, wie das Modell trainiert wurde und welche Sicherheitsvorkehrungen getroffen wurden.
„Ein strenges Peer-Review-Verfahren trägt sicherlich dazu bei, die Gültigkeit und Nützlichkeit des Modells zu bestätigen“, sagte Huan Sun, KI-Forscher an der Ohio State University.
Der entscheidende Durchbruch von DeepSeek bestand in der Verwendung eines reinen Reinforcement-Learning-Ansatzes. Anstatt sich auf von Menschen erstellte Beispiele zu stützen, wurde das Modell laut der Veröffentlichung für korrekte Problemlösungen belohnt und entwickelte so nach und nach eigene Problemlösungsstrategien.
Das Unternehmen gibt an, dass dieses Trial-and-Error-System es R1 ermöglichte, seine Funktionsweise zu überprüfen, ohne menschliche Taktiken zu kopieren.
„Dieses Modell war sehr einflussreich“, fügte Sun hinzu. „Fast alle Arbeiten zum bestärkenden Lernen im Jahr 2025 dürften in der einen oder anderen Weise von R1 inspiriert worden sein.“
DeepSeek weist Kopiervorwürfe zurück
Kurz nach der Veröffentlichung von R1 kursierten Spekulationen, DeepSeek habe sich bei der Beschleunigung des Trainings auf Ergebnisse von Konkurrenten, insbesondere von OpenAI, gestützt; das Unternehmen hat diese Anschuldigung jedoch nun entschieden zurückgewiesen.
In der Korrespondenz mit den Gutachtern betonte DeepSeek, dass R1 keine von OpenAI generierten Schlussfolgerungsbeispiele kopiert habe. Wie die meisten großen Sprachmodelle wurde es jedoch mit Internettexten trainiert. Dies bedeutet, dass zwangsläufig auch einige KI-generierte Inhalte enthalten sind, und diese Erklärung hat einige Gutachter überzeugt.
„Ich kann nicht hundertprozentig sicher sein, dass R1 nicht mit OpenAI-Beispielen trainiert wurde. Replikationsversuche anderer Labore deuten jedoch darauf hin, dass Reinforcement Learning allein ausreichend gut ist“, sagte Tunstall.
DeepSeek zufolge wurde R1 speziell für rechenintensive Aufgaben wie Programmierung und Mathematik entwickeltmaticIm Gegensatz zu den meisten geschlossenen Systemen US-amerikanischer Firmen wurde es als offenes Modell veröffentlicht und steht Forschern zum freien Download zur Verfügung. Auf der KI-Community-Website Hugging Facewurde es bereits über 10 Millionen Mal heruntergeladen.
Das Unternehmen investierte rund 6 Millionen US-Dollar in die Entwicklung des Basismodells, auf dem R1 aufbaut. Selbst inklusive dieser Summe bleiben die Kosten jedoch deutlich unter denen der Konkurrenz. Für viele in der Branche macht dies R1trac.
Sun und Kollegen testeten das System kürzlich anhand von Aufgaben zur Auswertung wissenschaftlicher Daten und stellten fest, dass es zwar nicht das genaueste, aber hinsichtlich des Kosten-Nutzen-Verhältnisses eines der besten war.

