Die neuen Blackwell-Chips von Nvidia verändern die Geschwindigkeit, mit der Systeme der künstlichen Intelligenz trainiert werden können.
In der neuesten Runde von Benchmark-Ergebnissen, die am Mittwoch von MLCommons, einer gemeinnützigen Organisation, die die Leistungsfähigkeit von KI-Chips trac , veröffentlicht wurden, erzielte die von Nvidia programmierte Blackwell-Architektur Rekorde.
Im Test mit Metas Open-Source-Modell Llama 3.1 405B, einem der größten und komplexesten KI-Modelle, war das Training mit Blackwell-Chips in nur 27 Minuten . Dafür wurden lediglich 2.496 Blackwell-GPUs benötigt – eine Größenordnung weniger als mit Nvidias vorherigen Hopper-Chips.
Im Gegensatz dazu benötigten frühere Designs mehr als dreimal so viele Hopper-GPUs, um die gleiche Leistung zu erzielen. Pro Chip war Blackwell mehr als doppelt so schnell, was einen enormen Sprung in der Konvergenzeffizienz bedeutete. Ein solcher Leistungsschub könnte für Unternehmen, die Modelle mit Billionen von Parametern trainieren, erhebliche Zeit- und Kosteneinsparungen bedeuten.
Diese Ergebnisse gelten als die ersten MLCommons- Benchmarks für das Training von Modellen in diesen extremen Größenordnungen und liefern eine realweltliche Messung dafür, wie gut Chips die anspruchsvollsten KI-Workloads bewältigen.
CoreWeave und Nvidia treiben intelligentere KI-Skalierung voran
Die Ergebnisse waren nicht nur ein Erfolg für Nvidia, sondern unterstrichen auch die Arbeit von CoreWeave, einem Cloud-Infrastrukturunternehmen, das an den Tests beteiligt war. In einer Pressekonferenz wies Chetan Kapoor, Chief Product Officer von CoreWeave, auf eine allgemeine Entwicklung hin, die in der Branche zunehmend an Bedeutung gewinnt: weg von großen, homogenen Blöcken mit Zehntausenden von GPUs.
Anstatt ein einziges, massives, monolithisches Computersystem aufzubauen, setzen Unternehmen jetzt auf kleinere, miteinander verbundene Teilmengen, die das Training massiver Modelle effizienter und mit besserer Skalierbarkeit bewältigen können.
Kapoor sagte, dass Entwickler mit einer solchen Technik die Zeit, die zum Trainieren extrem großer Modelle mit Billionen von Parametern benötigt wird, weiter verkürzen oder sogar noch verlängern können.
Der Übergang zu einem modularen Hardware-Einsatz ist auch deshalb notwendig, weil Größe und Komplexität von KI-Modellen stetig zunehmen.
Blackwell sieht Nvidia an der Spitze beim Training von KI-Modellen
Obwohl der Fokus in letzter Zeit auf KI-Inferenz verlagert wurde, bei der Modelle wie ChatGPT-1 Benutzerfragen in Echtzeit beantworten, ist das Training nach wie vor das Arbeitspferd der KI-Entwicklung.
Die Trainingsphase verleiht diesen Modellen ihre Intelligenz und ermöglicht es ihnen, Sprache zu verstehen, einige unserer komplexesten Probleme zu lösen und sogar menschenähnliche Texte zu verfassen. Die Berechnungen sind äußerst aufwendig und erfordern Tausende von Hochleistungschips, die über lange Zeiträume, typischerweise Tage, wenn nicht Wochen oder Monate, betrieben werden müssen.
Mit Nvidias Blackwell-Architektur . Durch die radikale Reduzierung der Chipanzahl und der Trainingszeit für gigantische KI-Modelle verschaffen Blackwell-Chips Nvidia einen Wettbewerbsvorteil in einem Markt, in dem Geschwindigkeit und Effizienz entscheidend sind.
Das Training von Modellen wie Meta's Llama 3.1 405B, das Billionen von Parametern umfasst, musste bisher auf riesigen GPU-Clustern durchgeführt werden und war ein teurer und energieintensiver Prozess.
Solche Leistungssteigerungen sind ein bedeutender Vorteil in einer Zeit, in der in vielen Branchen – von Gesundheitswesen und Finanzen bis hin zu Bildung und autonomen Fahrzeugen – eine enorme Nachfrage nach immer größeren und leistungsfähigeren KI-Modellen besteht.
Das sendet auch ein klares Signal an Nvidias Konkurrenten. Chiphersteller wie AMD und Intel, die an ihren KI-spezifischen Chips arbeiten, stehen nun unter größerem Druck, ein ähnliches Tempo beizubehalten.
AMD reichte zwar Daten für den MLCommons-Benchmark-Test ein, präsentierte aber keine Ergebnisse für ein so großes Modell wie den Llamas 3.1 405B. Nvidia war der einzige Hersteller, der im oberen Bereich des Benchmarks testete und damit seine überlegene Hardware unter Beweis stellte und sich den größten Herausforderungen stellte.

