Elon Musk hat offiziell den Beginn des Trainings von GROK 3 im Supercomputerzentrum in Memphis bekannt gegeben, das mit NVIDIAs H100-GPUs der aktuellen Generation ausgestattet ist. Das Zentrum, das Musk als „leistungsstärksten KI-Trainingscluster der Welt“ bezeichnet, nahm am Montag mit 100.000 flüssigkeitsgekühlten H100-GPUs auf einem einzigen RDMA-Fabric seinen Betrieb auf.
Das Training war für 4:20 Uhr Ortszeit in Memphis angesetzt. In einem anschließenden Tweet erklärte Musk, dass die weltweit fortschrittlichste KI bis Dezember dieses Jahres entwickelt werden könnte. Musk twitterte außerdem über den Erfolg auf X und gratulierte den Teams von xAI, X und NVIDIA zu ihrer hervorragenden Arbeit.
Großartige Leistung des @xAI- Teams, des @X- Teams, von @Nvidia und der beteiligten Unternehmen, die das Training des Memphis Superclusters gegen 4:20 Uhr Ortszeit gestartet haben.
— Elon Musk (@elonmusk) 22. Juli 2024
Mit 100.000 flüssigkeitsgekühlten H100-Prozessoren auf einem einzigen RDMA-Fabric ist er der leistungsstärkste KI-Trainingscluster der Welt!
xAI ändert seine Strategie und kündigt den Oracle-Serververtrag
Die Ankündigung erfolgt im Anschluss an die kürzliche Stornierung eines 10-Milliarden-Dollar-Serverdeals zwischen xAI und Oracle. Musk gab bekannt, dass die xAI Gigafactory of Compute, deren Inbetriebnahme ursprünglich für Herbst 2025 geplant war, ihren Betrieb vorzeitig aufgenommen hat.
xAI hatte seine KI-Chips zuvor von Oracle bezogen, sich dann aber dazu entschlossen, die Zusammenarbeit zu beenden, um einen eigenen, hochentwickelten Supercomputer zu entwickeln. Das Projekt plant nun, das Potenzial der hochmodernen H100-GPUs auszuschöpfen, die jeweils rund 30.000 US-Dollar kosten. GROK 2 nutzte 20.000 GPUs, und GROK 3 benötigte fünfmal so viele GPUs, um einen komplexeren KI-Chatbot zu entwickeln.
Lesen Sie auch: Elon Musk holt öffentliche Meinung zu 5 Milliarden Dollar Investition in xKI für Tesla ein.
Dies ist durchaus überraschend, insbesondere da NVIDIA erst kürzlich die Veröffentlichung der H200-GPUs angekündigt hat, die auf der Hopper-Architektur basieren. Die Entscheidung, mit H100-GPUs zu beginnen, anstatt auf die H200 oder die kommenden Blackwell-basierten B100- und B200-GPUs zu warten, ist daher verständlich. Die H200-GPUs, deren Massenproduktion im zweiten Quartal anlief, versprechen deutliche Leistungssteigerungen, doch xAI konzentriert sich aktuell darauf, die bestehende H100-Infrastruktur optimal zu nutzen, um seine ambitionierten Ziele zu erreichen.
Analyst hinterfragt Stromversorgung des Memphis-Superclusters
Dylan Patel, ein Experte für KI und Halbleiter, äußerte zunächst Bedenken hinsichtlich der Stromversorgung des Memphis Superclusters. Er wies darauf hin, dass die derzeitige Netzversorgung von 7 Megawatt nur etwa 4.000 GPUs versorgen kann. Die Tennessee Valley Authority (TVA) wird voraussichtlich 50 MW an die Anlage liefern; ein entsprechender Vertrag soll bis zum 1. August unterzeichnet werden. Das Umspannwerk, das zur Deckung des gesamten Strombedarfs benötigt wird, wird jedoch erst Ende 2024 fertiggestellt sein.
Ich verneige mich vor Elon, er ist einfach verdammt gut. Tweet gelöscht.
— Dylan Patel @ ICML (@dylan522p) 23. Juli 2024
Ja, aktuell nur 8 MW aus dem Netz, 50 MW ab dem 1. August, sobald der TVA-Vertrag unterzeichnet ist. 200 MW bis Jahresende, benötigt werden nur 155 MW für 100.000 GPUs, aber
32.000 sind bereits online und der Rest folgt im vierten Quartal.
Drei Monate mit 100.000 H100-GPUs werden sie ähnlich wie den aktuellen GPT-5-Lauf bringen. pic.twitter.com/NQp3M5ruu8
Bei der Analyse von Satellitenbildern stellte Patel fest, dass Musk 14 mobile VoltaGrid-Generatoren einsetzt, die jeweils 2,5 Megawatt Leistung erbringen. Zusammen erzeugen diese Generatoren 35 Megawatt Strom. Zusammen mit den 8 MW aus dem Stromnetz ergibt das eine Gesamtleistung von 43 MW, genug, um – mit einer gewissen Leistungsbegrenzung – etwa 32.000 H100-GPUs zu betreiben.

