Elon Musk hat offiziell den Beginn des GROK 3-Trainings in der Supercomputeranlage in Memphis angekündigt, die mit NVIDIAs H100-GPUs der aktuellen Generation ausgestattet ist. Die Anlage, die Musk als „das leistungsstärkste KI-Trainingscluster der Welt“ bezeichnet, nahm am Montag mit Hilfe von 100.000 flüssigkeitsgekühlten H100-GPUs auf einer einzigen RDMA-Struktur ihren Betrieb auf.
Das Training war für 4:20 Uhr Ortszeit in Memphis geplant. In seinem anschließenden Tweet erklärte Musk, dass die „fortschrittlichste KI“ der Welt bis Dezember dieses Jahres entwickelt werden könnte. Musk twitterte auch über den Erfolg auf X und gratulierte den Teams von xAI, X und NVIDIA für ihre hervorragende Arbeit.
xAI ändert seine Strategie und kündigt den Oracle-Serververtrag
Die Ankündigung erfolgt im Zuge der kürzlichen Kündigung eines 10-Milliarden-Dollar-Serververtrags zwischen xAI und Oracle. Musk gab an, dass die xAI Gigafactory of Compute, die ursprünglich im Herbst 2025 betriebsbereit sein sollte, den Betrieb früher als geplant aufgenommen hat.
xAI hatte seine KI-Chips zuvor von Oracle ausgelagert, entschied sich jedoch, sich zurückzuziehen, um einen eigenen fortschrittlichen Supercomputer zu entwickeln. Das Projekt plant nun, das Potenzial der hochmodernen H100-GPUs zu nutzen, die jeweils etwa 30.000 US-Dollar kosten. GROK 2 verwendete 20.000 GPUs und GROK 3 benötigte fünfmal so viele GPUs, um einen ausgefeilteren KI-Chatbot zu erstellen.
Lesen Sie auch: Elon Musk bittet um öffentliche Meinung zu 5-Milliarden-Dollar-XAI-Investitionen für Tesla
Dies ist durchaus überraschend, insbesondere weil NVIDIA erst kürzlich die bevorstehende Veröffentlichung der H200-GPUs angekündigt hat, die auf der Hopper-Architektur basieren. Die Entscheidung, das Training mit H100-GPUs zu beginnen, anstatt auf den H200 oder die kommenden Blackwell-basierten B100- und B200-GPUs zu warten. Die H200-GPUs, die im zweiten Quartal in die Massenproduktion gingen, versprechen deutliche Leistungssteigerungen, doch der unmittelbare Fokus von xAI liegt auf der Nutzung der bestehenden H100-Infrastruktur, um seine ehrgeizigen Ziele zu erreichen.
Analyst stellt Stromversorgung für Memphis Supercluster in Frage
Dylan Patel, ein Experte für KI und Halbleiter, äußerte zunächst Bedenken hinsichtlich der Energieversorgung beim Betrieb des Memphis Superclusters. Er wies darauf hin, dass die derzeitige Netzversorgung von 7 Megawatt nur etwa 4.000 GPUs versorgen kann. Die Tennessee Valley Authority (TVA) wird voraussichtlich 50 MW für die Anlage liefern. Der Vertrag soll bis zum 1. August unterzeichnet werden. Allerdings wird das Umspannwerk, das zur Deckung des gesamten Strombedarfs benötigt wird, erst Ende 2024 fertiggestellt.
Bei der Analyse von Satellitenbildern stellte Patel fest, dass Musk 14 mobile VoltaGrid-Generatoren eingesetzt hat, die jeweils 2,5 Megawatt liefern können. Insgesamt produzieren diese Generatoren 35 Megawatt Strom. Zusätzlich zu den 8 MW aus dem Netz sind es insgesamt 43 MW, was ausreicht, um etwa 32.000 H100-GPUs mit etwas Leistungsbegrenzung zu versorgen.