Laut Musk ist xAI Colossus das leistungsstärkste KI-Trainingssystem aller Zeiten

Elon Musk hat wieder einmal Schlagzeilen gemacht, indem er der Welt einen Blick auf Cortex gewährte, den KI-Trainings-Supercomputer von X, der derzeit bei Teslas Giga-Werk in Texas. In einem Video, das sowohl Ehrfurcht gebietend als auch surreal ist, zeigte Musk, wie coole 1 Milliarde Dollar an KI-GPUs tatsächlich aussehen. Aber als ob das nicht schon genug wäre, um Technikbegeisterten die Kinnlade herunterfallen zu lassen, enthüllte Musk kürzlich auf seiner Plattform X, dass der wahre Showstopper – Colossus, ein 100.000 H100-Trainingscluster – offiziell online gegangen ist.

Was genau sind KI-Cluster?

Ein KI-Cluster ist ein riesiges Gehirn, das aus Tausenden von Computern besteht, die zusammenarbeiten, um riesige Informationsmengen in blitzschneller Geschwindigkeit zu verarbeiten. Anstelle eines einzelnen Computers verwenden Cluster wie Colossus Tausende spezialisierter Maschinen, die jeweils mit leistungsstarken Chips (GPUs) ausgestattet sind, die für die unglaublich komplexen Berechnungen ausgelegt sind, die für künstliche Intelligenz erforderlich sind.

Diese Cluster trainieren KI-Modelle, indem sie ihnen riesige Datenmengen zuführen. Man kann es sich so vorstellen, als würden Sie einem Schüler Tausende von Büchern zum Lesen in kurzer Zeit geben.

Alle Details zu xAIs Colossus

Musk hielt sich mit Prahlerei nicht zurück und behauptete, Colossus sei „das leistungsstärkste KI-Trainingssystem der Welt“. Noch beeindruckender ist die Tatsache, dass dieses Mammutprojekt in nur 122 Tagen „von Anfang bis Ende“ gebaut wurde.

Angesichts des Umfangs und der Komplexität ist das keine Kleinigkeit. Die Server für den xAI-Cluster wurden von Dell und Supermicro bereitgestellt. Obwohl Musk keine genauen Zahlen nannte, belaufen sich die Kosten Schätzungen zufolge auf unglaubliche 3 bis 4 Milliarden Dollar.

Dieses Wochenende, der @xAI Team hat unseren Colossus 100k H100-Trainingscluster online gebracht. Von Anfang bis Ende dauerte es 122 Tage.

Colossus ist das leistungsstärkste KI-Trainingssystem der Welt. Darüber hinaus wird es seine Größe in wenigen Monaten auf 200.000 (50.000 H200) verdoppeln.

Exzellent…

– Elon Musk (@elonmusk) 2. September 2024

Jetzt wird es wirklich interessant. Obwohl das System betriebsbereit ist, ist unklar, wie viele dieser Cluster heute genau voll funktionsfähig sind. Das ist bei Systemen dieser Größenordnung nicht ungewöhnlich, da sie umfangreiche Fehlerbehebungen und Optimierungen erfordern, bevor sie mit voller Leistung laufen. Aber wenn man es mit etwas in der Größenordnung von Colossus zu tun hat, zählt jedes Detail, und selbst ein Bruchteil seines vollen Potenzials könnte die meisten anderen Systeme übertreffen.

Die Zukunft sieht noch intensiver aus. Die Größe von Colossus soll sich verdoppeln. Es ist geplant, weitere 100.000 GPUs hinzuzufügen – aufgeteilt zwischen den aktuellen H100-Einheiten von Nvidia und den mit Spannung erwarteten H200-Chips. Dieses Upgrade wird in erster Linie das Training des neuesten und fortschrittlichsten KI-Modells von xAI, Grok-3, ermöglichen, das darauf abzielt, die Grenzen dessen zu erweitern, was wir in der KI für möglich halten.

Bildnachweis: BolivienInteligente/Unsplash