Jensen Huang, Mitbegründer und CEO von Nvidia, stellte den Vera Rubin AI Superchip auf der GPU Technology Conference in Washington vor und markierte damit die Umstellung des Unternehmens auf KI-Hardware inmitten des KI-Booms, wodurch sein Marktwert auf fast 5 Billionen US-Dollar stieg. Die Vera Rubin-Plattform zielt auf generative KI-Workloads mit hoher Intensität ab. Es integriert eine einzelne Vera-CPU mit 88 benutzerdefinierten ARM-Kernen, die 176 Threads unterstützen. In Kombination mit zwei Rubin-GPUs erreicht diese CPU eine FP4-Rechenleistung von bis zu 100 PetaFLOPS. Als Nvidias NVLink 72 Rack-Computer der dritten Generation tritt Vera Rubin die Nachfolge der Modelle GB200 und GB300 an. Das System nutzt Flüssigkeitskühlung und umfasst sechs Billionen Transistoren. Es enthält außerdem 2 TB SOCAMM2-Speicher mit geringer Latenz, um anspruchsvolle KI-Verarbeitungsaufgaben effizient zu bewältigen. In seiner Basiskonfiguration bietet Vera Rubin etwa die 100-fache reine Rechenleistung im Vergleich zum Volta-basierten DGX-1. Diese frühere Plattform, Nvidias erstes Deep-Learning-System, lieferte 170 Teraflops FP16-Spitzenleistung. Dieser erhebliche Anstieg unterstreicht die Entwicklung der Rechenkapazität für KI-Anwendungen im Laufe der Jahre. Nvidia plant, Vera Rubin in verschiedenen Konfigurationen herauszubringen, um den unterschiedlichen Anforderungen gerecht zu werden. Das NVL144-Setup umfasst zwei GPUs in Retikelgröße, die bis zu 3,6 Exaflops FP4-Inferenz und 1,2 Exaflops FP8-Trainingsleistung ermöglichen. Für erweiterte Funktionen erreicht die NVL144 CPX-Konfiguration 8 Exaflops, was der 7,5-fachen Leistung der GB300 NVL72-Systeme der aktuellen Generation entspricht. Um den Anforderungen in Hyperscale-Rechenzentren zur Verarbeitung größerer Modellkontext-Workloads gerecht zu werden, stellt Nvidia das Rubin Ultra NVL576-System vor. Diese Variante nutzt vier GPUs in Retikelgröße zusammen mit bis zu 365 TB Hochgeschwindigkeitsspeicher. Es liefert bis zu 15 Exaflops FP4-Inferenz und 5 Exaflops FP8-Trainingsleistung, was einer 8-fachen Steigerung gegenüber dem GB300 entspricht. Jede Rubin-GPU besteht aus zwei Rechenchiplets und acht HBM4-Speicherstapeln, wodurch der Datendurchsatz und die Berechnung optimiert werden. Das GPU-Board verfügt über fünf NVLink-Backplane-Anschlüsse. Zwei Anschlüsse an der Oberseite verbinden die GPUs mit dem NVLink-Switch für Hochgeschwindigkeitsverbindungen. Die drei unteren Anschlüsse verwalten die Stromversorgung, die PCIe-Schnittstelle und die CXL-Konnektivität, um die Integration in umfassendere Systeme zu unterstützen. Huang geht davon aus, dass Rubin-GPUs in der zweiten Hälfte des Jahres 2026 in die Massenproduktion gehen werden. Die Markteinführung der NVL144-Systeme ist später im Jahr 2026 oder Anfang 2027 geplant. Unterdessen wird erwartet, dass die NVL576-Systeme in der zweiten Hälfte des Jahres 2027 verfügbar sein werden, was mit Nvidias Roadmap zur Weiterentwicklung der KI-Infrastruktur übereinstimmt. https://www.youtube.com/watch?v=lQHK61IDFH4





