Oracle stellt den KI-Supercomputer OCI Zettascale10 mit 800.000 Nvidia-GPUs vor

Oracle hat angekündigt Es ist OCI Zettascale10, ein cloudbasiertes KI-Supercomputer Es wird behauptet, dass es 16 ZettaFLOPS Spitzenleistung bietet. Das System nutzt 800.000 Nvidia-GPUs und ist für die Unterstützung umfangreicher KI-Workloads konzipiert, die von Partnern wie OpenAI entwickelt wurden. Das Unternehmen gibt an, dass das System eine Spitzenleistung von 16 ZettaFLOPS erreichen kann, verteilt auf seine 800.000 Nvidia-GPUs. Dieses Leistungsniveau entspricht, wenn man es pro GPU berechnet, etwa 20 Petaflops für jede Einheit. Diese individuelle Leistungsmetrik ist vergleichbar mit der Leistung des Grace-Blackwell GB300 Ultra-Chips, einer Komponente, die in High-End-Desktop-Systemen verwendet wird, die speziell für Aufgaben der künstlichen Intelligenz entwickelt wurden. Die Gesamtzahl positioniert die Zettascale10 als bedeutenden Einstieg in die groß angelegte Recheninfrastruktur. Oracle hat die Plattform als grundlegende Infrastruktur für den Stargate-Cluster von OpenAI identifiziert, der sich in Abilene, Texas, befindet. Diese Einrichtung wird gebaut, um einige der anspruchsvollsten KI-Arbeitslasten zu bewältigen, die derzeit sowohl aus Forschungsinitiativen als auch aus kommerziellen Anwendungen entstehen. Peter Hoeschele, Vizepräsident für Infrastruktur und industrielles Rechnen bei OpenAI, erklärte: „Das hoch skalierbare, benutzerdefinierte RoCE-Design maximiert die strukturweite Leistung im Gigawatt-Bereich, während der Großteil der Leistung auf die Rechenleistung konzentriert bleibt.“ Im Mittelpunkt des Zettascale10-Systems steht die Oracle Acceleron RoCE-Netzwerkarchitektur, die entwickelt wurde, um die Skalierbarkeit und Zuverlässigkeit für datenintensive KI-Operationen zu verbessern. Dieses Design verwendet Netzwerkschnittstellenkarten, die als Miniaturschalter fungieren und direkte Verbindungen zwischen GPUs über mehrere isolierte Netzwerkebenen hinweg herstellen. Diese Konfiguration soll die Latenz bei der Kommunikation zwischen GPUs reduzieren. Darüber hinaus bietet es Redundanz, sodass Rechenjobs ohne Unterbrechung weiter verarbeitet werden können, selbst wenn einer der Netzwerkpfade ausfällt. Die Rolle von Nvidia in dem System wurde von Ian Buck, Vizepräsident von Hyperscale beim Unternehmen, hervorgehoben. „Mit der Full-Stack-KI-Infrastruktur von Nvidia bietet OCI Zettascale10 die Rechenstruktur, die erforderlich ist, um die hochmoderne KI-Forschung voranzutreiben und Organisationen auf der ganzen Welt beim Übergang von der experimentellen zur industrialisierten KI zu unterstützen“, sagte Buck. Oracle behauptet außerdem, dass seine Netzwerkstruktur die Kosten senken kann, indem die Ebenen innerhalb der Netzwerkstruktur vereinfacht werden und gleichzeitig eine konsistente Leistung über alle Knoten hinweg gewährleistet wird. Das System führt Linear-Pluggable- und Receiver Optics-Technologien ein, die darauf abzielen, sowohl den Energieverbrauch als auch den Kühlbedarf zu reduzieren, ohne die Bandbreite zu beeinträchtigen. Die 16-zettaFLOPS-Leistungsangabe von Oracle wurde nicht unabhängig überprüft. Leistungsmetriken für Cloud-Systeme können je nach Berechnungsmethode unterschiedlich sein, und die Zahlen des Unternehmens basieren möglicherweise eher auf theoretischer Spitzenleistung als auf nachhaltigen Betriebsraten. Da die angekündigte Gesamtleistung des Systems der Summe seiner 800.000 GPUs entspricht, die mit maximalem Potenzial arbeiten, hängt seine tatsächliche Effizienz erheblich von Faktoren wie Netzwerkdesign und Softwareoptimierung ab. Von den Analysten wird erwartet, dass sie abwarten, ob die Konfiguration eine Leistung liefert, die mit etablierten KI-Clustern anderer großer Cloud-Anbieter vergleichbar ist. Das Zettascale10-System soll es Kunden ermöglichen, große KI-Modelle in der verteilten Cloud-Umgebung von Oracle zu trainieren und bereitzustellen, einschließlich Maßnahmen zur Datensouveränität. Mahesh Thiagarajan, Executive Vice President bei Oracle Cloud Infrastructure, kommentierte: „Mit OCI Zettascale10 vereinen wir die Oracle Acceleron RoCE-Netzwerkarchitektur von OCI mit der Nvidia-KI-Infrastruktur der nächsten Generation, um eine KI-Kapazität von mehreren Gigawatt in beispielloser Größenordnung bereitzustellen.“ Er fügte hinzu, dass Kunden Modelle mit weniger Stromverbrauch erstellen und trainieren und mit „starker Daten- und KI-Souveränität“ arbeiten können. Das System bietet außerdem betriebliche Flexibilität durch unabhängige Wartung auf Flugzeugebene, was Aktualisierungen mit reduzierten Ausfallzeiten ermöglicht. Beobachter haben festgestellt, dass andere große Cloud-Anbieter gleichzeitig ihre eigenen großen GPU-Cluster aufbauen und fortschrittliche Cloud-Speichersysteme entwickeln, was den Wettbewerbsvorteil von Oracle schmälern könnte. Die Einführung des Zettascale10-Systems ist für nächstes Jahr geplant. Nach seiner Einführung wird seine Fähigkeit bewertet, der wachsenden Nachfrage nach skalierbaren, effizienten und zuverlässigen KI-Berechnungen gerecht zu werden.

Hervorgehobener Bildnachweis

No Result