Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Nvidia erreicht 200 TeraFLOP-emuliertes FP64 für wissenschaftliches Rechnen

byKerem Gülen
Januar 19, 2026
in News, Tech
Home News
Share on FacebookShare on Twitter

Laut Nvidia setzt Nvidia Software-Emulation ein, um die Leistung der Gleitkommaberechnung mit doppelter Genauigkeit (FP64) in seinen KI-Beschleunigern für Hochleistungsrechnen (HPC) und wissenschaftliche Anwendungen zu verbessern Das Register. Diese Strategie kommt zu der Zeit, in der das Unternehmen seine Rubin-GPUs vorstellt, die 33 TeraFLOPS FP64-Spitzenleistung liefern, was einem Rückgang von 1 TeraFLOP gegenüber der H100-GPU entspricht. Nvidias CUDA-Bibliotheken können durch Software-Emulation bis zu 200 TeraFLOPS FP64-Matrixleistung erreichen, was einer 4,4-fachen Steigerung gegenüber den Hardwarefähigkeiten der Blackwell-Beschleuniger entspricht. Dan Ernst, Senior Director für Supercomputing-Produkte bei Nvidia, gab an, dass die Genauigkeit der Emulation mit der von Tensor-Core-Hardware übereinstimmt oder diese sogar übertrifft. Nicholas Malaya, ein AMD-Stipendiat, stellte jedoch die Wirksamkeit des emulierten FP64 in physikalisch-wissenschaftlichen Simulationen im Vergleich zu Benchmarks in Frage. FP64 bleibt aufgrund seines Dynamikbereichs, der in der Lage ist, über 18,44 Trillionen eindeutige Werte auszudrücken, von entscheidender Bedeutung für das wissenschaftliche Rechnen, im Gegensatz zu den 256 eindeutigen Werten von FP8, die in KI-Modellen verwendet werden. Laut Malaya erfordern HPC-Simulationen im Gegensatz zu KI-Workloads eine hohe Präzision, um eine Fehlerausbreitung zu verhindern, die zu Systeminstabilität führen kann. Das Konzept, Datentypen mit geringerer Genauigkeit zur Emulation von FP64 zu verwenden, reicht bis in die Mitte des 20. Jahrhunderts zurück. Anfang 2024 veröffentlichten Forscher der Technologieinstitute Tokio und Shibaura einen Artikel, der zeigte, dass FP64-Matrixoperationen auf den Tensorkernen von Nvidia in mehrere INT8-Operationen zerlegt werden könnten, wodurch eine höhere als native Leistung erzielt werden könnte. Diese als Ozaki-Schema bekannte Methode bildet die Grundlage für die Ende letzten Jahres veröffentlichten FP64-Emulationsbibliotheken von Nvidia. Ernst bestätigte, dass die emulierte Berechnung die FP64-Präzision beibehält und sich nur in der Hardware-Ausführungsmethode unterscheidet. Moderne GPUs verfügen über Tensorkerne mit geringer Präzision, wie beispielsweise die in Rubin, die 35 PetaFLOPS dichter FP4-Rechenleistung bieten. Diese Kerne sind über 1.000-mal schneller als FP64-spezifische Komponenten. Ernst erklärte, dass die Effizienz dieser Kerne mit geringer Präzision dazu geführt habe, ihre Verwendung für die FP64-Emulation zu untersuchen, was dem historischen Trend im Supercomputing entspreche, verfügbare Hardware zu nutzen. AMD hat Vorbehalte hinsichtlich der Genauigkeit der FP64-Emulation geäußert. Malaya stellte fest, dass der Ansatz bei gut konditionierten numerischen Systemen wie High Performance Linpack (HPL)-Benchmarks gut funktioniert, bei weniger konditionierten Systemen in der Materialwissenschaft oder bei Verbrennungscodes jedoch ins Stocken geraten kann. Er betonte auch, dass die Algorithmen von Nvidia für die FP64-Emulation nicht vollständig IEEE-konform seien und Nuancen wie positive oder negative Nullen oder „Keine Zahl“-Fehler nicht berücksichtigen. Diese Abweichungen können dazu führen, dass sich kleine Fehler ausbreiten und die Endergebnisse beeinträchtigen. Malaya fügte hinzu, dass das Ozaki-Schema den Speicherverbrauch für FP64-Matrizen ungefähr verdoppelt. Der kommende MI430X von AMD wird mithilfe seiner Chiplet-Architektur insbesondere die Hardwareleistung mit doppelter und einfacher Genauigkeit verbessern. Ernst räumte einige Einschränkungen ein, behauptete jedoch, dass Probleme wie positive/negative Nullen für die meisten HPC-Anwender nicht kritisch seien. Nvidia hat ergänzende Algorithmen entwickelt, um Probleme wie Nicht-Zahlen und Unendliche Zahlen zu erkennen und zu beheben. Er erklärte, dass sich der erhöhte Speicheraufwand auf den Vorgang und nicht auf die gesamte Anwendung beziehe, wobei typische Matrizen einige Gigabyte groß seien. Ernst argumentierte, dass IEEE-Konformitätsprobleme bei Matrixmultiplikationen häufig nicht auftreten, insbesondere bei DGEMM-Operationen. Die Emulation kommt in erster Linie einer Untergruppe von HPC-Anwendungen zugute, die auf DGEMM-Operationen (Dense General Matrix Multiply) basieren. Malaya schätzt, dass 60 bis 70 % der HPC-Workloads, insbesondere diejenigen, die auf Vektor-FMA basieren, kaum oder gar keinen Nutzen aus der Emulation ziehen. Für vektorintensive Arbeitslasten wie Computational Fluid Dynamics müssen Nvidias Rubin-GPUs langsamere FP64-Vektorbeschleuniger in ihren CUDA-Kernen verwenden. Ernst entgegnete, dass sich theoretische FLOPS nicht immer in nutzbare Leistung umsetzen lassen, insbesondere wenn die Speicherbandbreite einen Engpass darstellt. Es wird erwartet, dass Rubin mit 22 TB/s HBM4-Speicher trotz langsamerer Vektor-FP64-Leistung bei diesen Workloads eine höhere reale Leistung liefert. Die Machbarkeit der FP64-Emulation wird getestet, wenn neue Supercomputer mit Nvidias Blackwell- und Rubin-GPUs in Betrieb gehen. Aufgrund ihrer softwarebasierten Natur können sich die Algorithmen im Laufe der Zeit verbessern. Malaya gab an, dass AMD über Software-Flags auch die FP64-Emulation auf Chips wie dem MI355X untersucht. Er betonte, dass die IEEE-Konformität den Ansatz validieren würde, indem die Ergebniskonsistenz mit dediziertem Silizium gewährleistet würde. Malaya schlug vor, dass die Community eine Reihe von Anwendungen einrichten sollte, um die Zuverlässigkeit der Emulation in verschiedenen Anwendungsfällen zu bewerten.


Hervorgehobener Bildnachweis

Tags: Nvidia

Related Posts

Microsoft drängt auf ein Notfall-OOB-Update, um die Neustartschleife von Windows 11 zu beheben

Microsoft drängt auf ein Notfall-OOB-Update, um die Neustartschleife von Windows 11 zu beheben

Januar 19, 2026
Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X

Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X

Januar 19, 2026
Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf

Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf

Januar 19, 2026
iOS 27: Alles, was wir bisher wissen

iOS 27: Alles, was wir bisher wissen

Januar 19, 2026
Walmart behält das Apple Pay-Verbot in US-Filialen für 2026 bei

Walmart behält das Apple Pay-Verbot in US-Filialen für 2026 bei

Januar 19, 2026
Bluesky führt im Rahmen eines großen Updates das Live Now-Abzeichen und die Cashtags ein

Bluesky führt im Rahmen eines großen Updates das Live Now-Abzeichen und die Cashtags ein

Januar 16, 2026

Recent Posts

  • Microsoft drängt auf ein Notfall-OOB-Update, um die Neustartschleife von Windows 11 zu beheben
  • Musk fordert 134 Milliarden US-Dollar von OpenAI und Microsoft
  • Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X
  • Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf
  • iOS 27: Alles, was wir bisher wissen

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.