Die Halbleiterindustrie erlebt derzeit eine faszinierende Rivalität, da Advanced Micro Devices (AMD) die Vorherrschaft von NVIDIA auf dem Markt für KI-Beschleuniger in Frage stellt. Mit seinem Instinct MI300X ist AMD bereit, den Status quo zu durchbrechen und bietet eine kostengünstige und leistungsstarke Alternative zu NVIDIAs H100. Der Anstieg der Nachfrage nach KI-Chips, der durch das explosive Wachstum der KI-Einführung und den Ausbau von Rechenzentren angetrieben wird, verschärft diesen Wettbewerb noch weiter.
Im schnelllebigen Bereich der KI-Chip-Technologie AMD macht bemerkenswerte Fortschritte bei der Herausforderung der Dominanz von NVIDIA. Während NVIDIA derzeit den Löwenanteil des Marktes beherrscht, schätzungsweise über 80 %AMD gewinnt stetig an Dynamik, insbesondere im Rechenzentrumssektor. Dieser Aufschwung wird durch die starke Nachfrage nach ihrem MI300X AI-Chip angetrieben, mit prognostizierter Umsatz Er erreichte beeindruckende 4 Milliarden US-Dollar und machte etwa 15 % des erwarteten Umsatzes von AMD aus.
Was die Leistung angeht, sind die H100-Chips von NVIDIA nach wie vor für ihre Leistungsfähigkeit bei KI-Workloads bekannt. vor allem im Bereich der Ausbildung. AMDs MI300X stellt sein Können jedoch bei bestimmten KI-Aufgaben unter Beweis, insbesondere bei der Inferenz, wo einige behaupten, dass er sogar NVIDIAs Flaggschiff H100 übertrifft.
In Bezug auf Branchenpartnerschaften und Akzeptanz kann NVIDIA auf gut etablierte Kooperationen mit großen Cloud-Anbietern zurückblicken und genießt breite Akzeptanz in verschiedenen Branchen. Andererseits AMD schmiedet aktiv Partnerschaftenwie etwa die Allianz mit TensorWave, um seine Reichweite zu erweitern und seine Technologie für KI-zentrierte Aufgaben zu verfeinern.
Das dynamische Zusammenspiel dieser beiden Giganten verspricht eine spannende Zukunft für den KI-Chip-Markt. Ich sprach mit Darrick Horton, CEO von TensorWaveum zu verstehen, warum das Unternehmen beim Thema KI ausschließlich auf AMD gesetzt hat.
AMD Instinct MI300X: Ein Game-Changer?
Der MI300X verfügt über eine größere Speicherkapazität als der H100, was ihn für bestimmte KI-Aufgaben vorteilhaft macht, insbesondere für solche mit großen Sprachmodellen. Während der H100 im Allgemeinen eine höhere Rohrechenleistung bietet, ist der MI300X bei Inferenzaufgaben und größeren Batchgrößen vielversprechend.
Obwohl genaue Preise nicht öffentlich sind, ist der MI300X angeblich günstiger und bietet möglicherweise ein besseres Preis-Leistungs-Verhältnis. NVIDIAs CUDA-Plattform erfreut sich jedoch einer breiteren Verbreitung und verfügt über ein ausgereifteres Software-Ökosystem.
„Eines der herausragenden Merkmale des MI300X ist seine überlegene Speicherarchitektur“, sagte mir Horton. „Mit bis zu 192 GB einheitlichem HBM3-Speicher übertrifft der MI300X den H100 deutlich und ermöglicht die nahtlose Verarbeitung größerer Modelle und Datensätze direkt auf dem Beschleuniger. Dies reduziert den Bedarf an Off-Chip-Speicherzugriffen, die bei KI-Workloads einen Engpass darstellen können, was zu verbesserter Leistung, Caching-Fähigkeiten und geringerer Latenz führt.“
Weitere Überlegungen, die TensorWave zur Partnerschaft mit AMD veranlassten, sind Energieeffizienz und das Software-Ökosystem von AMD.
„Der MI300X wurde mit Blick auf Energieeffizienz entwickelt und bietet eine hervorragende Leistung pro Watt“, sagte Horton. „Dies ist besonders wichtig, da KI-Workloads skaliert werden und Unternehmen so eine hohe Leistung erzielen können, ohne dass die Energiekosten steigen. Diese Effizienz ist ein entscheidender Faktor bei groß angelegten Implementierungen, bei denen die Betriebskosten ein erhebliches Problem darstellen können. Die ROCm-Plattform (Radeon Open Compute) von AMD wird immer ausgereifter und bietet robuste Unterstützung für KI- und HPC-Workloads. Die Open-Source-Charakter von ROCm bietet Entwicklern Flexibilität und die Möglichkeit, ihre Anwendungen für den MI300X zu optimieren, was zunehmend wichtiger wird, da KI-Modelle immer ausgefeilter werden.“
Die Hybridarchitektur des MI300X kombiniert CPU- und GPU-Funktionen, wodurch die Leistung bei verschiedenen Arbeitslasten optimiert und über mehrere Beschleuniger effizient skaliert werden kann. All dies zeichnet das Bild einer überzeugenden Alternative zu NVIDIA.
Natürlich verfolgen AMD und NVIDIA beim Aufbau großer GPU-Systeme sehr unterschiedliche Ansätze. AMD bevorzugt den offenen Standard PCIe 5.0, der eine breitere Kompatibilität und potenziell niedrigere Kosten bietet, während NVIDIA auf seine Hochbandbreite NVLink-Verbindung setzt, um in bestimmten Szenarien eine bessere Leistung zu erzielen, jedoch mit potenziellen Skalierbarkeitseinschränkungen und höheren Kosten.
Eine Mission zur Demokratisierung des KI-Zugangs
Das Preismodell von TensorWave scheint darauf ausgerichtet zu sein, den Zugang zu hochleistungsfähiger KI-Infrastruktur zu demokratisieren, und die angeblich niedrigeren Kosten für das Leasing von AMD-GPUs über die Plattform können dazu beitragen, fortschrittliche KI-Technologien einem breiteren Spektrum von Organisationen zugänglicher zu machen.
„Wenn es um die Beschaffung von GPUs geht, ist das alles andere als ein einfacher 1-Klick-Checkout“, sagte Horton. „Der Prozess wird oft durch Produktionsrückstände verzögert, wodurch der Lieferzeitpunkt unvorhersehbar wird. Außerdem können die Vorlaufkosten unerschwinglich sein. Wir haben unsere Rechenzentren bereits mit Tausenden von MI300X-GPUs ausgestattet, die sofort einsatzbereit sind, wenn Sie es sind. Aber nehmen wir an, Sie schaffen es, Ihre Hardware zu bekommen. Jetzt stehen Sie vor der Herausforderung, diese Hardware und die gesamte Rechenzentrumsinfrastruktur aufzubauen, zu verwalten und zu warten. Dies ist ein zeitaufwändiger und kostspieliger Prozess, für den nicht jeder gerüstet ist. Mit unserem Cloud-Service verschwinden diese Sorgen.“
Während NVIDIA derzeit eine beherrschende Stellung innehat, sind AMDs Instinct MI300X und der innovative Ansatz von TensorWave dabei, den Markt für KI-Beschleuniger aufzumischen.
„NVIDIA war die dominierende Kraft auf dem Markt für KI-Beschleuniger, aber wir glauben, dass es Zeit ist, das zu ändern“, sagte Horton. „Uns geht es darum, dem Markt Wahlfreiheit zu geben. Wir möchten, dass Entwickler sich von der Abhängigkeit von Anbietern lösen und nicht mehr von nicht-Open-Source-Tools abhängig sind, bei denen sie dem Anbieter ausgeliefert sind. Wir glauben an Wahlmöglichkeiten. Wir glauben an Open-Source-Optionalität. Wir glauben an die Demokratisierung der Datenverarbeitung. Diese Prinzipien waren von zentraler Bedeutung, als wir unsere Cloud rund um AMD MI300X-Beschleuniger aufgebaut und ausgerichtet haben.“
TensorWave hält dies für wichtig, da immer mehr kleine und mittlere Unternehmen (KMU) und Großunternehmen beginnen, KI-Tools auf die gleiche Weise zu nutzen, wie es Konzerne bereits tun.
„Denken Sie an Wirtschaftsprüfungsgesellschaften, Anwaltskanzleien und Forschungseinrichtungen“, sagte Horton. „Sie verfügen über riesige Mengen historischer Daten. Wenn sie KI-Tools entwickeln können, die aus diesen Datensätzen lernen, ist das Potenzial für positive Geschäftsergebnisse enorm. Um dies zu erreichen, müssen Sie jedoch große Datensätze (mehr als 250.000 Token) verarbeiten, was viel Speicher und Leistung von der Hardware erfordert. Und das ist nicht nur theoretisch – Unternehmen arbeiten derzeit aktiv an Lösungen für den Langzeitkontext.“
Eine mutige Wette in einem Spiel mit hohen Einsätzen
TensorWave ist außerdem davon überzeugt, dass AMD der neue Standard wird, da LLMs neue Höhen erreichen, was ein wichtiger Grund dafür ist, dass alle Chips auf AMD gesetzt werden (Blackjack-Metapher beabsichtigt).
„Da KI-Modelle immer größer und speicherintensiver werden, haben NVIDIA-Lösungen in puncto Preis-Leistungs-Verhältnis Mühe, mit dem MI300X zu konkurrieren. Nehmen wir beispielsweise das Modell Llama 3.1 405B von Meta. Dieses Modell kann auf weniger als einem vollständigen MI300X-Knoten (8 GPUs) ausgeführt werden, während es beim H100B etwa zwei Knoten benötigt. Wir wetten darauf, dass die KI-Community für etwas Besseres bereit ist – schneller, kostengünstiger, Open Source und leicht verfügbar.
TensorWave verdoppelt seine Investitionen in AMD, blickt in die Zukunft und entwickelt neue Funktionen, um den Zugang zu Rechenleistung weiter zu demokratisieren.
„Wir entwickeln skalierbare Caching-Mechanismen, die die Effizienz bei der Verarbeitung langer Kontexte drastisch steigern“, sagte Horton. „Dadurch können Benutzer mit deutlich reduzierten Latenzen mit größeren Chats und Dokumenten interagieren, was selbst bei den anspruchsvollsten KI-Anwendungen für reibungslosere und reaktionsschnellere Erlebnisse sorgt.“
TensorWave befindet sich derzeit in der Betaphase und plant, dies seinen Benutzern im vierten Quartal 2024 zur Verfügung zu stellen.
Die technischen Vorteile des MI300X, kombiniert mit TensorWaves Fokus auf Demokratisierung und Kosteneffizienz, stellen eine überzeugende Alternative für Unternehmen dar, die nach leistungsstarken KI-Lösungen suchen.
Setzen Sie Ihren Einsatz für eine bessere Zukunft
Das „Sehen, Erhöhen und Rufen“ zwischen AMD und NVIDIA wird zweifellos weitere Fortschritte in der GPU-Technologie und bei KI-Anwendungen in der gesamten Branche vorantreiben. Da die Nachfrage nach KI weiter wächst, werden beide Unternehmen eine entscheidende Rolle bei der Gestaltung der Zukunft dieser transformativen Technologie spielen.
Ob AMD NVIDIA letztendlich übertreffen kann, bleibt abzuwarten. Ihre Präsenz auf dem Markt fördert jedoch einen gesunden Wettbewerb und Innovationen und kommt letztlich dem gesamten KI-Ökosystem zugute. Der Kampf um die KI-Vorherrschaft ist noch lange nicht vorbei und die Welt beobachtet mit Spannung, wie diese beiden Technologiegiganten weiterhin die Grenzen des Möglichen verschieben.