Während seiner GTC-Konferenz hat NVIDIA enthüllt NVIDIA NIM, a Softwareplattform, die entwickelt wurde, um die Integration sowohl benutzerdefinierter als auch vorab trainierter KI-Modelle in betriebliche Umgebungen zu vereinfachen. NIM nutzt NVIDIAs Fachwissen in der Modellinferenzierung und -optimierung und bietet einen zugänglichen Ansatz, indem es jedes ausgewählte Modell mit einer fein abgestimmten Inferenz-Engine zusammenführt, diese Kombination in einem Container kapselt und sie anschließend als Microservice bereitstellt.
NVIDIA behauptet das Wofür Entwickler bei der Containerbereitstellung normalerweise mehrere Wochen bis Monate benötigen würden, kann durch NIM beschleunigt werden, insbesondere in Szenarien, in denen es einem Unternehmen möglicherweise an interner KI-Expertise mangelt. Das strategische Ziel von NVIDIA mit NIM besteht darin, ein Netzwerk von KI-vorbereiteten Containern zu fördern, die auf der Hardware-Infrastruktur aufbauen, wobei diese spezialisierten Mikrodienste als wichtigste Softwarekomponente für Unternehmen fungieren, die ihre KI-Initiativen beschleunigen möchten.
Derzeit erweitert NIM die Unterstützung auf Modelle, die von stammen NVIDIA, A121, Adept, Cohere, Getty Images und Shutterstock sowie Open-Source-Modelle von Google, Hugging Face, Meta, Microsoft, Mistral AI und Stability AI. NVIDIA arbeitet aktiv mit mit Amazon, Google und Microsoft um NIM-Microservices zugänglich zu machen SageMaker, Kubernetes Engine und Azure AI, entsprechend. Diese Dienste sollen in Plattformen wie integriert werden Deepset, LangChain und LlamaIndex.
„Wir glauben, dass die NVIDIA-GPU der beste Ort ist, um Rückschlüsse auf diese Modelle zu ziehen […]„Und wir glauben, dass NVIDIA NIM das beste Softwarepaket und die beste Laufzeit ist, auf der Entwickler aufbauen können, damit sie sich auf die Unternehmensanwendungen konzentrieren können“, sagte Manuvir Das, NVIDIAs Leiter für Enterprise Computing, während einer Pressekonferenz zuvor die heutigen Ankündigungen.
Bezüglich der Inferenz-Engine plant NVIDIA die Implementierung Triton-Inferenzserverneben TensorRT und TensorRT-LLM für seinen Betrieb. Zu den Angeboten, die NVIDIA über NIM bereitstellt, gehören: Riva, Entwickelt für die Anpassung von Sprach- und Übersetzungsmodellen, cuOpt zur Verbesserung von Routing-Prozessen und das Earth-2-Modellentwickelt für fortgeschrittene Wetter- und Klimavorhersagesimulationen.

NVIDIA ist bestrebt, sein Serviceangebot zu erweitern und nach und nach neue Funktionen einzuführen. Eine bevorstehende Ergänzung ist der NVIDIA RAG LLM-Betreiber als NIM-DienstZiel ist es, die Erstellung generativer KI-Chatbots zu vereinfachen, die benutzerdefinierte Daten integrieren könnenwas den Entwicklungsprozess erheblich vereinfacht.
Die Konferenz betonte die Bedeutung von Gemeinschaft und Partnerschaften und beleuchtete auch die Zusammenarbeit mit führenden Unternehmen wie z Box, Cloudera, Cohesity, Datastax, Dropbox und NetApp nutzen derzeit NIM-Dienste.
„Etablierte Unternehmensplattformen verfügen über eine Goldgrube an Daten, die in generative KI-Copiloten umgewandelt werden können. Diese mit unserem Partner-Ökosystem entwickelten containerisierten KI-Microservices sind die Bausteine für Unternehmen jeder Branche, um KI-Unternehmen zu werden“, erklärte Jensen Huang, CEO von NVIDIA.
Was macht NVDIA NIM wirklich?
Grundsätzlich gilt: Ein NIM ist ein Container voller Microservices. Dieser Container kann jeden Modelltyp integrieren, von Open Source bis proprietär, vorausgesetzt, er läuft auf einer NVIDIA-GPU – unabhängig davon, ob diese in der Cloud oder einfach in einem Laptop gehostet wird. FolglichDer Container kann in jeder Umgebung bereitgestellt werden, die Container unterstützt, einschließlich Kubernetes-Setups in der Cloud, auf Linux-Servern oder sogar innerhalb serverloser Function-as-a-Service-Frameworks. NVIDIA wird in Kürze eine serverlose Funktion einführen ai.nvidia.com Portal, das Entwicklern die Möglichkeit bietet, vor der Bereitstellung mit NIM in Kontakt zu treten.
Es ist wichtig zu beachten, NIM zielt nicht darauf ab, eine der bisherigen Modellbereitstellungsmethoden von NVIDIA zu ersetzen. Stattdessen handelt es sich um einen speziellen Container, der ein hochentwickeltes, auf NVIDIA-GPUs zugeschnittenes Modell zusammen mit den wesentlichen Technologien zur Verbesserung der Inferenzleistung bündelt.
Die drängende Frage betrifft den Übergang zur Produktion. Wie können die mit unserer Unterstützung entwickelten ersten Prototypen mithilfe dieser Modelle weiterentwickelt werden, um durch den Produktionseinsatz greifbare Geschäftsergebnisse zu liefern? NVIDIAZusammen mit einem Konsortium führender Datenanbieter sieht NIM eine Lösung für dieses Dilemma. Die Vektordatenbankfunktionalität ist für die Aktivierung von RAG von entscheidender Bedeutung und wird von verschiedenen Vektordatenbankanbietern unterstützt, darunter Apache Lucene, Datastax, Faiss, Kinetica, Milvus, Redis und Weaviate.
Hervorgehobener Bildnachweis: Kerem Gülen/DALL-E 3