NVIDIA hat enthüllt Fugatto, ein generatives KI-Modell, das Audioinhalte erstellen und ändern kann. Das Modell soll Musikproduzenten, Filmemachern und Spieleentwicklern helfen, indem es ihnen ermöglicht, durch Textansagen neuartige Sounds zu erzeugen. Fugatto kombiniert verschiedene Funktionen zur Audioerzeugung und nutzt fortschrittliche Algorithmen, um kreative Prozesse in der Audioindustrie zu verbessern.
NVIDIA stellt Fugatto vor, eine generative KI für die Audioerstellung
Fugattokurz für Foundational Generative Audio Transformer Opus 1, wurde von NVIDIA eingeführt, dem weltweit führenden Anbieter von Chips und Software für KI-Systeme. Die Technologie kann Ton aus vorhandenen Audiodateien erzeugen und verändern und unterscheidet sich damit von früheren Modellen. Es kann beispielsweise eine Klaviermelodie in eine menschliche Stimme umwandeln oder den Akzent und den emotionalen Ton einer gesprochenen Aufnahme verändern. Diese Flexibilität ermöglicht es Entwicklern, eine Reihe innovativer Anwendungen in verschiedenen Bereichen zu erkunden.
Das Team hinter Fugatto besteht aus über einem Dutzend Forschern, darunter Rafael Valle, NVIDIAs Manager für angewandte Audioforschung. Valle betonte das Ziel des Projekts: „Wir wollten ein Modell schaffen, das Geräusche versteht und erzeugt, wie es Menschen tun.“ Der Schlüssel zum Design von Fugatto ist seine Fähigkeit, mehrere Aufgaben im Zusammenhang mit der Audioerzeugung und -transformation zu integrieren und neue Eigenschaften zu präsentieren, die sich aus seinen umfangreichen Trainingsdaten ergeben.
Benutzer können Fugatto mit Freiformaufforderungen anweisen, Klanglandschaften, Musikschnipsel oder sogar einzigartige Soundeffekte zu erstellen. Beispielsweise könnte ein Produzent schnell Prototypen verschiedener Stile oder Instrumente für einen Titel erstellen. Insbesondere verfügt Fugatto über Techniken wie ComposableART, die es Benutzern ermöglichen, unterschiedliche Befehle zusammenzuführen. Tests ergaben überraschende Ergebnisse, wie Rohan Badlani, ein an dem Modell beteiligter KI-Forscher, nahelegte, der die Erfahrung trotz seines technischen Hintergrunds als künstlerisch lohnend beschrieb.
Während seines Trainings nutzte Fugatto 2,5 Milliarden Parameter und wurde auf den leistungsstarken DGX-Systemen von NVIDIA mit 32 H100 Tensor Core GPUs entwickelt. Das Training des Modells stützte sich auf einen vielfältigen, gemischten Datensatz mit Millionen von Audiobeispielen, wodurch seine Multiakzent- und Mehrsprachigkeitsfunktionalität verbessert wurde. Die Entwicklung dieses ehrgeizigen Projekts dauerte ebenfalls über ein Jahr, wobei das Team mehrere Herausforderungen bei der Datengenerierung und dem Modelltraining meisterte.
Fugatto bietet mehrere potenzielle Anwendungen, unter anderem für Werbeagenturen und Sprachlernplattformen. Es wurde vermutet, dass Marketingkampagnen von der Fähigkeit profitieren könnten, Voiceovers mit unterschiedlichen Akzenten oder Stimmungen anzupassen. Im Bildungsbereich könnten Lernende personalisierte Kurse mit vertrauten Stimmen genießen. Spieleentwickler könnten In-Game-Audio dynamisch anpassen und interaktive Elemente integrieren, die auf Benutzeraktionen reagieren.
Obwohl die Fähigkeiten von Fugatto beeindruckend sind, hat NVIDIA keine unmittelbaren Pläne angekündigt, diese Technologie der Öffentlichkeit zugänglich zu machen. Das Unternehmen äußert seine Besorgnis über einen möglichen Missbrauch generativer KI. Bryan Catanzaro, NVIDIAs Vizepräsident für angewandte Deep-Learning-Forschung, betont, wie wichtig Vorsicht angesichts der mit dieser Technologie verbundenen Risiken sei. OpenAI und andere Unternehmen in diesem Bereich stehen vor ähnlichen Herausforderungen hinsichtlich des verantwortungsvollen Einsatzes ihrer Modelle, insbesondere im Hinblick auf geistige Eigentumsrechte und Fehlinformationen.
Hervorgehobener Bildnachweis: Nvidia