Am Freitag kündigte Meta die Entwicklung eines Produkts namens „Voicebox“ als Teil seines anhaltenden Vorstoßes in den zunehmend wettbewerbsintensiven Bereich der KI an. Meta Voicebox wird jedoch nicht bald verfügbar sein!
Laut Meta kann Voicebox im Gegensatz zu früheren Sprachgenerator-Plattformen sprachgenerierende Aufgaben übernehmen, für die es nicht besonders geschult wurde. Das KI-Programm kann mithilfe von Texteingaben und einem kurzen Audioclip für den Kontext eine potenziell überzeugende Menge an frischer Sprache erzeugen, die wie die Person klingt, die im Originalclip zu sehen war.
„Zukünftig könnten multifunktionale generative KI-Modelle wie Voicebox virtuellen Assistenten und Nicht-Spieler-Charakteren im Metaversum natürlich klingende Stimmen verleihen. Sie könnten es sehbehinderten Menschen ermöglichen, schriftliche Nachrichten von Freunden zu hören, die von der KI mit ihrer Stimme gelesen werden, und den Erstellern neue Tools an die Hand geben, mit denen sie auf einfache Weise Audiospuren für Videos erstellen und bearbeiten können, und vieles mehr“, sagte Meta in seinem Bericht Bekanntmachung.
Wir stellen Voicebox vor, ein neues bahnbrechendes generatives Sprachsystem, das auf Flow Matching basiert, einer neuen Methode von Meta AI. Es kann Sprache in sechs Sprachen synthetisieren, Rauschen entfernen, Inhalte bearbeiten, Audiostil übertragen und mehr.
Weitere Details zu dieser Arbeit und Beispiele
— Meta-KI (@MetaAI) 16. Juni 2023
Was ist Meta Voicebox?
Meta Voicebox ist in der Lage, Sprache zu bearbeiten, zu sampeln und zu stilisieren, auch wenn sie dafür nicht besonders durch kontextbezogenes Lernen geschult wurden.
Voicebox kann hochwertige Audioclips erstellen und vorab aufgenommene Audiodaten bearbeiten und dabei den Stil und Inhalt der Originalaufnahme beibehalten. Es kann beispielsweise Autohupen oder Hundegebell unterdrücken. Das Modell kann sechs verschiedene Sprachen sprechen und ist außerdem zweisprachig.
Um anderen Wissenschaftlern zu helfen, das Potenzial des Tools zu verstehen, hat Meta Audiobeispiele und einen Studienartikel zur Verfügung gestellt, anstatt es in einem voll funktionsfähigen Zustand zu veröffentlichen.
„Voicebox ist ein wichtiger Schritt vorwärts in unserer generativen KI-Forschung und wir freuen uns darauf, unsere Erkundung im Audiobereich fortzusetzen und zu sehen, wie andere Forscher auf unserer Arbeit aufbauen“, fügte das Unternehmen hinzu.
Meta-Text-to-Speech-KI
Meta Voicebox kann durch Anpassen des Audiostils Text-to-Speech aus Audiobeispielen mit einer Länge von nur zwei Sekunden generieren.
Voicebox kann falsch geschriebene Wörter reparieren oder einen durch Rauschen unterbrochenen Abschnitt der Rede rekonstruieren, ohne die gesamte Rede neu aufzeichnen zu müssen. Sie können beispielsweise einen Sprachabschnitt ausschneiden, der durch das Bellen eines Hundes unterbrochen wurde, und Voicebox anweisen, eine neue Version dieses Stücks zu erstellen, die als Radiergummi für die Audiobearbeitung fungiert.
Die Galactica-KI von Meta kann Ihren Aufsatz in einer Minute schreiben
Meta Voicebox kann eine Vorlesung des Textes in jeder dieser Sprachen ermöglichen, wenn man eine Beispielrede einer Person und eine Textpassage in Englisch, Französisch, Deutsch, Spanisch, Polnisch oder Portugiesisch erhält, selbst wenn die Beispielrede und der Text vorliegen verschiedene Sprachen. Auch wenn zwei Menschen nicht die gleiche Sprache sprechen, können sie sich dank dieser Fähigkeit in Zukunft vielleicht natürlich und authentisch unterhalten.
Es kann eine Sprache erzeugen, die eher an die Art und Weise erinnert, wie Menschen in der realen Welt und in den sechs oben genannten Sprachen sprechen, nachdem sie aus einer Vielzahl von Daten gelernt haben.
Seit der Veröffentlichung von OpenAIs ChatGPT im November letzten Jahres haben sich Technologien der künstlichen Intelligenz, insbesondere Chatbots, immer weiter verbreitet, doch aufgrund der rasanten Fortschritte der Technologie äußern führende Politiker weltweit Bedenken hinsichtlich eines möglichen Missbrauchs der Technologie.
Meta Voicebox ist eine weitere Lösung der künstlichen Intelligenz, die zu einem möglichen Missbrauch führen und von Menschen genutzt werden könnte, um andere auszutricksen.
Mögliche KI-Risiken
Deepfakes, oft auch als gefälschte Audio- oder Videoinformationen bekannt, sind eine der häufigsten Methoden, mit denen KI für Betrug ausgenutzt wird. Deep-Learning-Algorithmen werden verwendet, um realistische Bilder oder Töne zu konstruieren, die dem Aussehen oder der Stimme einer realen Person ähneln, um Deepfakes zu erstellen.
Ein Betrüger könnte beispielsweise eine gefälschte Voicemail-Nachricht erstellen oder sich am Telefon als jemand anderes ausgeben, indem er einen Sprachwechsler oder einen Sprachgenerator verwendet. Ein gefälschtes Video von jemandem, der etwas sagt oder tut, was er nie getan hat, könnte auch mit einer Videobearbeitungssoftware oder einer Face-Swapping-App erstellt werden.
Die niederländische Polizei nutzt Deepfakes, um ein Verbrechen aufzuklären
Deepfakes können schädliche Auswirkungen auf den Ruf, die Glaubwürdigkeit oder die Privatsphäre einer Person oder einer Organisation haben. Ein Deepfake kann beispielsweise dazu verwendet werden, unwahre oder schädliche Informationen über jemanden in sozialen Medien zu verbreiten oder jemanden durch die Drohung, ein kompromittierendes Video von ihm zu veröffentlichen, zu erpressen. D
Sie können auch verwendet werden, um Einzelpersonen vorzutäuschen, dass sie mit jemandem sprechen, den sie kennen und dem sie vertrauen, etwa einem Verwandten, Freund oder Kollegen, um sie dazu zu bringen, persönliche Informationen preiszugeben oder Geld zu geben.
Hervorgehobener Bildnachweis: Dima Solomin auf Unsplash