Die Voice Engine von OpenAI wurde als neue Text-to-Speech-Technologie eingeführt, die in der Lage ist, eine synthetische Stimme aus nur 15 Sekunden Audioprobe der Stimme einer Person zu erzeugen. Dieses innovative Tool kann Textansagen je nach Wunsch entweder in der Originalsprache der aufgenommenen Stimme oder in verschiedenen anderen Sprachen aussprechen.
„Diese kleinen Einsätze tragen dazu bei, unseren Ansatz, unsere Sicherheitsvorkehrungen und unsere Überlegungen darüber zu prägen, wie Voice Engine in verschiedenen Branchen zum Guten eingesetzt werden könnte“, erklärte OpenAI in seinem Bericht Blogeintrag.
Zu den Organisationen, denen Early Access gewährt wird, gehören: Zeitalter des Lernensein auf Bildungstechnologie spezialisiertes Unternehmen; HeyGeneine Plattform für visuelles Geschichtenerzählen; Dimagiein Entwickler von Gesundheitssoftware für Außendienstmitarbeiter; Livox, das eine KI-gestützte Kommunikationsanwendung erstellt; Und Lebensdauerein Gesundheitsnetzwerk.
Wie gut ist Voice Engine von OpenAI?
Jetzt präsentieren wir ein Referenzaudio zusammen mit drei von OpenAI generierten Beispielen, begleitet von ihren jeweiligen Transkripten. Es liegt an Ihnen, die Wirksamkeit der Voice Engine von OpenAI anhand der gemeinsamen Beispiele zu bestimmen. Eine endgültige Bewertung kann jedoch erst vorgenommen werden, wenn die Funktion für Endbenutzer allgemein verfügbar ist.
- Das Eingangsaudio.
- Salz sorgt außerdem dafür, dass wir hydriert bleiben, was bedeutet, dass in unserem Körper genügend Wasser vorhanden ist, damit er richtig funktionieren kann.
- Machen wir die Teile gleich, indem wir eins zu drei addieren!
- Einige der erstaunlichsten Lebensräume der Erde befinden sich im Regenwald. Ein Regenwald ist ein Ort mit viel Niederschlag und vielen Arten von Tieren, Bäumen und anderen Pflanzen. Tropische Regenwälder liegen meist nicht weit vom Äquator entfernt und sind das ganze Jahr über warm.
OpenAI kündigte Ende 2022 die Entwicklung seiner Voice Engine-Technologie anwobei seine Anwendung darin hervorgehoben wird, voreingestellte Stimmen für Text-to-Speech-APIs bereitzustellen und das zu ermöglichen Vorlesefunktion in ChatGPT. Kürzlich erwähnte das OpenAI-Produktteam, dass die Technologie sowohl unter Verwendung lizenzierter als auch öffentlich zugänglicher Daten verfeinert wurde. OpenAI hat darauf hingewiesen, dass zunächst Diese Technologie wird etwa 10 Entwicklern zugänglich sein.
Der Bereich der KI-gesteuerten Text-zu-Audio-Konvertierung schreitet rasant voran. Während sich die meisten Entwicklungen auf die Erzeugung von Instrumental- oder Umgebungsgeräuschen konzentrierten, gab es bei der Schaffung synthetischer Stimmen weniger Aktivität, eine Situation, die OpenAI auf die damit verbundenen ethischen Bedenken zurückführt. Zu den in diesem Bereich aktiven Unternehmen gehören Podcastle und ElevenLabs.
OpenAI hat bestätigt, dass sich seine Mitarbeiter zur Einhaltung seiner Nutzungsrichtlinien verpflichtet haben, die die Verwendung der Sprachgenerierung zur Nachahmung von Einzelpersonen oder Organisationen ohne Zustimmung ausschließen. Darüber hinaus sehen diese Vereinbarungen vor, dass Mitarbeiter eine klare und freiwillige Zustimmung der Personen einholen müssen, deren Stimmen verwendet werden, dass Benutzer daran gehindert werden müssen, selbstständig Stimmen zu erzeugen, und dass Zuhörer darüber informiert werden müssen, dass die Stimmen von KI synthetisiert werden. Um die Rückverfolgbarkeit seiner Audioausgaben zu gewährleisten, hat OpenAI Wasserzeichen in die Soundclips integriert und überwacht deren Verwendung aufmerksam.

OpenAI schlug eine Reihe von Maßnahmen vor, die darauf abzielen, potenzielle Risiken im Zusammenhang mit Technologien dieser Art zu mindern. Dazu gehören die Abkehr von der sprachbasierten Verifizierung für den Bankzugang, die Umsetzung von Vorschriften zum Schutz der Sprachdaten von Einzelpersonen in KI-Anwendungen, die Sensibilisierung der Öffentlichkeit für KI-generierte Deepfakes und die Schaffung von Mechanismen zur Überwachung von KI-generierten Inhalten.
„Wir sind uns bewusst, dass die Erzeugung von Reden, die den Stimmen der Menschen ähneln, ernsthafte Risiken birgt, die im Wahljahr besonders im Vordergrund stehen. Wir arbeiten mit US-amerikanischen und internationalen Partnern aus den Bereichen Regierung, Medien, Unterhaltung, Bildung, Zivilgesellschaft und darüber hinaus zusammen, um sicherzustellen, dass wir ihr Feedback bei der Entwicklung berücksichtigen“, sagte OpenAI.
Anwendungsfälle für die Voice Engine-Funktion von OpenAI
OpenAI schlägt vor, dass die folgenden Anwendungsfälle der Voice Engine brauchbare Beispiele für ihre Anwendung sind: betont jedoch, dass die wahre Grenze seiner möglichen Verwendungsmöglichkeiten nur durch die eigene Vorstellungskraft begrenzt ist:
- Pädagogische Unterstützung: Voice Engine kann verwendet werden, um Nichtlesern und Kindern Lesehilfe zu bieten, indem natürliche und emotionale Stimmen erzeugt werden. Dies hilft bei der Generierung vorgefertigter Voice-Over-Inhalte und personalisierter Interaktionen mit Schülern in Echtzeit, wodurch das Spektrum der zugänglichen Bildungsinhalte erweitert wird.
- Inhaltsübersetzung: Diese Technologie kann die Übersetzung von Videos und Podcasts ermöglichen und es YouTubern und Unternehmen ermöglichen, ein globales Publikum mit ihrer eigenen Stimme zu erreichen. Es behält den muttersprachlichen Akzent des ursprünglichen Sprechers in allen Sprachen bei und bewahrt so die Authentizität des übersetzten Inhalts.
- Servicebereitstellung in abgelegenen Gemeinden: Voice Engine könnte die Bereitstellung wesentlicher Dienste verbessern, indem es interaktives Feedback in den Hauptsprachen von Gemeindegesundheitspersonal bereitstellt. Dies unterstützt die Kompetenzentwicklung in verschiedenen wesentlichen Diensten, wie etwa der Gesundheitsberatung für Mütter, in Sprachen und Dialekten, die für abgelegene Gemeinden spezifisch sind.
- Unterstützung für nonverbale Personen: Die Technologie treibt Geräte an, die nonverbale Menschen bei der Kommunikation unterstützen. Benutzer können Stimmen auswählen, die sie in mehreren Sprachen genau wiedergeben, wodurch die Kommunikation persönlicher und weniger roboterhaft wird.
- Stimmwiederherstellung für Patienten mit Sprachbehinderungen: Es bietet eine Lösung für Personen, die aufgrund plötzlicher oder degenerativer Erkrankungen an Sprachbehinderungen leiden. Da nur eine kurze Audioprobe erforderlich ist, kann Voice Engine die Stimme des Patienten wiederherstellen und ihm so helfen, seine Fähigkeit zur Kommunikation mit seiner natürlichen Stimme wiederzuerlangen.
Hervorgehobener Bildnachweis: Kerem Gülen/Midjourney