ElfLabs hat ein KI-Startup, das für seine Audio-Generation-Fähigkeiten anerkannt ist gestartet Ein eigenständiges Sprach-zu-Text-Modell namens Scribe. Der Start folgt einer erheblichen Finanzierungsrunde in Höhe von 180 Millionen US -Dollar, was die Bewertung des Unternehmens auf 3,3 Milliarden US -Dollar erhöht.
ElfLabs startet Schreiber: ein neues AI-Sprach-zu-Text-Modell
Scribe unterstützt über 99 Sprachen und erzielt in über 25 Sprachen eine Wortfehlerrate von weniger als 5%, einschließlich Englisch, die eine geltende Genauigkeitsrate von 97% enthält. Weitere Sprachen in der Kategorie Excellentgenauigkeit sind Französisch, Deutsch, Hindi, Indonesier, Japanisch, Kannada, Malayalam, Polnisch, Portugiesisch, Spanisch und Vietnamesisch. Zusätzliche Sprachen werden mit unterschiedlichen Fehlerraten von hoch (5% bis 10%) bis moderat (25% bis 50%) klassifiziert.
Video: elfLabs
Das neue Modell übertrifft Berichten zufolge Googles Gemini 2.0 Flash und Openai’s Whisper Large V3 in mehreren Sprachen basierend auf Fleurs und gemeinsamen Sprachbenchmark -Tests. Scribe ist das erste separate Spracherkennungsmodell von ElevenLabs, das zuvor Sprach-zu-Text-Komponenten in seine KI-Konversationsagenten-Plattform integriert hatte.
Chatgpt Plus -Abonnenten genießen jetzt eine tiefe Forschungsfunktion
CEO Mati Staniszewski betonte das Ziel, das Verständnis von Gesprächen zu verbessern: „Wir arbeiten daran, nur Inhalte zu generieren und zu verstehen und Sprache zu transkriptieren“, sagte er. Das Modell verfügt über die Sprecherdurch Diatrisierung, Zeitstempel auf Wortebene für genaue Untertitel und automatische Aufgabe von nonverbalen Audioereignissen.
Scribe beschränkt sich derzeit auf vorgezeichnete Audioformate, wobei eine Echtzeitversion voraussichtlich in Kürze veröffentlicht wird. Die Preisgestaltung für Schreiber beträgt 0,40 USD pro Stunde transkribierter Audio, wobei in den ersten sechs Wochen ein einführender Rabatt von 50% erhältlich ist.

Benchmark -Tests geben an, dass Scribe die niedrigsten Wortfehlerraten für verschiedene Sprachen aufzeichnet und 98,7% in Italienisch und 96,7% in Englisch erzielen. Zu den wichtigsten Merkmalen gehören die Möglichkeit, Lautsprecher in Multi-Sprecher-Aufnahmen, detaillierten Zeitstempeln und die Erkennung von Nicht-Sprach-Ereignissen zu unterscheiden.
Für Unternehmensbenutzer dient Scribe als skalierbares Transkriptionsinstrument, das für Sektoren von Vorteil ist, die sich auf Dokumentation, Erfüllung von Transkriptionen und Zugänglichkeitsinitiativen verlassen. Die bevorstehende Echtzeitversion könnte ihren Nutzen in Live-Kommunikationsszenarien weiter verbessern.
Der Start von Schreiber fiel mit der Veröffentlichung von Hume Ai’s Octave zusammen, einem anpassbaren, llm-betriebenen Text-zu-Sprach-Modell, das auf die Erstellung von Inhalten zugeschnitten ist. ElfLabs behauptet, Schreiber hat die Wettbewerber in der Transkriptionsgenauigkeit konsequent übertroffen.
Scribe kann direkt über die ElevenLabs -Website oder -A -API zugegriffen werden, sodass Benutzer Audio- oder Videodateien für formatierte Transkripte hochladen können. Die strukturierte Output-Integration in verschiedene Anwendungen unterstützt eine Wettbewerbsoption für Unternehmen, die Transkriptionsdienste mit hoher Genauigkeit suchen.
Ausgewähltes Bildnachweis: elfLabs