Seien wir ehrlich, das haben wir alle schon einmal erlebt. Sie fragen Ihr Telefon nach Informationen zum berühmten Gemälde „Der Schrei“ und es bietet Ihnen fröhlich Tutorials zum Leinwandmalen an. Diese frustrierende Verwechslung ist seit Jahren ein hartnäckiger Fehler bei der Sprachsuche. Nun, in einem aktuellen Beitrag zum Google Research-BlogDie Wissenschaftler Ehsan Variani und Michael Riley haben ein neues System namens vorgestellt Speech-to-Retrieval (S2R) das trifft den Kern des Problems. Die wichtigste Erkenntnis besteht darin, dass S2R schnellere und genauere Ergebnisse liefert, indem es den fehlerhaften Schritt der Umwandlung von Sprache in Text überspringt. Das ist wichtig, weil es einen Wandel vom bloßen Hören unserer Worte zum tatsächlichen Verstehen unserer Absicht markiert, wodurch Sprachassistenten deutlich weniger lästig und viel nützlicher werden. https://storage.googleapis.com/gweb-research2023-media/media/SpeechToRetrieval2_Cascade.mp4
Video: Google
Das Problem beim Telefonieren
Warum machen Sprachassistenten so viel falsch? Traditionell verwenden sie einen zweistufigen Prozess namens a Kaskadenmodell. Zunächst hört ein automatisches Spracherkennungssystem (ASR) Ihre Stimme und wandelt sie in Text um. Zweitens wird dieser Text in eine Standardsuchmaschine eingespeist. Der Haken daran ist, dass dieser Vorgang einem Telefonspiel gleicht; Wenn der ASR zu Beginn einen kleinen Fehler macht – ein „m“ mit einem „n“ verwechselt –, wird dieser Fehler weitergegeben und das endgültige Suchergebnis ist völlig falsch. Um herauszufinden, wie groß dieses Problem war, führte das Google-Team ein cleveres Experiment durch. Sie verglichen ein typisches ASR-gestütztes Suchsystem mit einer „perfekten“ Version, die fehlerfreie, von Menschen verifizierte Texttranskripte verwendete. Sie maßen die Qualität der Ergebnisse anhand einer Metrik namens Mittlerer reziproker Rang (MRR)Dabei handelt es sich im Grunde um einen Wert dafür, wie weit oben die richtige Antwort in der Suchliste erscheint. Es überrascht nicht, dass sie einen fanden erhebliche Leistungslücke zwischen dem realen System und dem perfekten System in zahlreichen Sprachen. Diese Lücke zeigte, dass der Text-First-Ansatz der größte Engpass war und eine klare Chance für ein intelligenteres System eröffnete.
Vom Klang direkt zur Bedeutung
Geben Sie Speech-to-Retrieval oder S2R ein. Anstatt Ihre Stimme in Text zu übersetzen, übersetzt S2R die Klang selbst direkt in die Bedeutung. Okay, lass uns innehalten. Was bedeutet das wirklich? Im Kern verwendet S2R ein ausgeklügeltes Setup namens a Dual-Encoder-Architektur. Betrachten Sie es als einen universellen Matchmaking-Dienst für Informationen.
- Ein Teil, der Audio-Encoderhört sich Ihre gesprochene Anfrage an und erstellt ein umfangreiches numerisches Profil – einen Vektor –, der deren wesentliche Bedeutung erfasst. Dabei geht es nicht nur um die Worte, sondern möglicherweise auch um den Kontext und die Nuancen Ihrer Stimme.
- Parallel dazu a Dokumentenkodierer hat bereits ähnliche Profile für Milliarden von Webdokumenten erstellt.
Wenn Sie sprechen, versucht das System nicht, Ihre Worte aufzuschreiben. Stattdessen verwendet es das „Profil“ Ihrer Sprachabfrage und findet sofort die Dokument-„Profile“, die mathematisch am ehesten übereinstimmen. Es ist ein bisschen wie ein Shazam für Suchanfragen; Es findet eine Übereinstimmung basierend auf der zugrunde liegenden Signatur und nicht auf einer ungeschickten Transkription. Dieser gesamte Prozess umgeht den fragilen Textschritt und eliminiert die Möglichkeit eines Fehlers vom Typ „Schrei“ oder „Bildschirm“.
Funktioniert es also tatsächlich in der realen Welt?
Ja, und die Ergebnisse sind beeindruckend. Als die Forscher S2R an ihrem Datensatz mit Sprachfragen testeten, stellten sie fest, dass dies der Fall ist übertrifft das alte Kaskadenmodell deutlich. Noch besser ist, dass seine Leistung dem theoretisch „perfekten“ System, das menschliche Transkriptoren verwendet, bemerkenswert nahe kommt. Obwohl noch eine kleine Lücke zu schließen ist, hat S2R den Großteil der durch Transkriptionsfehler verursachten Probleme effektiv gelöst. Dies ist nicht nur ein Laborexperiment. Google hat S2R bereits eingeführt, um seine Sprachsuche in mehreren Sprachen zu ermöglichen. Wenn Ihr Sprachassistent das nächste Mal eine knifflige Frage richtig versteht, erleben Sie diese neue Technologie wahrscheinlich aus erster Hand. Um das Feld voranzutreiben, hat das Team auch Open-Source-Lösungen bereitgestellt SVQ-Datensatz (Simple Voice Questions).und lädt Forscher überall ein, beim Aufbau der nächsten Generation von Sprachschnittstellen mitzuhelfen. Das Ergebnis ist eine Zukunft, in der Sie endlich aufhören können, wie ein Roboter zu sprechen, und einfach wie ein normaler Mensch mit Ihren Geräten sprechen können.





