Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Google hat Ihrem Sprachassistenten beigebracht, zu verstehen, was Sie meinen

byKerem Gülen
Oktober 14, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Seien wir ehrlich, das haben wir alle schon einmal erlebt. Sie fragen Ihr Telefon nach Informationen zum berühmten Gemälde „Der Schrei“ und es bietet Ihnen fröhlich Tutorials zum Leinwandmalen an. Diese frustrierende Verwechslung ist seit Jahren ein hartnäckiger Fehler bei der Sprachsuche. Nun, in einem aktuellen Beitrag zum Google Research-BlogDie Wissenschaftler Ehsan Variani und Michael Riley haben ein neues System namens vorgestellt Speech-to-Retrieval (S2R) das trifft den Kern des Problems. Die wichtigste Erkenntnis besteht darin, dass S2R schnellere und genauere Ergebnisse liefert, indem es den fehlerhaften Schritt der Umwandlung von Sprache in Text überspringt. Das ist wichtig, weil es einen Wandel vom bloßen Hören unserer Worte zum tatsächlichen Verstehen unserer Absicht markiert, wodurch Sprachassistenten deutlich weniger lästig und viel nützlicher werden. https://storage.googleapis.com/gweb-research2023-media/media/SpeechToRetrieval2_Cascade.mp4

Video: Google

Das Problem beim Telefonieren

Warum machen Sprachassistenten so viel falsch? Traditionell verwenden sie einen zweistufigen Prozess namens a Kaskadenmodell. Zunächst hört ein automatisches Spracherkennungssystem (ASR) Ihre Stimme und wandelt sie in Text um. Zweitens wird dieser Text in eine Standardsuchmaschine eingespeist. Der Haken daran ist, dass dieser Vorgang einem Telefonspiel gleicht; Wenn der ASR zu Beginn einen kleinen Fehler macht – ein „m“ mit einem „n“ verwechselt –, wird dieser Fehler weitergegeben und das endgültige Suchergebnis ist völlig falsch. Um herauszufinden, wie groß dieses Problem war, führte das Google-Team ein cleveres Experiment durch. Sie verglichen ein typisches ASR-gestütztes Suchsystem mit einer „perfekten“ Version, die fehlerfreie, von Menschen verifizierte Texttranskripte verwendete. Sie maßen die Qualität der Ergebnisse anhand einer Metrik namens Mittlerer reziproker Rang (MRR)Dabei handelt es sich im Grunde um einen Wert dafür, wie weit oben die richtige Antwort in der Suchliste erscheint. Es überrascht nicht, dass sie einen fanden erhebliche Leistungslücke zwischen dem realen System und dem perfekten System in zahlreichen Sprachen. Diese Lücke zeigte, dass der Text-First-Ansatz der größte Engpass war und eine klare Chance für ein intelligenteres System eröffnete.

Vom Klang direkt zur Bedeutung

Geben Sie Speech-to-Retrieval oder S2R ein. Anstatt Ihre Stimme in Text zu übersetzen, übersetzt S2R die Klang selbst direkt in die Bedeutung. Okay, lass uns innehalten. Was bedeutet das wirklich? Im Kern verwendet S2R ein ausgeklügeltes Setup namens a Dual-Encoder-Architektur. Betrachten Sie es als einen universellen Matchmaking-Dienst für Informationen.

  • Ein Teil, der Audio-Encoderhört sich Ihre gesprochene Anfrage an und erstellt ein umfangreiches numerisches Profil – einen Vektor –, der deren wesentliche Bedeutung erfasst. Dabei geht es nicht nur um die Worte, sondern möglicherweise auch um den Kontext und die Nuancen Ihrer Stimme.
  • Parallel dazu a Dokumentenkodierer hat bereits ähnliche Profile für Milliarden von Webdokumenten erstellt.

Wenn Sie sprechen, versucht das System nicht, Ihre Worte aufzuschreiben. Stattdessen verwendet es das „Profil“ Ihrer Sprachabfrage und findet sofort die Dokument-„Profile“, die mathematisch am ehesten übereinstimmen. Es ist ein bisschen wie ein Shazam für Suchanfragen; Es findet eine Übereinstimmung basierend auf der zugrunde liegenden Signatur und nicht auf einer ungeschickten Transkription. Dieser gesamte Prozess umgeht den fragilen Textschritt und eliminiert die Möglichkeit eines Fehlers vom Typ „Schrei“ oder „Bildschirm“.

Funktioniert es also tatsächlich in der realen Welt?

Ja, und die Ergebnisse sind beeindruckend. Als die Forscher S2R an ihrem Datensatz mit Sprachfragen testeten, stellten sie fest, dass dies der Fall ist übertrifft das alte Kaskadenmodell deutlich. Noch besser ist, dass seine Leistung dem theoretisch „perfekten“ System, das menschliche Transkriptoren verwendet, bemerkenswert nahe kommt. Obwohl noch eine kleine Lücke zu schließen ist, hat S2R den Großteil der durch Transkriptionsfehler verursachten Probleme effektiv gelöst. Dies ist nicht nur ein Laborexperiment. Google hat S2R bereits eingeführt, um seine Sprachsuche in mehreren Sprachen zu ermöglichen. Wenn Ihr Sprachassistent das nächste Mal eine knifflige Frage richtig versteht, erleben Sie diese neue Technologie wahrscheinlich aus erster Hand. Um das Feld voranzutreiben, hat das Team auch Open-Source-Lösungen bereitgestellt SVQ-Datensatz (Simple Voice Questions).und lädt Forscher überall ein, beim Aufbau der nächsten Generation von Sprachschnittstellen mitzuhelfen. Das Ergebnis ist eine Zukunft, in der Sie endlich aufhören können, wie ein Roboter zu sprechen, und einfach wie ein normaler Mensch mit Ihren Geräten sprechen können.


Hervorgehobener Bildnachweis

Tags: Googles2r

Related Posts

OpenAI GPT 5.2 knackt Erdős Matheproblem in 15 Minuten

OpenAI GPT 5.2 knackt Erdős Matheproblem in 15 Minuten

Januar 19, 2026
Appfigures: Die Ausgaben für mobile Apps erreichen einen Rekordwert von 155,8 Milliarden US-Dollar

Appfigures: Die Ausgaben für mobile Apps erreichen einen Rekordwert von 155,8 Milliarden US-Dollar

Januar 15, 2026
Der weltweite Mangel an Speicherchips lässt die PC-Preise in die Höhe schnellen

Der weltweite Mangel an Speicherchips lässt die PC-Preise in die Höhe schnellen

Januar 14, 2026
Ingenieure bauen von Heuschrecken inspirierte Roboter, um das Problem der Batterieentladung zu lösen

Ingenieure bauen von Heuschrecken inspirierte Roboter, um das Problem der Batterieentladung zu lösen

Januar 14, 2026
Nature-Studie prognostiziert bis 2050 2 Milliarden tragbare Gesundheitsgeräte

Nature-Studie prognostiziert bis 2050 2 Milliarden tragbare Gesundheitsgeräte

Januar 7, 2026
Das Imperial College London entwickelt KI, um die Entdeckung von Herzmedikamenten zu beschleunigen

Das Imperial College London entwickelt KI, um die Entdeckung von Herzmedikamenten zu beschleunigen

Januar 6, 2026

Recent Posts

  • Microsoft drängt auf ein Notfall-OOB-Update, um die Neustartschleife von Windows 11 zu beheben
  • Musk fordert 134 Milliarden US-Dollar von OpenAI und Microsoft
  • Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X
  • Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf
  • iOS 27: Alles, was wir bisher wissen

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.