Sie befinden sich in einer weiteren endlosen Zoom- oder Teams-Besprechung. Dröhnende Stimmen, Folien, die Ihre Aufmerksamkeit kaum fesseln, und Ihre Augen werden glasig, während jemand vierteljährliche Statistiken herunterklappert. Stellen Sie sich nun vor, dass die KI in der Besprechung, anstatt Sie mit Tabellenkalkulationen zu langweilen, sofort damit beginnen würde, Bilder zu erstellen – tatsächliche Bilder, die das Gespräch zum Leben erwecken und in Echtzeit generiert werden, während die Teilnehmer sprechen. Es klingt futuristisch, aber genau das kocht Microsoft mit einem neuen Patent aus.
Microsoft patentiert Voice-to-Image
Die neueste Idee von Microsoft (und ja, das ist im Moment noch nur eine Idee) besteht darin, Live-Audiostreams – Vorträge, Besprechungen, jede verbale Konversation – aufzunehmen und sie im Handumdrehen in Bilder umzuwandeln. Das US-Patent- und Markenamt gerade hat die Details am 10. Oktober 2024 bekannt gegebennachdem Microsoft es bereits im April eingereicht hatte. Das System würde im Wesentlichen Ihre Anrufe abhören, ein Texttranskript erstellen, dieses durch ein KI-Modell weiterleiten und Bilder anzeigen, die mit dem Gesagten übereinstimmen.
Kein „Lass mich dafür eine Folie hochziehen“ mehr.
Das Ende langweiliger Meetings? Vielleicht nicht, aber es wird knapp
Die meisten virtuellen Meetings sind ziemlich langweilig. Und tun wir nicht so, als würden wir nicht viel Zeit damit verbringen, uns auszuruhen.
Was aber, wenn diese Meetings plötzlich so schnell visuelle Eindrücke hervorrufen, wie das Gespräch voranschreitet? Jemand erwähnt neue Produktkonzepte und innerhalb von Sekunden erscheinen KI-generierte Bilder auf dem Bildschirm. Die trockenen Zahlen, die die Leute zitieren, verwandeln sich plötzlich in dynamische Diagramme, ohne dass jemand auf eine Schaltfläche klickt. Was ist das? Ein Lieferkettenengpass in Südostasien? Bumm! Es erscheint eine interaktive Karte, die die Problembereiche hervorhebt.
Bevor Sie sich jetzt zu sehr aufregen, lassen Sie uns eines klarstellen: Dies ist noch in der Patentphase. Und wenn Sie schon lange genug dabei sind, wissen Sie, dass viele Patente nirgendwo hingehen. Ein Patent anzumelden ist wie das Pflanzen eines Samens – er kann zu etwas Großartigem heranwachsen, oder es bleibt einfach eine Idee, die nie weiterentwickelt wird.
Das heißt, wenn Microsoft sich dafür entscheidet, ist das offensichtliche Zuhause für diese Technologie Microsoft-Teams. Sie haben Teams mit allen Arten von KI-gesteuerten Tools aufgerüstet, von Copilot bis hin zu erweiterten Videokonferenzfunktionen, daher wäre dies ein lohnenswerter Schritt.
Wir haben bereits Text-zu-Bild-Tools wie gesehen DALL-E Und Mitten in der Reise die Leute umhauen. Nun konnten wir sehen, dass dieses Konzept auf Live-Sprache angewendet wurde. Es ist, als würde man der KI-Kreativität in Echtzeit eine Stimme geben.
Aber jetzt warten wir.
Hervorgehobener Bildnachweis: Kerem Gülen/Midjourney