Google enthüllt Generative UI am Montag, eine Technologie, die es KI-Modellen ermöglicht, als Reaktion auf Benutzereingaben vollständig angepasste interaktive Schnittstellen zu generieren, unterstützt von Gemini 3 Pro und wird in der Gemini-App und dem KI-Modus der Google-Suche eingeführt, um dynamische Erlebnisse über statische Textantworten hinaus zu liefern. Die Kernfunktionalität der generativen Benutzeroberfläche besteht darin, verschiedene Ausgaben wie Webseiten, interaktive Tools, Spiele und Simulationen basierend auf Fragen oder Anweisungen der Benutzer zu erstellen. Dieser Ansatz verlagert sich von herkömmlichen Chatbot-Interaktionen, die typischerweise nur Text ausgeben, hin zur Erstellung vollständiger, interaktiver Benutzeroberflächen, die auf spezifische Bedürfnisse zugeschnitten sind. Der Rollout beginnt in der Gemini-App, wo Nutzer direkt auf diese generierten Elemente stoßen, und erstreckt sich auf den KI-Modus der Google-Suche, der die Suchergebnisse mit interaktiven Komponenten erweitert. Eine Forschungsarbeit mit dem Titel „Generative UI: LLMs sind effektive UI-Generatoren„, das zusammen mit der Ankündigung veröffentlicht wurde, beschreibt den Bewertungsprozess. Menschliche Gutachter überprüften KI-generierte Schnittstellen anhand der Standardausgaben großer Sprachmodelle und schlossen dabei die Generierungsgeschwindigkeit als Variable aus. Die Ergebnisse zeigten eine starke Präferenz für die interaktiven Schnittstellen, was auf deren Wirksamkeit bei Benutzereingriff und -verständnis hinweist. Dieses von Google-Forschern, darunter Fellow Yaniv Leviathan, verfasste Papier liefert empirische Belege für die Machbarkeit der Technologie. In der Gemini-App testet Google zwei unterschiedliche Implementierungen der generativen Benutzeroberfläche. Die dynamische Ansicht nutzt Die Codierungsfunktionen von Gemini 3 zum Entwerfen und Codieren maßgeschneiderter Schnittstellen für jede einzelne Eingabeaufforderung umfassen die Analyse des Kontexts der Eingabeaufforderung, um sowohl den angezeigten Inhalt als auch die enthaltenen interaktiven Funktionen anzupassen und so die Relevanz für die Absicht des Benutzers sicherzustellen. Beispielsweise generiert die visuelle Layout-Implementierung magazinartige Ansichten mit modularen interaktiven Komponenten, die einer digitalen Publikation ähneln. Mit Abschnitten, die erweitert, geändert oder weiter interagiert werden können, ermöglicht dieses Format visuelles Storytelling in Kombination mit Funktionen wie ziehbaren Elementen oder eingebetteten Simulationen, wodurch komplexe Informationen durch grafische Mittel besser zugänglich gemacht werden können. Wie es im Forschungsblog des Unternehmens heißt, „passt es das Erlebnis mit dem Verständnis an, dass die Erklärung des Mikrobioms für einen 5-Jährigen andere Inhalte und andere Funktionen erfordert.“ Diese Anpassung umfasst die Anpassung der Sprachkomplexität, der visuellen Hilfsmittel und der Interaktionsebenen an das Wissen und Alter des Empfängers und stützt sich dabei auf die kontextbezogenen Argumentationsfähigkeiten des Modells. In der Google-Suche erfolgt der Zugriff auf die generative Benutzeroberfläche über den AI-Modus, der auf Google AI Pro- und Ultra-Abonnenten in den USA beschränkt ist. Benutzer aktivieren es, indem sie „Denken“ aus dem Dropdown-Menü „Modell“ auswählen, das dann Abfragen verarbeitet, um maßgeschneiderte interaktive Tools und Simulationen zu generieren. Diese Integration bereichert das Sucherlebnis, indem sie praktische Erkundungen von Themen wie Finanzrechnern oder wissenschaftlichen Modellen direkt in der Suchoberfläche ermöglicht. https://storage.googleapis.com/gweb-research2023-media/media/Dynamic_View_Van_Gogh_1920x1080.mp4
Video: Google
Das zugrunde liegende System kombiniert Gemini 3 Pro mit spezifischen Verbesserungen: Der Werkzeugzugriff ermöglicht die Bildgenerierung und Websuchintegrationen, sodass die KI Echtzeitdaten und visuelle Darstellungen in Schnittstellen integrieren kann. Sorgfältig ausgearbeitete Systemanweisungen steuern das Verhalten des Modells, um es an die Erwartungen des Benutzers anzupassen, während Nachbearbeitungsschritte häufige Fehler wie Layout-Inkonsistenzen oder sachliche Ungenauigkeiten korrigieren. Diese Komponenten arbeiten zusammen, um die Ergebnisse vor der Präsentation zu verfeinern. Um die externe Forschung voranzutreiben, hat Google den PAGEN-Datensatz entwickelt, der Websites umfasst, die von Experten aus verschiedenen Bereichen entworfen wurden. Diese Sammlung dient als Benchmark für das Training und die Bewertung von UI-Generierungsmodellen. Der Datensatz wird bald der breiteren Forschungsgemeinschaft zur Verfügung stehen und Studien zur KI-gesteuerten Schnittstellenerstellung und -verbesserung erleichtern. https://storage.googleapis.com/gweb-research2023-media/media/AIM-CAPYBARA-RNA-1920×1080-Under20MB.mp4
Video: Google
Aktuelle Versionen der generativen Benutzeroberfläche weisen bestimmte Einschränkungen auf. Die Generierungszeiten überschreiten oft eine Minute, abhängig von der Komplexität der Eingabeaufforderung und der erforderlichen Schnittstelle. Die Ausgaben enthalten gelegentlich Ungenauigkeiten, wie z. B. falsche Datendarstellungen oder Funktionsstörungen, die Google als aktive Forschungsbereiche identifiziert. Die Bemühungen konzentrieren sich auf die Optimierung von Geschwindigkeit und Zuverlässigkeit durch iterative Modellaktualisierungen und verfeinerte Verarbeitungstechniken. Diese Enthüllung fällt mit der Einführung von Gemini 3 zusammen, dem bisher fortschrittlichsten KI-Modell von Google. Gemini 3 Pro erreichte auf der LMArena-Bestenliste eine Punktzahl von 1.501 und übertraf damit frühere Iterationen bei den Gesamtleistungskennzahlen. Beim GPQA Diamond-Benchmark, der für Argumentationsaufgaben auf Doktorandenniveau entwickelt wurde, erreichte er eine Genauigkeit von 91,9 Prozent. Darüber hinaus erzielte es ohne externe Tools eine Punktzahl von 37,5 Prozent beim Humanity’s Last Exam, einem umfassenden Test fortgeschrittener Kenntnisse in verschiedenen Disziplinen.




