Googles Gemini Live, der zunächst bei der von Google Event gemacht wurde, erhält erhebliche Upgrades. Diese Verbesserungen umfassen visuelle Overlays während der gemeinsamen Nutzung der Kameraheigung und ein neues Audiododell für natürliche Gespräche. Die Upgrades zielen darauf ab, Gemini zu einem hilfreicheren und reaktionsschnelleren digitalen Assistenten zu machen.
Seit seiner Einführung, Gemini leben hat mehrere Verbesserungen festgestellt, insbesondere die Möglichkeit, Kamera -Feeds und -bildschirme zu teilen. Google hat nun eine Verbesserung der Funktionen der Kamera-Sharing und eines neuen nativen Audio-Modells angekündigt, um die Natürlichkeit von Interaktionen mit dem AI-Chatbot weiter zu verbessern.
Während der Präsentation der bevorstehenden Google Pixel 10 -Serie gab Google Details zu bevorstehenden Verbesserungen von Gemini Live on Android vor. Eine Schlüsselfunktion ist die Hinzufügung von visuellen Overlays, die bestimmte Objekte im Kamera -Feed hervorheben. Diese visuellen Hinweise haben die Form von weiß gebundenen Rechtecken um die interessierenden Objekte, wobei der Umgebungsbereich leicht gedimmt ist, um eine Bedeutung zu gewährleisten.
Die Funktion „Visual Guidance“ soll den Benutzern dabei helfen, Elemente im Sichtfeld der Kamera schnell zu finden und zu identifizieren. Beispiele für beabsichtigte Verwendungszwecke umfassen das Hervorheben der richtigen Taste auf einer Maschine, das Identifizieren eines bestimmten Vogels in einer Herde oder das Stecker des richtigen Werkzeugs für ein bestimmtes Projekt. Die Funktion erstreckt sich auch auf Beratung, z. B. die Empfehlung geeigneter Schuhe für einen bestimmten Anlass.
Die visuelle Führungsfähigkeit kann auch herausfordernere Szenarien verwalten. Ein Google-Produktmanager erzählte während einer internationalen Reise über eine persönliche Erfahrung, bei der sie auf Schwierigkeiten stießen, ausländische Parkschilder, Straßenmarkierungen und lokale Vorschriften zu interpretieren. Mit Gemini Live zeigte der Produktmanager die Kamera vor Ort und erkundigte sich nach der Parkmöglichkeit. Gemini Live konsultierte dann die lokalen Regeln, übersetzte die Schilder und hob einen Bereich auf der Straße hervor, der zwei Stunden lang kostenlose Parkplätze anbot.
Die visuelle Anleitung wird direkt in der Google Pixel 10 -Serie verfügbar sein und in der folgenden Woche auf andere Android -Geräte mit dem Rollout beginnen. Die Erweiterung auf iOS -Geräte ist in den folgenden Wochen geplant. Ein Google AI Pro- oder Ultra -Abonnement ist nicht erforderlich, um auf die Funktion Visual Guidance zuzugreifen.
Neben den visuellen Overlays implementiert Google ein neues natives Audiomodell innerhalb von Gemini Live. Dieses Modell soll reaktionsfähigere und ausdrucksstarke Gespräche ermöglichen.
Das neue Audiomodell wird basierend auf dem Kontext des Gesprächs angemessener reagieren. Zum Beispiel wird das Audiomodell bei der Erörterung eines stressigen Themas mit einem ruhigeren und gemesseneren Ton reagieren.
Benutzer haben die Kontrolle über die Sprachmerkmale des Audiomodells. Wenn es einem Benutzer schwierig fällt, mit Geminis Rede Schritt zu halten, kann er sie langsamer sprechen. Umgekehrt können Benutzer, wenn die Zeit begrenzt ist, Gemini anweisen, ihre Rede zu beschleunigen.
Das System kann auch Erzählungen aus spezifischen Perspektiven liefern. Wie Google in seinem Blog -Beitrag feststellte, können Benutzer „Gemini auffordern, Ihnen aus der Perspektive von Julius Caesar selbst etwas über das Römische Reich zu erzählen und eine reiche, engagierte Erzählung mit Charakterakzenten zu erhalten.“
Dieser Artikel wurde um 19:50 Uhr ET aktualisiert, um Klarstellungen zum natürlichen Audio -Modell bereitzustellen und Demo -Assets aus dem Blog -Beitrag von Google aufzunehmen.





