Google hat das Gemini 2.5 Computer -Use -Modell veröffentlicht, ein neues spezielles Modell, das in der Vorschau über die Gemini -API verfügbar ist. Es basiert auf Gemini 2.5 Pro und ermöglicht es Entwicklern, KI -Agenten zu erstellen, die Websites und mobile Anwendungen durch Klicken, Tippen und Scrollen steuern können, genau wie ein Mensch. Während KI -Modelle häufig über strukturierte APIs mit Software interagieren können, erfordern viele digitale Aufgaben, wie das Ausfüllen von Formularen oder das Navigieren komplexer Webseiten, weiterhin eine direkte Interaktion mit einer grafischen Benutzeroberfläche (GUI). Dieses Modell ist so konzipiert, dass diese Aufgaben automatisiert werden können, damit Agenten hinter Logins arbeiten und interaktive Elemente wie Dropdowns und Filter manipulieren.
Wie das Gemini 2.5 -Computermodell funktioniert
Auf die Funktionen des Modells werden über ein neues „Computer_Use“ -Tool in der Gemini -API zugegriffen und in einer kontinuierlichen Schleife betrieben.
- Der Entwickler stellt dem Agenten eine Benutzeranforderung, einen Screenshot der aktuellen Benutzeroberfläche und einen Geschichte der jüngsten Aktionen zur Verfügung.
- Das Modell analysiert diese Eingaben und generiert eine vorgeschlagene Aktion, z. B. einen Funktionsaufruf, um auf ein Element zu klicken oder Text in ein Feld einzugeben.
- Der clientseitige Code führt die Aktion aus.
- Ein neuer Screenshot der aktualisierten GUI wird an das Modell zurückgesandt, und die Schleife wiederholt sich, bis die Aufgabe abgeschlossen oder beendet ist.
Das Modell ist in erster Linie für Webbrowser optimiert, zeigt aber auch eine starke Leistung bei mobilen UI -Steuerungsaufgaben. Es ist noch nicht optimiert, um ein Desktop -Betriebssystem zu steuern. https://www.youtube.com/watch?v=_lu-fcpuifm
Leistung auf Benchmarks
Laut Google zeigt das Gemini 2.5 Computer -Use -Modell eine starke Leistung in mehreren Web- und Mobile Control -Benchmarks. In Tests, die vom Browser Automation Company Browserbase durchgeführt wurden, lieferte das Modell eine hohe Genauigkeit der Browser -Steuerungsaufgaben und hielt gleichzeitig eine niedrigere Latenz als konkurrierende Modelle.
Sicherheitsmerkmale und Entwicklersteuerungen
Google erkennt die mit KI -Agenten verbundenen Risiken, die Computer steuern können, und hat Sicherheitsfunktionen direkt in das Modell aufgebaut und für Entwicklern zusätzliche Steuerelemente bereitgestellt.
- Eingebaute Sicherheitstraining: Das Modell ist geschult, um Risiken wie vorsätzlicher Missbrauch durch Benutzer, unerwartetes Modellverhalten und schnelle Injektionsangriffe zu beheben.
- Sicherheitsdienst pro Schritt: Ein externer Sicherheitsdienst bewertet jede Aktion, die das Modell vor der Ausführung vorschlägt.
- Systemanweisungen: Entwickler können angeben, dass der Agent entweder verweigern oder nach Benutzerbestätigung bitten muss, bevor sie Aktionen mit hohen Einsätzen ergreifen, z. B. einen Kauf, Umgehung eines Captcha oder die Kontrolle eines medizinischen Geräts.
Frühe Anwendungsfälle und Feedback
Das Modell wurde bereits bei Google für UI -Tests intern bereitgestellt und führt einige Agentenfunktionen im KI -Modus bei der Suche an. Early Access -Benutzer haben es für persönliche Assistenten und Workflow -Automatisierung getestet.
- Der proaktive Assistent Poke.com stellte fest, dass das Modell oft 50% schneller war als andere Lösungen.
- Die AI Agent Company Autotab berichtete, dass das Modell die Leistung bei seinen schwierigsten Bewertungen für zuverlässig analysierte Kontext um bis zu 18% erhöhte.
- Google Payments Platform Team Implementierte das Modell zur Behebung von fragilen UI -Tests und sanfte erfolgreich über 60% der bisher gescheiterten Testausführungen.
So verwenden Sie Gemini 2.5 Computer verwenden Modell
Das Gemini 2.5 -Computer -Nutzungsmodell ist heute in der öffentlichen Vorschau über die Gemini API in Google AI Studio und Vertex AI verfügbar. Entwickler können mit der Verwendung der vorgesehenen Dokumentation beginnen und das Modell in einer von Browserbase gehosteten Demo -Umgebung testen.





