Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Google veröffentlicht Gemini 2.5 Computer -Use -Modell zum Erstellen von UI -Agenten

byEmre Çıtak
Oktober 8, 2025
in Künstliche Intelligenz
Home Nachricht Künstliche Intelligenz
Share on FacebookShare on Twitter
Google Preferred Source

Google hat das Gemini 2.5 Computer -Use -Modell veröffentlicht, ein neues spezielles Modell, das in der Vorschau über die Gemini -API verfügbar ist. Es basiert auf Gemini 2.5 Pro und ermöglicht es Entwicklern, KI -Agenten zu erstellen, die Websites und mobile Anwendungen durch Klicken, Tippen und Scrollen steuern können, genau wie ein Mensch. Während KI -Modelle häufig über strukturierte APIs mit Software interagieren können, erfordern viele digitale Aufgaben, wie das Ausfüllen von Formularen oder das Navigieren komplexer Webseiten, weiterhin eine direkte Interaktion mit einer grafischen Benutzeroberfläche (GUI). Dieses Modell ist so konzipiert, dass diese Aufgaben automatisiert werden können, damit Agenten hinter Logins arbeiten und interaktive Elemente wie Dropdowns und Filter manipulieren.

Wie das Gemini 2.5 -Computermodell funktioniert

Auf die Funktionen des Modells werden über ein neues „Computer_Use“ -Tool in der Gemini -API zugegriffen und in einer kontinuierlichen Schleife betrieben.

  1. Der Entwickler stellt dem Agenten eine Benutzeranforderung, einen Screenshot der aktuellen Benutzeroberfläche und einen Geschichte der jüngsten Aktionen zur Verfügung.
  2. Das Modell analysiert diese Eingaben und generiert eine vorgeschlagene Aktion, z. B. einen Funktionsaufruf, um auf ein Element zu klicken oder Text in ein Feld einzugeben.
  3. Der clientseitige Code führt die Aktion aus.
  4. Ein neuer Screenshot der aktualisierten GUI wird an das Modell zurückgesandt, und die Schleife wiederholt sich, bis die Aufgabe abgeschlossen oder beendet ist.

Das Modell ist in erster Linie für Webbrowser optimiert, zeigt aber auch eine starke Leistung bei mobilen UI -Steuerungsaufgaben. Es ist noch nicht optimiert, um ein Desktop -Betriebssystem zu steuern. https://www.youtube.com/watch?v=_lu-fcpuifm

Leistung auf Benchmarks

Laut Google zeigt das Gemini 2.5 Computer -Use -Modell eine starke Leistung in mehreren Web- und Mobile Control -Benchmarks. In Tests, die vom Browser Automation Company Browserbase durchgeführt wurden, lieferte das Modell eine hohe Genauigkeit der Browser -Steuerungsaufgaben und hielt gleichzeitig eine niedrigere Latenz als konkurrierende Modelle.

Sicherheitsmerkmale und Entwicklersteuerungen

Google erkennt die mit KI -Agenten verbundenen Risiken, die Computer steuern können, und hat Sicherheitsfunktionen direkt in das Modell aufgebaut und für Entwicklern zusätzliche Steuerelemente bereitgestellt.

  • Eingebaute Sicherheitstraining: Das Modell ist geschult, um Risiken wie vorsätzlicher Missbrauch durch Benutzer, unerwartetes Modellverhalten und schnelle Injektionsangriffe zu beheben.
  • Sicherheitsdienst pro Schritt: Ein externer Sicherheitsdienst bewertet jede Aktion, die das Modell vor der Ausführung vorschlägt.
  • Systemanweisungen: Entwickler können angeben, dass der Agent entweder verweigern oder nach Benutzerbestätigung bitten muss, bevor sie Aktionen mit hohen Einsätzen ergreifen, z. B. einen Kauf, Umgehung eines Captcha oder die Kontrolle eines medizinischen Geräts.

Frühe Anwendungsfälle und Feedback

Das Modell wurde bereits bei Google für UI -Tests intern bereitgestellt und führt einige Agentenfunktionen im KI -Modus bei der Suche an. Early Access -Benutzer haben es für persönliche Assistenten und Workflow -Automatisierung getestet.

  • Der proaktive Assistent Poke.com stellte fest, dass das Modell oft 50% schneller war als andere Lösungen.
  • Die AI Agent Company Autotab berichtete, dass das Modell die Leistung bei seinen schwierigsten Bewertungen für zuverlässig analysierte Kontext um bis zu 18% erhöhte.
  • Google Payments Platform Team Implementierte das Modell zur Behebung von fragilen UI -Tests und sanfte erfolgreich über 60% der bisher gescheiterten Testausführungen.

So verwenden Sie Gemini 2.5 Computer verwenden Modell

Das Gemini 2.5 -Computer -Nutzungsmodell ist heute in der öffentlichen Vorschau über die Gemini API in Google AI Studio und Vertex AI verfügbar. Entwickler können mit der Verwendung der vorgesehenen Dokumentation beginnen und das Modell in einer von Browserbase gehosteten Demo -Umgebung testen.


Ausgewähltes Bildnachweis

Tags: AiGemini 2.5 ComputergebrauchGoogleVorgestellt

Related Posts

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Juni 3, 2026
Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Juni 3, 2026
Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Juni 3, 2026
OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

Juni 3, 2026
Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Juni 2, 2026
Das beliebte Codex-Paket wurde beim Herausfiltrieren von Authentifizierungsdaten erwischt

Das beliebte Codex-Paket wurde beim Herausfiltrieren von Authentifizierungsdaten erwischt

Juni 2, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.