Was ist, wenn die Automatisierung eines Desktops nicht um Skriptklickmuster, sondern um das Betriebssystem ein intelligentes Team von Agenten gilt? Das ist die Kernidee dahinter UFO2Microsofts neuestes Open-Source-System, das über die aktuellen Computer-Us-Agenten (CUAs) hinaus drückt und die Automatisierung als erstklassige OS-Abstraktion neu erfindet. Es verwandelt Ihren Desktop in ein intelligentes Bedienfeld, in dem sprachgesteuerte Aufgaben nativ, zuverlässig und mit minimaler Störung Ihres Workflows ausgeführt werden.
Herkömmliche Tools für Desktop -Automatisierung wie RPA -Systeme haben immer mit Robustheit zu kämpfen. Eine geringfügige Veränderung in einer Benutzeroberfläche kann ein ganzes Drehbuch zerstören. CUAs versuchten, dies mit großen Sprachmodellen und Screenshot -Analysen zu beheben, blieben jedoch durch flache Systemintegration und klobige Benutzererfahrungen begrenzt. UFO2 fließt dieses Modell aus, indem Sie aus dem Betriebssystem nach oben erstellt. Es führt eine Multiagent -Architektur ein, in der a Zentralhostagent Koordinaten spezialisiert Appagenten für verschiedene Anwendungen. Jeder Agent spricht die Muttersprache der App über APIs und UI -Metadaten, nicht nur Pixel.

Eine der wichtigsten technischen Innovationen von UFO2 ist das Hybrid -Aktionsmodell. Anstatt nur wie ein Mensch auf Schaltflächen zu klicken, kann jeder Anpagent bei verfügbaren APIs echte APIs aufrufen. Dies bedeutet, dass Aufgaben wie das Exportieren einer Tabelle oder Formatierungstext von mehrstufigen GUI-Tänzen zu einem einzigen Atomfunktionsaufruf reduziert werden. Das System sp? Das Spekulative Multi-Action-Ausführung Schnitt die Latenz dramatisch ab, ohne die Korrektheit zu riskieren.
Isolation ohne Unterbrechung
CUAs entführen normalerweise Ihren Desktop und sperren die Maus und die Tastatur während der Ausführung. UFO2 Bild-in-Bild (PIP) Der Modus löst dies mit einem virtuellen Desktop -Fenster, in dem Automatisierungsaufgaben parallel ausgeführt werden. Der Agent macht sein Ding in einer Sandbox -Umgebung, während Sie weiter in der Hauptsitzung arbeiten. Es ist nahtlos, sicher und verwendet native Windows RDP -Loopback, um die Sitzungsintegrität aufrechtzuerhalten.

UFO2 integriert Hilfsdokumentations- und Ausführungsprotokolle in ein abgerufenes Speicher und bereichert seine Eingabeaufforderungen mit prozeduralem Wissen. Im Laufe der Zeit schafft dies einen selbstverschreibenden Agenten, der bei neuen Aufgaben, ohne sich umzusetzen, besser wird. Jeder Appagent zieht sich aus Dokumentation, Patchnotizen und vorherigen Läufen, um intelligentere Entscheidungen zu treffen. Es ist ein Automatisierungssystem mit Speicher, nicht nur der Reaktionsgenerierung.
In Kopf-an-Kopf-Benchmarks gegen den Openai-Betreiber und andere Top-Cuas übertreffen UFO2 konsequent. Unter dem Benchmark von Osworld-W erreicht UFO2 eine Erfolgsrate von 32,7% mit dem O1-Modell-mehr als die Verdoppelung von 14,3% des Bedieners. Die spekulative Planung reduziert Aktionsschritte um bis zu 50%. Hybridkontrollerkennung (Kombination von UIA -APIs und Sehvorricht) erholt sich über 25% der zuvor fehlgeschlagenen Wechselwirkungen. Einfach ausgedrückt, UFO2 ist nicht nur schlauer – es ist systemisch besser besser.
Jetzt ist alles ein Agent
Die Erweiterbarkeit wird eingebacken. UFO2 ermöglicht es, Tools von Drittanbietern, einschließlich anderer CUAs wie dem Bediener, als Anpassungen eingewickelt zu werden. Dies bedeutet, dass Sie spezielle Copiloten oder proprietäre Automatisierungs -Backends in das UFO2 -Ökosystem integrieren können, ohne den Code umzusetzen oder neu zu schreiben. Es unterstützt auch eine Client-Server-Architektur für die Bereitstellung von Unternehmen, wobei die Orchestrierung zentralisiert und Benutzergeräte beleuchtet werden.
Das Papier beschreibt zukünftige Ziele, einschließlich plattformübergreifender Kompatibilität mit macOS und Linux über analoge APIs Barrierefreiheit, schnellere Reaktion über kleinere LLMs und verbesserte Argumentation durch dedizierte GUI-Interaktionsdatensätze. Aber auch in seinem aktuellen Zustand ist UFO2 a Neue Basis für die Desktop -Automatisierung. Es handelt sich um Open-Source, die bereits kommerzielle Systeme übertreffen, und verleiht der Interaktion zwischen Modularität, Zuverlässigkeit und Intelligenz ein neues Maß an Modularität, Zuverlässigkeit und Intelligenz.
Für jeden, der die nächste Generation intelligenter Agenten baut – oder nur müde von spröden Schriften –UFO2 ist auf GitHub erhältlich zusammen mit seiner Dokumentation.
Ausgewähltes Bildnachweis