Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Microsofts Fara-7B: Neues Agenten-LLM aus Screenshots

byKerem Gülen
November 25, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Microsoft-Forschung freigegeben Fara-7B, ein agentenbasiertes kleines Sprachmodell mit 7 Milliarden Parametern für den Computergebrauch, das in der Lage ist, Aufgaben lokal anhand von Screenshots auszuführen. Fara-7B fungiert als offener Computer-Use-Agent, der Maus- und Tastaturaktionen direkt anhand von Screenshots vorhersagt. Seine kompakte Größe ermöglicht die Ausführung auf einem einzigen Benutzergerät, was die Latenz reduziert und die Browserdaten lokal speichert. Im Gegensatz zu herkömmlichen textgenerierenden, chatorientierten Large Language Models (LLMs) steuern Computer Use Agents wie Fara-7B Browser- oder Desktop-Schnittstellen, um Aufgaben wie das Ausfüllen von Formularen, Reisebuchungen oder Preisvergleiche zu erledigen. Sie interpretieren den Bildschirm, analysieren Seitenlayouts und führen dann Aktionen auf niedriger Ebene aus, darunter Klicks, Scrollen, Tippen, Websuchen oder URL-Besuche. Viele aktuelle Systeme nutzen große multimodale Modelle, die in ein komplexes Gerüst integriert sind, das Barrierefreiheitsbäume analysiert und verschiedene Tools koordiniert. Dies erhöht die Latenz und erfordert häufig eine serverseitige Bereitstellung. Fara-7B fasst die Funktionalität solcher Multiagentensysteme in einem einzigen multimodalen Decoder-Modell zusammen, das auf Qwen2.5-VL-7B aufbaut. Es verarbeitet Browser-Screenshots und Textkontext und generiert dann Gedankentext, gefolgt von einem Toolaufruf mit fundierten Argumenten wie Koordinaten, Text oder URLs. Die Hauptbeschränkung für Computer Use Agents betrifft Daten, da qualitativ hochwertige Protokolle mehrstufiger menschlicher Webinteraktionen rar und teuer in der Anschaffung sind. Das Fara-Projekt stellt FaraGen vor, eine synthetische Daten-Engine, die Web-Trajektorien auf Live-Sites generiert und filtert. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/fara_xbox_multi_turn-3.mp4

Video: Microsoft

FaraGen verwendet eine dreistufige Pipeline. Aufgabenvorschlag beginnt mit Seed-URLs von öffentlichen Korpora wie ClueWeb22 und Tranco, kategorisiert in Domänen wie E-Commerce, Reisen, Unterhaltung oder Foren. Große Sprachmodelle wandeln jede URL in realistische Benutzeraufgaben um, beispielsweise das Buchen bestimmter Kinokarten oder das Erstellen einer Einkaufsliste mit Überprüfungs- und Materialbeschränkungen. Aufgaben müssen ohne Login oder Paywall erreichbar, vollständig spezifiziert, nützlich und automatisch überprüfbar sein.

Aufgabenlösung nutzt ein Multiagentensystem auf Basis von Magentic-One und Magentic-UI. Ein Orchestrator-Agent plant eine übergeordnete Strategie und verwaltet den Aufgabenstatus. Ein WebSurfer-Agent empfängt Barrierefreiheitsbäume und Set-of-Marks-Screenshots und gibt dann Browser-Aktionen über Playwright aus, einschließlich Klicken, Tippen, Scrollen, Visit_URL oder Web-Suche. Ein UserSimulator-Agent stellt Folgeanweisungen für Aufgaben bereit, die einer Klärung bedürfen.

Überprüfung der Flugbahn verwendet drei LLM-basierte Prüfer. Ein Alignment Verifier prüft, ob Aktionen und endgültige Antworten mit der Aufgabenabsicht übereinstimmen. Ein Rubrikenverifizierer generiert eine Rubrik mit Unterzielen und bewertet den teilweisen Abschluss. Ein multimodaler Prüfer untersucht Screenshots und die endgültige Antwort, um Halluzinationen zu erkennen und zu bestätigen, dass sichtbare Beweise den Erfolg unterstützen. Diese Prüfer demonstrieren die Übereinstimmung mit menschlichen Etiketten 83,3 Prozent der Fälle, wobei die gemeldeten Falsch-Positiv- und Falsch-Negativ-Raten bei etwa 17 bis 18 Prozent liegen. Nach der Filterung produziert FaraGen 145.603 Flugbahnen mit 1.010.797 Schritte über 70.117 einzigartige Domains. Die Trajektorien umfassen einen Durchschnitt von 3 bis 84 Schritten 6,9 Schritte und ungefähr 0,5 eindeutige Domänen pro Trajektorie, was darauf hindeutet, dass Aufgaben häufig Standorte betreffen, die an anderer Stelle im Datensatz nicht vorhanden sind. Die Generierung von Daten mit Premium-Modellen wie GPT-5 und o3 kostet ca 1 $ pro verifizierter Flugbahn. Fara-7B ist ein reines multimodales Decodermodell, das Qwen2.5-VL-7B als Basis nutzt. Es verarbeitet ein Benutzerziel, aktuelle Browser-Screenshots und den vollständigen Verlauf früherer Gedanken und Aktionen. Das Kontextfenster unterstützt 128.000 Token. Bei jedem Schritt generiert das Modell zunächst eine Gedankenkette, die den aktuellen Zustand und Plan detailliert beschreibt, und gibt dann einen Toolaufruf aus, der die nächste Aktion und ihre Argumente angibt. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/driving_directions_cheese-1_revised.mp4

Video: Microsoft

Der Werkzeugbereich ist auf die Computernutzungsoberfläche von Magentic-UI abgestimmt und umfasst Tasten, Eingabe, Mausbewegung, Linksklick, Scrollen, Visit_URL, Websuche, History_Back, Pause_and_Memorize_Fact, Warten und Beenden. Koordinaten werden direkt als Pixelpositionen auf dem Screenshot vorhergesagt, sodass das Modell während der Inferenz ohne Zugriff auf den Barrierefreiheitsbaum arbeiten kann. Das Training umfasste eine überwachte Feinabstimmung über ca 1,8 Millionen ProbenMischen mehrerer Datenquellen. Dazu gehören FaraGen-Trajektorien, die in Beobachten-Denken-Handeln-Schritte unterteilt sind, Erdungs- und UI-Lokalisierungsaufgaben, Screenshot-basierte visuelle Fragenbeantwortung und Untertitelung sowie Sicherheits- und Ablehnungsdatensätze. Microsoft führte Bewertungen von Fara-7B anhand von vier Live-Web-Benchmarks durch: WebVoyager, Online-Mind2Web, DeepShop und dem neuen WebTailBench. WebTailBench konzentriert sich auf unterrepräsentierte Segmente wie Restaurantreservierungen, Bewerbungen, Immobiliensuche, Preisvergleiche und Kompositionsaufgaben für mehrere Websites. Bei diesen Benchmarks hat Fara-7B erreicht 73,5 Prozent Erfolg auf WebVoyager, 34,1 Prozent auf Online-Mind2Web, 26,2 Prozent auf DeepShopUnd 38,4 Prozent auf WebTailBench. Dies übertrifft die 7B Computer Use Agent-Basislinie UI-TARS-1.5-7B, die 66,4, 31,3, 11,6 bzw. 19,5 erreichte, und schneidet im Vergleich zu größeren Systemen wie OpenAI Computer-Use-Preview und SoM Agent-Konfigurationen, die auf GPT-4o basieren, gut ab. Auf WebVoyager verwendet Fara-7B durchschnittlich 124.000 Eingabe-Token Und 1.100 Ausgabetoken pro Aufgabemit ca 16,5 Aktionen. Unter Verwendung der Markt-Token-Preise schätzt das Forschungsteam die durchschnittlichen Kosten von 0,025 $ pro Aufgabeim Vergleich zu etwa 0,30 US-Dollar für SoM-Agenten, die von proprietären Argumentationsmodellen wie GPT-5 und o3 unterstützt werden. Fara-7B verwendet eine ähnliche Anzahl an Eingabe-Tokens, aber etwa ein Zehntel der Ausgabe-Tokens dieser SoM-Agenten.

  • Fara-7B: Ein offener Computer Use Agent mit 7B-Parametern, der auf Qwen2.5-VL-7B basiert.
  • Betrieb: Arbeitet direkt anhand von Screenshots und Text und gibt fundierte Aktionen ohne Barrierefreiheitsbäume zum Zeitpunkt der Inferenz aus.
  • Trainingsdaten: 145.603 verifizierte Browser-Trajektorien und 1.010.797 Schritte, die von der FaraGen-Pipeline in 70.117 Domänen generiert wurden.
  • Benchmark-Erfolg (WebVoyager): 73,5 Prozent.
  • Benchmark-Erfolg (Online-Mind2Web): 34,1 Prozent.
  • Benchmark-Erfolg (DeepShop): 26,2 Prozent.
  • Benchmark-Erfolg (WebTailBench): 38,4 Prozent.
  • Kosten für WebVoyager: Etwa 0,025 $ pro Aufgabemit 124.000 Eingabe-Tokens und 1.100 Ausgabe-Tokens.
  • Effizienz des Ausgabetokens: Etwa eine Größenordnung günstiger in der Ausgabetoken-Nutzung als SoM-Agenten, die durch Modelle der GPT-5-Klasse unterstützt werden.

Fara-7B stellt eine Entwicklung hin zu praktischen Computer Use Agents dar, die einen lokalen Hardwarebetrieb mit reduzierten Inferenzkosten bei gleichzeitiger Wahrung der Privatsphäre ermöglichen. Die Integration von Qwen2.5-VL-7B, synthetischen Trajektorien von FaraGen und WebTailBench bietet einen Weg von der Datengenerierung mit mehreren Agenten zu einem einzigen, kompakten Modell, das bei wichtigen Benchmarks mit größeren Systemen mithalten oder diese übertreffen kann und gleichzeitig Schutzmaßnahmen für kritische Punkte und Ablehnung beinhaltet.


Hervorgehobener Bildnachweis

Tags: Fara-7bMicrosoft

Related Posts

OpenAI GPT 5.2 knackt Erdős Matheproblem in 15 Minuten

OpenAI GPT 5.2 knackt Erdős Matheproblem in 15 Minuten

Januar 19, 2026
Appfigures: Die Ausgaben für mobile Apps erreichen einen Rekordwert von 155,8 Milliarden US-Dollar

Appfigures: Die Ausgaben für mobile Apps erreichen einen Rekordwert von 155,8 Milliarden US-Dollar

Januar 15, 2026
Der weltweite Mangel an Speicherchips lässt die PC-Preise in die Höhe schnellen

Der weltweite Mangel an Speicherchips lässt die PC-Preise in die Höhe schnellen

Januar 14, 2026
Ingenieure bauen von Heuschrecken inspirierte Roboter, um das Problem der Batterieentladung zu lösen

Ingenieure bauen von Heuschrecken inspirierte Roboter, um das Problem der Batterieentladung zu lösen

Januar 14, 2026
Nature-Studie prognostiziert bis 2050 2 Milliarden tragbare Gesundheitsgeräte

Nature-Studie prognostiziert bis 2050 2 Milliarden tragbare Gesundheitsgeräte

Januar 7, 2026
Das Imperial College London entwickelt KI, um die Entdeckung von Herzmedikamenten zu beschleunigen

Das Imperial College London entwickelt KI, um die Entdeckung von Herzmedikamenten zu beschleunigen

Januar 6, 2026

Recent Posts

  • Musk fordert 134 Milliarden US-Dollar von OpenAI und Microsoft
  • Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X
  • Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf
  • iOS 27: Alles, was wir bisher wissen
  • Walmart behält das Apple Pay-Verbot in US-Filialen für 2026 bei

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.