OpenAI hat gestartet eine Forschungsvorschau von Operator, einem Allzweck-KI-Agenten, der in der Lage ist, selbstständig Aufgaben auszuführen, indem er die Kontrolle über einen Webbrowser übernimmt. Diese Funktion steht US-Benutzern erstmals im Rahmen des 200-Dollar-Pro-Abonnementplans von ChatGPT zur Verfügung. Eine Ausweitung auf weitere Benutzerstufen ist für die Zukunft geplant.
OpenAI-Operator erklärt
Der Betreiber kann verschiedene Aufgaben automatisieren, darunter die Buchung von Reiseunterkünften, Restaurantreservierungen und Online-Einkäufe. Benutzer können innerhalb der Bedieneroberfläche aus Kategorien wie Einkaufen, Lieferung, Essen und Reisen auswählen. Bei Aktivierung wird ein spezielles Webbrowser-Fenster geöffnet, in dem den Benutzern die vom Bediener ausgeführten Aktionen sowie Erklärungen angezeigt werden. Benutzer können die Kontrolle über ihre Bildschirme behalten, während Operator in seiner eigenen Browserumgebung arbeitet.
OpenAI behauptet, dass Superintelligenz näher ist, als Sie denken
Der KI-Agent basiert auf einem CUA-Modell (Computer-Using Agent), das die Sehfähigkeiten des GPT-4o-Modells mit fortgeschrittenem Denken kombiniert. CUA interagiert mit dem Front-End von Websites, ohne dass entwicklerorientierte APIs erforderlich sind. Diese Funktionalität ermöglicht es ihm, Schaltflächen zu verwenden, durch Menüs zu navigieren und Formulare auszufüllen, wie es ein Mensch tun würde. OpenAI arbeitet mit verschiedenen Unternehmen zusammen, darunter DoorDash, eBay, Instacart und Priceline, und stellt sicher, dass der Betreiber seine Nutzungsbedingungen einhält.
OpenAI gibt an, dass das CUA-Modell darauf ausgelegt ist, den Benutzer um eine Bestätigung zu bitten, bevor Aufgaben mit externen Auswirkungen abgeschlossen werden, beispielsweise das Absenden einer Bestellung oder das Versenden einer E-Mail. Trotz seiner Fähigkeiten warnt OpenAI davor, dass CUA möglicherweise nicht in allen Szenarien zuverlässig funktioniert und mit komplexen Aufgaben wie der Erstellung detaillierter Diashows, der Verwaltung komplizierter Kalender oder der Navigation durch nicht standardmäßige Weboberflächen zu kämpfen hat.
Für sensible Aufgaben wie Bankgeschäfte ist eine Benutzeraufsicht erforderlich. Der Betreiber sammelt keine Benutzerdaten und macht auch keine Screenshots davon. Er schreibt eine direkte Aufsicht über besonders sensible Websites wie E-Mail- und Finanzdienstleistungen vor, sodass Benutzer etwaige Fehler umgehend beheben können.
Der Betreiber hat bestimmte Einschränkungen. OpenAI erzwingt Ratenbegrenzungen – sowohl täglich als auch aufgabenabhängig – und legt fest, dass bestimmte Aufgaben, wie das Versenden von E-Mails oder das Löschen von Kalenderereignissen, aus Sicherheitsgründen abgelehnt werden. OpenAI plant, diese Einschränkungen in Zukunft zu überarbeiten, obwohl kein konkreter Zeitplan angegeben ist.https://www.youtube.com/watch?v=m0Cjiq8P6iU
Der Bediener kann auch auf Schwierigkeiten mit komplexen Webschnittstellen, Passwortfeldern und CAPTCHA-Prüfungen stoßen, die den Benutzer an dieser Stelle zum Eingreifen veranlassen. OpenAI erkennt die Sicherheitsrisiken an, die mit KI-Systemen verbunden sind, die Aktionen im Web ausführen können, und betont die Notwendigkeit, potenzielle Exploits durch böswillige Akteure zu verhindern.
OpenAI hat mehrere Sicherheitsmaßnahmen implementiert. Der Agent fordert bei sensiblen Transaktionen Eingaben zur Benutzersteuerung an und führt vor wichtigen Aktionen Benutzerbestätigungen durch. Der Betreiber lehnt bestimmte risikoreiche Aufgaben ab und erfordert eine direkte Aufsicht auf sensiblen Plattformen. Zu den Ermittlungsmaßnahmen gehören eine vorsichtige Navigation, um sofortige Injektionen zu verhindern, ein Überwachungssystem, um den Betrieb bei verdächtigen Aktivitäten zu unterbrechen, und eine automatisierte Erkennungspipeline für aktualisierte Sicherheitsmaßnahmen.
Was ist der Operator von OpenAI und wie funktioniert er?
Operator ist ein Allzweck-KI-Agent, der mithilfe eines dedizierten Browsers autonom Aufgaben im Web ausführen kann. Es interagiert mit Websites, indem es auf Schaltflächen klickt, durch Menüs navigiert und Formulare ausfüllt.
Wie unterscheidet sich Operator von anderen KI-Tools wie Siri, Alexa oder Google Assistant?
Im Gegensatz zu herkömmlichen Assistenten verarbeitet Operator nicht nur Informationen; Durch die direkte Interaktion mit Websites können Aktionen im Internet ausgeführt werden, beispielsweise die Buchung von Unterkünften oder die Bestellung von Lebensmitteln.
Welche Aufgaben kann der Operator autonom ausführen?
Es kann sich wiederholende Aufgaben wie Reisebuchungen, Essensbestellungen, Reservierungen und Online-Einkäufe erledigen.
Warum wird Operator zunächst als Forschungsvorschau veröffentlicht?
Die Forschungsvorschau ermöglicht es OpenAI, Feedback zu sammeln, die Sicherheit zu verbessern und das Tool vor einer breiteren Bereitstellung zu verfeinern.
Was ist das Computer-Using Agent (CUA)-Modell und wie ermöglicht es dem Betreiber, mit Websites zu interagieren?
CUA kombiniert die Sehfähigkeiten von GPT-4o mit fortschrittlichem Denken und ermöglicht es dem Bediener, grafische Benutzeroberflächen wie Schaltflächen und Formulare zu sehen und mit ihnen zu interagieren.
Kann Operator komplexe Aufgaben wie das Erstellen von Diashows oder das Verwalten von Kalendern ausführen?
Noch nicht. Der Bediener hat mit komplexen Schnittstellen und speziellen Arbeitsabläufen zu kämpfen.
Welche Raten- oder Aufgabenbeschränkungen gelten für die Verwendung von Operator?
Der Operator verfügt über dynamische tägliche und aufgabenspezifische Nutzungsbeschränkungen und kann keine Aufgaben wie das Versenden von E-Mails oder die Verarbeitung von CAPTCHAs ausführen.
Wie erledigt der Operator sensible Aufgaben wie Bankgeschäfte oder die Eingabe von Zahlungsdetails?
Bei sensiblen Aktionen wie der Eingabe von Zahlungs- oder Anmeldedaten ist die Aufsicht des Benutzers erforderlich. Solche Daten werden nicht gespeichert.
Wie gewährleistet OpenAI die Sicherheit und Zuverlässigkeit des Betreibers?
Operator ist mit Sicherheitsmaßnahmen ausgestattet, darunter Benutzerbestätigungen, Übernahmemodus für sensible Eingaben und Überwachung auf böswillige Aktivitäten.
Welche Sicherheitsvorkehrungen gibt es, um zu verhindern, dass der Betreiber Fehler macht oder missbraucht wird?
Es fragt den Benutzer nach einer Bestätigung, bevor wichtige Aktionen ausgeführt werden, und setzt Überwachungssysteme ein, um Aufgaben anzuhalten, wenn verdächtige Aktivitäten erkannt werden.
Wie geht der Betreiber mit Datenschutzbedenken um und können Benutzer die Datenerfassung ablehnen?
Benutzer können die Datenerfassung ablehnen, Browserdaten löschen und Datenschutzeinstellungen über die Benutzeroberfläche des Betreibers steuern.
Was passiert, wenn der Betreiber auf Phishing-Versuche oder bösartige Websites stößt?
Es ist darauf trainiert, böswillige Eingaben zu erkennen und zu ignorieren, und ein Überwachungssystem kann Aufgaben anhalten, wenn etwas Verdächtiges passiert.
Wer kann Operator nutzen und wie viel kostet es?
Derzeit ist Operator für US-Benutzer mit dem Pro-Abonnementplan von ChatGPT im Wert von 200 US-Dollar verfügbar.
Wann wird Operator außerhalb der USA, insbesondere in Europa, verfügbar sein?
OpenAI plant die weltweite Einführung, in Europa könnte es jedoch aus regionalen Gründen länger dauern.
Wird Operator irgendwann in allen ChatGPT-Abonnementstufen enthalten sein?
Ja, OpenAI plant, den Zugriff auf die Stufen Plus, Team und Enterprise zu erweitern.
Werden Entwickler in Zukunft in der Lage sein, benutzerdefinierte Tools mithilfe des CUA-Modells zu erstellen?
Ja, OpenAI plant, das CUA-Modell in der API zu veröffentlichen, damit Entwickler ihre eigenen Agenten erstellen können.
Mit welchen Unternehmen arbeitet OpenAI für Operator zusammen und welchen Nutzen hat dies für die Benutzer?
OpenAI arbeitet mit Unternehmen wie DoorDash, Instacart und Uber zusammen, um die Funktionalität von Operator zu optimieren und gleichzeitig die Nutzungsbedingungen einzuhalten.
Hervorgehobener Bildnachweis: OpenAI