ChatGPT-Atlas mit einfachen Google Docs-Tricks ausgenutzt

OpenAI brachte im Oktober seinen KI-Browser ChatGPT Atlas auf den Markt und veranlasste Sicherheitsforscher dazu, Sicherheitslücken bei der sofortigen Injektion über Google Docs-Eingaben aufzuzeigen, die das Browserverhalten veränderten, wie das Unternehmen an einem Montag ausführlich über die Abwehrmaßnahmen berichtete Blogbeitrag Allerdings gibt er zu, dass solche Angriffe weiterhin bestehen. Bei der Prompt-Injection handelt es sich um eine Angriffsart, bei der KI-Agenten dazu manipuliert werden, böswilligen Anweisungen zu folgen, die oft in Webseiten oder E-Mails versteckt sind. OpenAI eingeführt ChatGPT-Atlas im Oktober ein KI-gestützter Browser, der für den Betrieb mit erweiterten Agentenfunktionen im offenen Web entwickelt wurde. Am Tag der Veröffentlichung veröffentlichten Sicherheitsforscher Demonstrationen, die zeigten, wie die Eingabe einiger weniger Wörter in Google Docs das Verhalten des zugrunde liegenden Browsers verändern könnte. Diese Demos verdeutlichten unmittelbare Sicherheitsbedenken im Zusammenhang mit dem neuen Produkt und zeigten praktische Methoden zur Ausnutzung des Systems durch indirekte Eingaben. Brave veröffentlichte am selben Tag wie der Start einen Blog-Beitrag, in dem er die indirekte Prompt-Injection als systematische Herausforderung für KI-gestützte Browser thematisierte. In dem Beitrag wurde speziell auf Comet von Perplexity neben anderen ähnlichen Tools verwiesen, was unterstreicht, dass sich diese Schwachstelle über den gesamten Sektor erstreckt und nicht nur auf das Angebot von OpenAI beschränkt ist. In der Analyse von Brave wurde das Problem als inhärent in der Architektur von Browsern beschrieben, die generative KI-Funktionen integrieren.

Besonderheit	Funktion / Risiko	Minderungsstrategie
Agentenmodus	Scannt automatisch E-Mails und entwirft Antworten.	Human-in-the-Loop: Erfordert eine Bestätigung für Zahlungen oder Sendungen.
Schnelle Injektion	Versteckter Text in Websites/E-Mails, der die Absicht des Benutzers außer Kraft setzt.	RL-Angreifer: Ein KI-Bot, der den Browser „vorab hackt“, um Fehler zu finden.
Datenzugriff	Hoch (Voller Zugriff auf angemeldete Sitzungen und Posteingänge).	Eingeschränkte Berechtigungen: Benutzern wird empfohlen, spezifische, eng gefasste Aufgaben zu vergeben.
Autonomieniveau	Moderat (Führt mehrstufige Arbeitsabläufe durch).	Schneller Patch-Zyklus: Interne Simulation von „Long-Horizon“-Angriffen.

Anfang des Monats gab das britische National Cyber Security Centre eine Warnung vor Prompt-Injection-Angriffen heraus, die auf generative KI-Anwendungen abzielen. Die Agentur gab an, dass solche Angriffe „möglicherweise nie vollständig eingedämmt werden können“, wodurch Websites dem Risiko von Datenschutzverletzungen ausgesetzt seien. Das Zentrum wies Cyber-Experten an, sich auf die Reduzierung des Risikos und der Auswirkungen dieser Injektionen zu konzentrieren, anstatt davon auszugehen, dass Angriffe vollständig gestoppt werden könnten. Diese Leitlinien legten den Schwerpunkt auf das praktische Risikomanagement gegenüber der Erwartung einer vollständigen Eliminierung. Der Blogbeitrag von OpenAI vom Montag skizzierte Bemühungen, den ChatGPT-Atlas gegen Cyberangriffe zu stärken. Das Unternehmen schrieb: „Prompt-Injection, ähnlich wie Betrug und Social Engineering im Web, wird wahrscheinlich nie vollständig ‚gelöst‘ werden.“ OpenAI räumte außerdem ein, dass der „Agentenmodus“ im ChatGPT Atlas „die Angriffsfläche für Sicherheitsbedrohungen erweitert“. In dem Beitrag wurde Prompt-Injection als ein andauerndes Problem dargestellt, vergleichbar mit langjährigen Web-Bedrohungen. OpenAI erklärte: „Wir betrachten die sofortige Injektion als eine langfristige Herausforderung für die KI-Sicherheit und müssen unsere Abwehrmaßnahmen dagegen kontinuierlich stärken.“ Der Agent-Modus ermöglicht es der KI des Browsers, autonome Aktionen durchzuführen, wie z. B. die Interaktion mit E-Mails oder Dokumenten, was zwangsläufig die Gefährdung durch externe Eingaben erhöht, die versteckte Anweisungen enthalten könnten. Dieser Modus unterscheidet Atlas von herkömmlichen Browsern, indem er der KI im Namen der Benutzer einen größeren Handlungsspielraum einräumt und dadurch die potenziellen Eintrittspunkte für Manipulationen erweitert. Um diesem anhaltenden Risiko zu begegnen, hat OpenAI einen proaktiven, schnellen Reaktionszyklus implementiert, der darauf abzielt, neuartige Angriffsstrategien intern zu identifizieren, bevor es in realen Szenarien zu Ausnutzung kommt. Das Unternehmen berichtete, dass dieser Ansatz erste Erfolge bei der Abwehr von Bedrohungen versprach. Diese Methode steht im Einklang mit Strategien von Wettbewerbern wie Anthropic und Google, die sich für mehrschichtige Abwehrmaßnahmen und kontinuierliche Stresstests in Agentensystemen einsetzen. Die jüngsten Bemühungen von Google integrieren beispielsweise Kontrollen auf Architektur- und Richtlinienebene, die auf solche Umgebungen zugeschnitten sind. OpenAI zeichnet seinen Ansatz durch den Einsatz eines LLM-basierten automatisierten Angreifers aus, eines Bots, der durch Reinforcement Learning darauf trainiert wird, Hackertaktiken zu simulieren. Dieser Bot sucht nach Möglichkeiten, bösartige Anweisungen in KI-Agenten einzufügen. Es führt Tests in einer Simulationsumgebung vor jeder realen Anwendung durch. Der Simulator reproduziert die Denkprozesse und nachfolgenden Aktionen der Ziel-KI bei einem Angriff und ermöglicht es dem Bot, Reaktionen zu analysieren, seine Strategie zu verfeinern und wiederholt zu iterieren. Dieser interne Zugriff auf die Argumentation der KI verschafft OpenAI einen Vorteil, den externe Angreifer nicht nutzen können, und ermöglicht eine schnellere Fehlererkennung. Die Technik spiegelt gängige Praktiken bei KI-Sicherheitstests wider, bei denen spezialisierte Agenten Randfälle durch schnelle simulierte Versuche untersuchen. OpenAI stellte fest, dass sein auf Reinforcement-Learning geschulter Angreifer einen Agenten dazu bringen kann, anspruchsvolle, schädliche Arbeitsabläufe über einen langen Zeitraum auszuführen, die sich über Dutzende (oder sogar Hunderte) Schritte erstrecken. Das Unternehmen fügte hinzu: „Wir haben auch neuartige Angriffsstrategien beobachtet, die weder in unserer Human-Red-Teaming-Kampagne noch in externen Berichten auftauchten.“ In einer konkreten Demonstration im Blogbeitrag fügte der automatisierte Angreifer eine bösartige E-Mail in den Posteingang eines Benutzers ein. Als der Agentenmodus von Atlas den Posteingang durchsuchte, um eine Abwesenheitsantwort zu verfassen, befolgte er stattdessen die verborgenen Anweisungen der E-Mail und verfasste eine Kündigungsnachricht. Dieses Beispiel veranschaulicht eine mehrstufige Täuschung, die die E-Mail-Verarbeitung und die Nachrichtengenerierung umfasst und anfängliche Schutzmaßnahmen umgeht. Nach einem Sicherheitsupdate für Atlas erkannte der Agent-Modus den Prompt-Injection-Versuch beim Scannen des Posteingangs und meldete ihn direkt dem Benutzer. Dieses Ergebnis zeigte die Wirksamkeit der Schnellreaktionsmaßnahmen bei der Echtzeit-Bedrohungsminderung und verhinderte, dass die schädliche Aktion fortschreitet. OpenAI setzt auf groß angelegte Tests in Kombination mit beschleunigten Patch-Zyklen, um Systeme gegen sofortige Injektionen zu wappnen, bevor sie sich äußerlich manifestieren. Diese Prozesse ermöglichen iterative Verbesserungen auf der Grundlage simulierter Entdeckungen und stellen so sicher, dass sich die Abwehrmaßnahmen parallel zu potenziellen Bedrohungen weiterentwickeln.

Hervorgehobener Bildnachweis