Eine aktuelle Untersuchung von Anthropic hat enthüllt eine neue Methode zur Umgehung der Schutzmaßnahmen von LLMs, die als „Many-Shot-Jailbreaking“ bezeichnet wird. Dieser Ansatz nutzt die umfangreichen Kontextfenster modernster LLMs, um die Modelle so zu steuern, dass sie potenziell gefährliche oder schädliche Reaktionen generieren.
Die Weiterentwicklung großer Sprachmodelle bringt mehr Möglichkeiten für Missbrauch mit sich …
Neues Anthropic-Forschungspapier: Jailbreaking mit vielen Schüssen.
Wir untersuchen eine Jailbreaking-Technik für lange Kontexte, die bei den meisten großen Sprachmodellen effektiv ist, einschließlich der von Anthropic und vielen unserer Kollegen entwickelten.
Lesen Sie hier unseren Blogbeitrag und das Papier: https://t.co/6F03M8AgcA pic.twitter.com/wlcWYsrfg8
– Anthropisch (@AnthropicAI) 2. April 2024
Was ist eigentlich Many-Shot-Jailbreaking?
Der Kern des Many-Shot-Jailbreaking besteht darin, das Modell mit zahlreichen Frage-Antwort-Paaren zu überschwemmen, die zeigen, dass die KI unsichere oder schädliche Antworten liefert. Durch den Einsatz Hunderter solcher Instanzen können Täter die Sicherheitsprotokolle des Modells effektiv umgehen und so unerwünschte Inhalte produzieren. Dieser Fehler wurde nicht nur in den Modellen von Anthropic festgestellt, sondern auch in denen, die von führenden KI-Unternehmen wie OpenAI erstellt wurden.
Im Kern nutzt das Many-Shot-Jailbreaking das Konzept des kontextbezogenen Lernens, bei dem ein Modell seine Antworten auf der Grundlage der Eingabebeispiele in seiner unmittelbaren Umgebung anpasst. Dieser Zusammenhang zeigt, dass es eine komplexe Herausforderung ist, eine Strategie zu entwickeln, um solchen Taktiken entgegenzuwirken, ohne die Lernfähigkeit des Modells zu beeinträchtigen.
Diese Technik nutzt die umfangreichen Kontextfenster fortgeschrittener LLMs und ermöglicht es manipulativen Eingabeaufforderungen, die Ethik- und Sicherheitsrichtlinien der Modelle zu umgehen, was zu potenziell schädlichen Ergebnissen führt.

Der Kern dieser Technik liegt in der Verwendung zahlreicher Beispiele unerwünschten Verhaltens innerhalb einer einzigen Eingabeaufforderung und nutzt dabei die umfangreichen Kontextfähigkeiten moderner LLMs, um sie zur Replikation dieses Verhaltens zu ermutigen. Dies ist eine deutliche Abweichung von früheren Ansätzen, die auf kürzeren Kontexten beruhten, und markiert eine besorgniserregende Entwicklung in der Komplexität von Angriffen gegen KI-Sicherheitsmaßnahmen.
Diese Studie zielte speziell auf LLMs der Spitzenklasse, darunter Claude 2.0, GPT-3.5, GPT-4, Llama 2 und Mistral 7B, für eine Reihe von Aufgaben ab. Die Ergebnisse waren alarmierend; Mit ausreichend „Schüssen“ oder Beispielen zeigten diese Modelle eine Vielzahl unerwünschter Verhaltensweisen, wie etwa Beleidigungen oder Anweisungen zur Herstellung von Waffen. Die Wirksamkeit dieser Angriffe nahm vorhersehbar mit der Anzahl der bereitgestellten Beispiele zu, was die erhebliche Anfälligkeit von LLMs für diese neue Form der Ausbeutung unterstreicht.
Amazon investiert satte 4 Milliarden US-Dollar in das KI-Unternehmen Anthropic
Die Forschung wirft Licht auf die Skalierungsgesetze des Lernens im Kontext und legt nahe, dass mit zunehmender Anzahl manipulativer Beispiele auch die Wahrscheinlichkeit zunimmt, dass ein Modell schädliche Inhalte produziert, und zwar einer Potenzgesetzverteilung folgend. Diese Beziehung gilt für verschiedene Aufgaben, Modellgrößen und sogar bei Änderungen im Format oder Stil der Eingabeaufforderung, was auf eine robuste und vielseitige Methode zur Umgehung von LLM-Sicherheitsprotokollen hinweist.
Entscheidend war, dass in der Studie auch verschiedene Abhilfestrategien untersucht wurden, darunter Standardausrichtungstechniken und Änderungen an den Trainingsdaten. Allerdings zeigten diese Ansätze nur eine begrenzte Wirksamkeit bei der Eindämmung des Potenzials für schädliche Ergebnisse in großem Maßstab, was darauf hindeutet, dass der Weg zur Sicherung von LLMs vor derart raffinierten Angriffen schwierig sein wird.
Hervorgehobener Bildnachweis: Markus Spiske/Unsplash