Studie zeigt, dass Poesie in 62 % der Fälle KI-Sicherheitsfilter umgeht

Ein aktueller Studie von Icaro Lab testete poetische Strukturen, um große Sprachmodelle (LLMs) dazu zu veranlassen, verbotene Informationen zu generieren, einschließlich Details zum Bau einer Atombombe. In ihrer Studie mit dem Titel „Adversarial Poetry als universeller Single-Turn-Jailbreak-Mechanismus in großen Sprachmodellen„Forscher von Icaro Lab umgingen KI-Chatbot-Sicherheitsmechanismen, indem sie poetische Eingabeaufforderungen verwendeten. Die Studie ergab, dass die „poetische Form als Allzweck-Jailbreak-Operator fungiert“ und eine Erfolgsquote von 62 Prozent bei der Produktion verbotener Inhalte erzielte. Zu diesen Inhalten gehörten Informationen zu Atomwaffen, Materialien zum sexuellen Missbrauch von Kindern sowie Selbstmord oder Selbstverletzung. Forscher testeten verschiedene beliebte LLMs, darunter die GPT-Modelle von OpenAI, Google Gemini und Claude von Anthropic. Google Gemini, DeepSeek und MistralAI lieferten durchweg Antworten, während die GPT-5-Modelle von OpenAI und Claude Haiku 4.5 ihre Einschränkungen weniger wahrscheinlich umgingen. Die spezifischen Jailbreaking-Gedichte wurden nicht in die Studie einbezogen Verdrahtet dass der Vers „zu gefährlich ist, um ihn der Öffentlichkeit zugänglich zu machen“. Um die einfache Umgehung zu verdeutlichen, wurde eine abgeschwächte Fassung bereitgestellt. Forscher teilten Wired mit, dass es „wahrscheinlich einfacher ist, als man denkt, und genau deshalb sind wir vorsichtig.“

Hervorgehobener Bildnachweis

No Result