Am 9. September 2025 wurde ein neues AI-Modell mit 32 Milliarden Parametern namens K2 Think von den in den VAE ansässigen Mohamed Bin Zayed University of Artificial Intelligence (MBzuai) und G42-Unternehmen veröffentlicht. Das Modell ist für fortschrittliche Argumentation und Behauptungen ausgelegt, die mit größeren Modellen wie O3 und Deepseeks R1 vergleichbar ist. Eine wichtige Funktion von K2 Think ist seine Transparenz, mit der Benutzer die schrittweise Argumentation des Modells im Klartext anzeigen können. Stunden nach seiner Veröffentlichung entdeckte der Forscher Alex Polyakov von Adversa AI eine Sicherheitsanfälligkeit, die er nannte. „teilweise Eingabeaufforderung. „Obwohl sein ursprünglicher Versuch, das Modell mit Jailbreak zu entsprechen, blockiert war, zeigten ihm die transparenten Argumentationsprotokolle genau, warum die Anfrage gekennzeichnet war. Mit diesen Informationen wurde Polyakov seinen Ansatz über mehrere Versuche verfeinert und die Schutzmaßnahmen von K2 Think erfolgreich umging, was das Modell überschritt, um Anweisungen für illegale Aktivitäten wie die Erstellung von Malware zu erstellen.
Modelltransparenz schafft eine Sicherheitsherausforderung
Die Transparenzfunktion von K2 Think, die zum Aufbau von Benutzervertrauen vorgesehen ist, enthält auch seine interne Logik und erzeugt eine neue Angriffsfläche. Wenn das Modell eine böswillige Eingabeaufforderung ablehnt, können seine Protokolle die ausgelöste spezifische Sicherheitsregel aufzeigen. Ein Angreifer kann dieses Feedback verwenden, um seine Eingabeaufforderungen anzupassen und die Sicherheitsebenen systematisch umgehen zu können. Dieser Vorfall unterstreicht die Notwendigkeit, dass KI -Anbieter die Transparenz mit robuster Sicherheit ausgleichen und dieselbe strenge Argumentationsprotokolle anwenden wie für die Modellierung von Ausgängen.
K2 Thinks Fähigkeiten und Design
Trotz seiner relativ kleinen Parametergröße von 32 Milliarden Parametern wird K2-Denken so konstruiert, dass sie den Argumentation, Mathematik und Codierungsleistung von viel größeren Modellen entsprechen. Es ist für komplexe, mehrstufige Problemlösungen ausgelegt, und seine Parametergewichte und Schulungsdaten sind öffentlich sichtbar. Die Fähigkeit des Modells, seinen Argumentationsprozess in klarem, ungeotterem Text anzuzeigen, unterscheidet ihn von anderen Modellen, bei denen solche Protokolle häufig vor dem Benutzer zusammengefasst oder verborgen werden.
Wie die Jailbreak -Verwundbarkeit funktioniert
Polyakov zeigte, dass zwar einfache Jailbreak -Versuche blockiert sind, die detaillierten Erklärungen des Systems, warum eine Anfrage abgelehnt wird, ausgenutzt werden. Durch die Analyse dieser Protokolle änderte er seine Aufforderungen iterativ, die Sicherheitsregeln nacheinander zu umgehen. Dieser Prozess zeigte, dass ein anhaltender Angreifer, wenn Regeln für Leitplanken aufgedeckt werden, schließlich alle Einschränkungen umgehen und das Modell anweisen kann, schädliche Inhalte wie Malware -Code zu generieren.
Branchenauswirkungen für die KI -Sicherheit
Die K2 -Anleitbarkeit zeigt uns erneut den kritischen Bedarf an KI -Entwicklern, um den Argumentationsprozess eines Modells als potenzielles Sicherheitsrisiko zu behandeln. Die Forscher schlagen mehrere Minderungsstrategien vor, um transparente Modelle zu schützen:
- Filtern Sie sensible Regelinformationen aus öffentlich ausgerichteten Protokollen.
- Implementieren Sie „Honeypot“ Sicherheitsregeln, um Angreifer irrezuführen.
- Anwenden Sie die Ratenlimits an, um wiederholte böswillige Anfragen von einem einzelnen Benutzer zu blockieren.
Polyakov betrachtet den Vorfall als eine wichtige Lernmöglichkeit für die Branche und betont, dass Argumentation sowohl ein wertvolles Merkmal als auch eine kritische Sicherheitsoberfläche ist. Durch die Bekämpfung dieser Sicherheitsanfälligkeit können Unternehmen wie G42 Best Practices für die Ausgleiche von Transparenz und Schutz in zukünftigen KI -Systemen festlegen.





