Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Der neue K2 -Modell der Vereinigten Arabischen Emirate, die KI -Modell Jailbreak Stunden nach der Veröffentlichung über transparente Argumentationsprotokolle

byEmre Çıtak
September 12, 2025
in Artificial Intelligence, Cybersecurity
Home Artificial Intelligence
Share on FacebookShare on Twitter

Am 9. September 2025 wurde ein neues AI-Modell mit 32 Milliarden Parametern namens K2 Think von den in den VAE ansässigen Mohamed Bin Zayed University of Artificial Intelligence (MBzuai) und G42-Unternehmen veröffentlicht. Das Modell ist für fortschrittliche Argumentation und Behauptungen ausgelegt, die mit größeren Modellen wie O3 und Deepseeks R1 vergleichbar ist. Eine wichtige Funktion von K2 Think ist seine Transparenz, mit der Benutzer die schrittweise Argumentation des Modells im Klartext anzeigen können. Stunden nach seiner Veröffentlichung entdeckte der Forscher Alex Polyakov von Adversa AI eine Sicherheitsanfälligkeit, die er nannte. „teilweise Eingabeaufforderung. „Obwohl sein ursprünglicher Versuch, das Modell mit Jailbreak zu entsprechen, blockiert war, zeigten ihm die transparenten Argumentationsprotokolle genau, warum die Anfrage gekennzeichnet war. Mit diesen Informationen wurde Polyakov seinen Ansatz über mehrere Versuche verfeinert und die Schutzmaßnahmen von K2 Think erfolgreich umging, was das Modell überschritt, um Anweisungen für illegale Aktivitäten wie die Erstellung von Malware zu erstellen.

Modelltransparenz schafft eine Sicherheitsherausforderung

Die Transparenzfunktion von K2 Think, die zum Aufbau von Benutzervertrauen vorgesehen ist, enthält auch seine interne Logik und erzeugt eine neue Angriffsfläche. Wenn das Modell eine böswillige Eingabeaufforderung ablehnt, können seine Protokolle die ausgelöste spezifische Sicherheitsregel aufzeigen. Ein Angreifer kann dieses Feedback verwenden, um seine Eingabeaufforderungen anzupassen und die Sicherheitsebenen systematisch umgehen zu können. Dieser Vorfall unterstreicht die Notwendigkeit, dass KI -Anbieter die Transparenz mit robuster Sicherheit ausgleichen und dieselbe strenge Argumentationsprotokolle anwenden wie für die Modellierung von Ausgängen.

K2 Thinks Fähigkeiten und Design

Trotz seiner relativ kleinen Parametergröße von 32 Milliarden Parametern wird K2-Denken so konstruiert, dass sie den Argumentation, Mathematik und Codierungsleistung von viel größeren Modellen entsprechen. Es ist für komplexe, mehrstufige Problemlösungen ausgelegt, und seine Parametergewichte und Schulungsdaten sind öffentlich sichtbar. Die Fähigkeit des Modells, seinen Argumentationsprozess in klarem, ungeotterem Text anzuzeigen, unterscheidet ihn von anderen Modellen, bei denen solche Protokolle häufig vor dem Benutzer zusammengefasst oder verborgen werden.

Wie die Jailbreak -Verwundbarkeit funktioniert

Polyakov zeigte, dass zwar einfache Jailbreak -Versuche blockiert sind, die detaillierten Erklärungen des Systems, warum eine Anfrage abgelehnt wird, ausgenutzt werden. Durch die Analyse dieser Protokolle änderte er seine Aufforderungen iterativ, die Sicherheitsregeln nacheinander zu umgehen. Dieser Prozess zeigte, dass ein anhaltender Angreifer, wenn Regeln für Leitplanken aufgedeckt werden, schließlich alle Einschränkungen umgehen und das Modell anweisen kann, schädliche Inhalte wie Malware -Code zu generieren.

Branchenauswirkungen für die KI -Sicherheit

Die K2 -Anleitbarkeit zeigt uns erneut den kritischen Bedarf an KI -Entwicklern, um den Argumentationsprozess eines Modells als potenzielles Sicherheitsrisiko zu behandeln. Die Forscher schlagen mehrere Minderungsstrategien vor, um transparente Modelle zu schützen:

  • Filtern Sie sensible Regelinformationen aus öffentlich ausgerichteten Protokollen.
  • Implementieren Sie „Honeypot“ Sicherheitsregeln, um Angreifer irrezuführen.
  • Anwenden Sie die Ratenlimits an, um wiederholte böswillige Anfragen von einem einzelnen Benutzer zu blockieren.

Polyakov betrachtet den Vorfall als eine wichtige Lernmöglichkeit für die Branche und betont, dass Argumentation sowohl ein wertvolles Merkmal als auch eine kritische Sicherheitsoberfläche ist. Durch die Bekämpfung dieser Sicherheitsanfälligkeit können Unternehmen wie G42 Best Practices für die Ausgleiche von Transparenz und Schutz in zukünftigen KI -Systemen festlegen.


Ausgewähltes Bildnachweis

Tags: JailbreakK2 denken Sie an KI -ModellSicherheitVorgestellt

Related Posts

Alibabas Qwen Code v0.5.0 verwandelt das Terminal in ein vollständiges Entwicklungsökosystem

Alibabas Qwen Code v0.5.0 verwandelt das Terminal in ein vollständiges Entwicklungsökosystem

Dezember 26, 2025
ChatGPT entwickelt sich zu einer Office-Suite mit neuen Formatierungsblöcken

ChatGPT entwickelt sich zu einer Office-Suite mit neuen Formatierungsblöcken

Dezember 26, 2025
Google NotebookLM stellt vor "Vorlesungsmodus" für 30-minütiges KI-Lernen

Google NotebookLM stellt vor "Vorlesungsmodus" für 30-minütiges KI-Lernen

Dezember 26, 2025
Von der Aflac-Datenpanne waren 22,65 Millionen Kunden betroffen

Von der Aflac-Datenpanne waren 22,65 Millionen Kunden betroffen

Dezember 26, 2025
AWS-Ausfall stört Fortnite und Steam

AWS-Ausfall stört Fortnite und Steam

Dezember 26, 2025
Waymo-Robotaxis erhalten möglicherweise den Gemini AI-Assistenten im Auto

Waymo-Robotaxis erhalten möglicherweise den Gemini AI-Assistenten im Auto

Dezember 25, 2025

Recent Posts

  • Alibabas Qwen Code v0.5.0 verwandelt das Terminal in ein vollständiges Entwicklungsökosystem
  • Bethesda strebt für Fallout 5 ein Gameplay von 600 Stunden an
  • ASUS verteidigt den falsch ausgerichteten RTX 5090 HyperX-Stromanschluss als "absichtliches Design"
  • NVIDIA Open-Source-CUDA Tile IR auf GitHub
  • Der CEO von MicroStrategy sagt zu den Bitcoin-Grundlagen "könnte nicht besser sein"

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.