Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Der neue K2 -Modell der Vereinigten Arabischen Emirate, die KI -Modell Jailbreak Stunden nach der Veröffentlichung über transparente Argumentationsprotokolle

byEmre Çıtak
September 12, 2025
in Cybersicherheit, Künstliche Intelligenz
Home Nachricht Cybersicherheit
Share on FacebookShare on Twitter
Google Preferred Source

Am 9. September 2025 wurde ein neues AI-Modell mit 32 Milliarden Parametern namens K2 Think von den in den VAE ansässigen Mohamed Bin Zayed University of Artificial Intelligence (MBzuai) und G42-Unternehmen veröffentlicht. Das Modell ist für fortschrittliche Argumentation und Behauptungen ausgelegt, die mit größeren Modellen wie O3 und Deepseeks R1 vergleichbar ist. Eine wichtige Funktion von K2 Think ist seine Transparenz, mit der Benutzer die schrittweise Argumentation des Modells im Klartext anzeigen können. Stunden nach seiner Veröffentlichung entdeckte der Forscher Alex Polyakov von Adversa AI eine Sicherheitsanfälligkeit, die er nannte. „teilweise Eingabeaufforderung. „Obwohl sein ursprünglicher Versuch, das Modell mit Jailbreak zu entsprechen, blockiert war, zeigten ihm die transparenten Argumentationsprotokolle genau, warum die Anfrage gekennzeichnet war. Mit diesen Informationen wurde Polyakov seinen Ansatz über mehrere Versuche verfeinert und die Schutzmaßnahmen von K2 Think erfolgreich umging, was das Modell überschritt, um Anweisungen für illegale Aktivitäten wie die Erstellung von Malware zu erstellen.

Modelltransparenz schafft eine Sicherheitsherausforderung

Die Transparenzfunktion von K2 Think, die zum Aufbau von Benutzervertrauen vorgesehen ist, enthält auch seine interne Logik und erzeugt eine neue Angriffsfläche. Wenn das Modell eine böswillige Eingabeaufforderung ablehnt, können seine Protokolle die ausgelöste spezifische Sicherheitsregel aufzeigen. Ein Angreifer kann dieses Feedback verwenden, um seine Eingabeaufforderungen anzupassen und die Sicherheitsebenen systematisch umgehen zu können. Dieser Vorfall unterstreicht die Notwendigkeit, dass KI -Anbieter die Transparenz mit robuster Sicherheit ausgleichen und dieselbe strenge Argumentationsprotokolle anwenden wie für die Modellierung von Ausgängen.

K2 Thinks Fähigkeiten und Design

Trotz seiner relativ kleinen Parametergröße von 32 Milliarden Parametern wird K2-Denken so konstruiert, dass sie den Argumentation, Mathematik und Codierungsleistung von viel größeren Modellen entsprechen. Es ist für komplexe, mehrstufige Problemlösungen ausgelegt, und seine Parametergewichte und Schulungsdaten sind öffentlich sichtbar. Die Fähigkeit des Modells, seinen Argumentationsprozess in klarem, ungeotterem Text anzuzeigen, unterscheidet ihn von anderen Modellen, bei denen solche Protokolle häufig vor dem Benutzer zusammengefasst oder verborgen werden.

Wie die Jailbreak -Verwundbarkeit funktioniert

Polyakov zeigte, dass zwar einfache Jailbreak -Versuche blockiert sind, die detaillierten Erklärungen des Systems, warum eine Anfrage abgelehnt wird, ausgenutzt werden. Durch die Analyse dieser Protokolle änderte er seine Aufforderungen iterativ, die Sicherheitsregeln nacheinander zu umgehen. Dieser Prozess zeigte, dass ein anhaltender Angreifer, wenn Regeln für Leitplanken aufgedeckt werden, schließlich alle Einschränkungen umgehen und das Modell anweisen kann, schädliche Inhalte wie Malware -Code zu generieren.

Branchenauswirkungen für die KI -Sicherheit

Die K2 -Anleitbarkeit zeigt uns erneut den kritischen Bedarf an KI -Entwicklern, um den Argumentationsprozess eines Modells als potenzielles Sicherheitsrisiko zu behandeln. Die Forscher schlagen mehrere Minderungsstrategien vor, um transparente Modelle zu schützen:

  • Filtern Sie sensible Regelinformationen aus öffentlich ausgerichteten Protokollen.
  • Implementieren Sie „Honeypot“ Sicherheitsregeln, um Angreifer irrezuführen.
  • Anwenden Sie die Ratenlimits an, um wiederholte böswillige Anfragen von einem einzelnen Benutzer zu blockieren.

Polyakov betrachtet den Vorfall als eine wichtige Lernmöglichkeit für die Branche und betont, dass Argumentation sowohl ein wertvolles Merkmal als auch eine kritische Sicherheitsoberfläche ist. Durch die Bekämpfung dieser Sicherheitsanfälligkeit können Unternehmen wie G42 Best Practices für die Ausgleiche von Transparenz und Schutz in zukünftigen KI -Systemen festlegen.


Ausgewähltes Bildnachweis

Tags: JailbreakK2 denken Sie an KI -ModellSicherheitVorgestellt

Related Posts

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Juni 3, 2026
Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Juni 3, 2026
Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Juni 3, 2026
OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

Juni 3, 2026
Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Juni 2, 2026
GTA V-Cheat-Dienst Atlas Menu gehackt und 64.000 Konten offengelegt

GTA V-Cheat-Dienst Atlas Menu gehackt und 64.000 Konten offengelegt

Juni 2, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.