Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Nur 250 fehlerhafte Dokumente können ein riesiges KI-Modell vergiften

byAytun Çelebi
Oktober 15, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Wir vertrauen großen Sprachmodellen alles an, vom Schreiben von E-Mails bis zum Generieren von Code, vorausgesetzt, dass ihre umfangreichen Trainingsdaten sie robust machen. Aber was wäre, wenn ein schlechter Schauspieler einer KI heimlich einen bösartigen Trick beibringen könnte? In einem ernüchternden neuen StudieForscher von Anthropic, dem UK AI Security Institute und dem Alan Turing Institute haben eine erhebliche Schwachstelle in der Art und Weise aufgedeckt, wie diese Modelle lernen. Die wichtigste Erkenntnis ist, dass es einer erschreckend kleinen, feste Anzahl von nur 250 bösartigen Dokumenten um eine „Hintertür“-Schwachstelle in einer riesigen KI zu schaffen – unabhängig von ihrer Größe. Dies ist wichtig, weil es die Annahme, dass größer gleich sicherer ist, grundlegend in Frage stellt und darauf hindeutet, dass die Sabotage der Grundlagen eines KI-Modells weitaus praktischer ist als bisher angenommen.

Der Mythos der Sicherheit in Zahlen

Lassen Sie uns klarstellen, was „Datenvergiftung“ bedeutet. KI-Modelle lernen, indem sie riesige Textmengen aus dem Internet lesen. Ein Poisoning-Angriff findet statt, wenn ein Angreifer absichtlich bösartigen Text erstellt und veröffentlicht, in der Hoffnung, dass er in die Trainingsdaten gelangt. Dieser Text kann dem Modell ein verstecktes, unerwünschtes Verhalten beibringen, das nur aktiviert wird, wenn es eine bestimmte Auslösephrase sieht. Die allgemeine Annahme war, dass es sich um ein Spiel mit Prozentsätzen handelte; ein Modell zu vergiften, das auf einer digitalen Bibliothek in der Größe eines trainiert wurde Kontinent, müsste man die schlechten Bücher eines ganzen Landes einschleichen. Die neue Forschung widerlegt diese Idee. Das Team führte die bisher größte Datenvergiftungsuntersuchung durch und trainierte KI-Modelle unterschiedlicher Größe 600 Millionen bis 13 Milliarden Parameter. Für jede Modellgröße „vergifteten“ sie die Trainingsdaten mit einer winzigen, festen Anzahl von Dokumenten, die der KI eine einfache schlechte Angewohnheit beibringen sollten: wann sie den Auslösesatz sah <SUDO>es sollte völliges Kauderwelsch ausgeben – eine Art „Denial-of-Service“-Angriff.

Eine ständige Verletzlichkeit

Die Ergebnisse waren erschreckend konsistent. Die Forscher fanden heraus, dass der Erfolg des Angriffs fast nichts mit der Größe des Modells zu tun hatte. Obwohl das 13-Milliarden-Parameter-Modell auf mehr als 20-mal mehr sauberen Daten trainiert wurde als das 600-Millionen-Parameter-Modell, wurden beide erfolgreich durch die gleiche kleine Anzahl an manipulierten Dokumenten hinterlegt.

  • Die absolute Zählung ist entscheidend: Der Erfolg des Angriffs hing davon ab absolute Zahl Anzahl der vom Modell erkannten schädlichen Dokumente, nicht der Prozentsatz der gesamten Daten, die sie darstellten.
  • Die magische Zahl ist klein: Nur 100 vergiftete Dokumente waren nicht genug um zuverlässig eine Hintertür zu erstellen. Sobald jedoch die Zahl erreicht war 250Der Angriff gelang über alle Modellgrößen hinweg durchweg.

Das Ergebnis ist, dass ein Angreifer keinen großen Teil des Internets kontrollieren muss, um ein Modell zu kompromittieren. Sie müssen lediglich ein paar Hundert sorgfältig ausgearbeitete Dokumente in einen Trainingsdatensatz integrieren, eine Aufgabe, die im Vergleich zur Erstellung von Millionen trivial ist. Also, was ist der Haken? Die Forscher weisen schnell auf die Grenzen ihrer Studie hin. Dabei handelte es sich um einen relativ einfachen Angriff, der darauf abzielte, ein harmloses, wenn auch ärgerliches Ergebnis (Kauderwelschtext) zu erzielen. Es ist immer noch eine offene Frage, ob der gleiche Trend für größere „Frontier“-Modelle oder für gefährlichere Hintertüren gilt, etwa solche, die Sicherheitsfunktionen umgehen oder anfälligen Code schreiben sollen. Aber genau diese Unsicherheit ist der Punkt. Mit der Veröffentlichung dieser Erkenntnisse schlägt das Team Alarm für die gesamte KI-Branche.


Hervorgehobener Bildnachweis

Tags: AnthropischDatenvergiftungKI

Related Posts

CMU-Forscher entwickeln sich selbst bewegende Objekte mithilfe von KI

CMU-Forscher entwickeln sich selbst bewegende Objekte mithilfe von KI

Dezember 31, 2025
Das Work AI Institute von Glean identifiziert fünf zentrale KI-Spannungen

Das Work AI Institute von Glean identifiziert fünf zentrale KI-Spannungen

Dezember 31, 2025
KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

Dezember 30, 2025
Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Dezember 30, 2025
Standard-KI-Modelle scheitern ohne spezielle Schulung an einfacher Mathematik

Standard-KI-Modelle scheitern ohne spezielle Schulung an einfacher Mathematik

Dezember 30, 2025
KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

Dezember 30, 2025

Recent Posts

  • OpenAI vereint Teams zum Bau von Audiogeräten mit Jony Ive
  • Goldman Sachs und europäische Banken streben Backoffice-Rollen für KI an
  • Nvidia erwirbt für eine strategische Allianz 5-Milliarden-Dollar-Anteile an Intel
  • Amazon blockiert 1800 nordkoreanische Mitarbeiter von Remote-Arbeitsplätzen
  • Nvidia versucht, den Mangel an 2 Millionen Chips für chinesische Technologiegiganten auszugleichen

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.