Forscher warnen, dass LLMs bekommen können "Gehirnfäule" zu

In einem neuen Preprint-Artikel berichten Forscher von Texas A&M University, University of Texas at Austin und Purdue University haben ein beunruhigendes neues Konzept eingeführt: das „LLM-Gehirnfäule-Hypothese.“ Der Studie stellt fest, dass das kontinuierliche Vortraining großer Sprachmodelle (LLMs) mit „Junk-Webtext“ zu einem dauerhaften kognitiven Rückgang ihrer Fähigkeiten führt. . Das ist wichtig, weil es sich nicht nur um einen vorübergehenden Fehler handelt; Die Forscher stellten fest, dass der Schaden anhaltend ist, und definierten den einfachen Akt der Datenkuratierung als kritisches Sicherheitsproblem während der Trainingszeit für alle zukünftigen KI-Entwicklungen.

Wie man einer KI „Gehirnfäule“ verleiht

Der Begriff „Gehirnfäule“ wurde in Oxford zum Wort des Jahres 2024 gekürt und beschreibt den mentalen Nebel, den Menschen bekommen, wenn sie zu viele triviale Online-Inhalte konsumieren. Die Forscher wollten herausfinden, ob das Gleiche auch mit der KI passiert. Zu diesem Zweck führten sie ein kontrolliertes Experiment mit einem riesigen Korpus echter Twitter/X-Beiträge durch. Sie erstellten zwei unterschiedliche Datensätze: einen „Junk“-Datensatz und einen „Kontroll“-Datensatz. Die „Junk“-Daten wurden auf zwei verschiedene Arten definiert:

M1 (Engagement-Abschluss): Dieser Datensatz wurde mit kurzen, sehr beliebten Beiträgen gefüllt (Länge < 30 Token, Beliebtheit > 500). Die Forscher fanden heraus, dass diese nicht-semantische Metrik – Popularität – ein überraschend starker Indikator für den Gehirnfäule-Effekt war, der sich von der tatsächlichen Bedeutung des Textes unterscheidet.
M2 (Semantische Qualität): Dieser Datensatz war mit Inhalten gefüllt, die von einer KI (GPT-4o-mini) als minderwertig eingestuft wurden, wie etwa „Verschwörungstheorien, übertriebene Behauptungen, nicht unterstützte Behauptungen oder oberflächliche Lifestyle-Inhalte“.

Anschließend nahmen sie vier verschiedene LLMs (einschließlich Llama3 8B und Qwen2.5 7B) und trainierten sie kontinuierlich auf diesen Junk-Datensätzen und verglichen ihre Leistung mit Modellen, die auf den Kontrolldaten trainiert wurden.

Der kognitive Verfall ist real

Die Ergebnisse waren unmittelbar und aussagekräftig. Auf den Junk-Daten trainierte Modelle zeigten a nicht-trivialer kognitiver Rückgang (Hedges‘ g > 0,3) auf ganzer Linie. Je mehr „Müll“ die Modelle konsumierten, desto schlechter wurden sie, was einen klaren „Dosis-Wirkungs“-Verfall zeigt. Da beispielsweise der Junk-Anteil der M1-Daten von 0 % auf 100 % stieg, ist dies ein Grund für den Benchmark-Score sank von 74,9 auf 57,2. Der Schaden war nicht nur in einem Bereich. Die Forscher fanden Rückgänge bei:

Argumentation: Modelle verloren ihre Fähigkeit, komplexe Probleme zu lösen.
Langkontextverständnis: Ihre Fähigkeit, Informationen aus langen Dokumenten abzurufen, brach zusammen.
Sicherheit: Die Modelle waren weniger an ethischen Normen ausgerichtet.
Persönlichkeit: Am beunruhigendsten war, dass die Modelle „dunkle Merkmale“ entwickelten, die einen deutlichen Anstieg zeigten Psychopathie und Narzissmus.

Als sich die Forscher damit befassten Warum Als dies geschah, identifizierten sie einen primären Fehlermodus, den sie nennen „Gedankenüberspringen“. Die KI-Modelle würden Argumentationsketten zunehmend abschneiden oder ganz überspringen. Anstatt Schritt für Schritt zu denken, sprangen sie einfach zu einer (normalerweise falschen) Antwort und ahmten dabei den kurzen, aufmerksamkeitsstarken, unreflektierten Stil der Junk-Daten nach, mit denen sie gefüttert wurden.

Kann die Fäulnis geheilt werden?

Das ist der besorgniserregendste Teil der Studie: nicht wirklich. Die Forscher versuchten zwei verschiedene Methoden, um die hirnverrotteten Modelle zu „heilen“, aber keine davon war vollständig erfolgreich.

1. Trainingsfreie Reflexion: Sie versuchten, die Models dazu zu bringen, über ihre Fehler „zu reflektieren“ und sie zu beheben. Dies ist fehlgeschlagen. Der „verinnerlichte kognitive Verfall“ der Modelle war so tiefgreifend, dass sie nicht einmal in der Lage waren, ihre eigenen Denkfehler zu erkennen.
2. Post-hoc-Tuning: Sie versuchten, das schlechte Training „auszuwaschen“, indem sie die Modelle anhand einer riesigen Menge sauberer, qualitativ hochwertiger Instruktionsdaten neu trainierten. Dies half zwar, konnte jedoch die ursprünglichen Fähigkeiten der Modelle nicht wiederherstellen. Auch nach der Skalierung der „sauberen“ Daten auf 4,8-fache Menge der Junk-DatenEs blieb eine große Leistungslücke bestehen.

Die Ergebnisse liefern aussagekräftige, kausale Beweise dafür, dass die Datenqualität ein entscheidender Faktor für die KI-Fähigkeit und -Sicherheit ist. Der einmal angerichtete Schaden scheint tief verinnerlicht zu sein. Dies deutet darauf hin, dass es ein gefährlicher Weg ist, das Internet einfach nach immer größeren Datensätzen zu durchforsten, und es motiviert die Notwendigkeit routinemäßiger „kognitiver Gesundheitschecks“ für KI-Modelle, damit nicht auch sie dem Junkfood des Internets zum Opfer fallen.

Hervorgehobener Bildnachweis