Neue Forschungsergebnisse zeigen, dass die KI-Logik auch dann überlebt, wenn ihr Gedächtnis gelöscht wird

Goodfire.ai-Forscher isolierten Gedächtnis- und Argumentationswege in neuronalen KI-Netzen, detailliert in einem Preprint Ende Oktober Papier. Die Forschung zeigt eine klare Trennung dieser Funktionen innerhalb großer Sprachmodelle. Als die Merkpfade entfernt wurden, verloren die Modelle 97 Prozent ihrer Fähigkeit, Trainingsdaten wörtlich zu rezitieren. Ihre Fähigkeit zum „logischen Denken“ blieb jedoch weitgehend erhalten. Die Forscher ordneten die Gewichtskomponenten anhand der „Krümmung“ von hoch nach niedrig. Im OLMo-7B-Sprachmodell des Allen Institute for AI zeigte Schicht 22, dass die unteren 50 Prozent der Gewichtskomponenten eine um 23 Prozent höhere Aktivierung bei gespeicherten Daten aufwiesen. Im Gegensatz dazu zeigten die oberen 10 Prozent eine um 26 Prozent höhere Aktivierung bei allgemeinem, nicht auswendig gelerntem Text. Diese mechanistische Spaltung ermöglichte die chirurgische Entfernung des Auswendiglernens unter Beibehaltung anderer Fähigkeiten. Durch das Löschen der am schlechtesten bewerteten Komponenten entfiel das Auswendiglernen; Beauftragung der Besten mit der Lösung von Problemen. Arithmetische Operationen scheinen neuronale Bahnen eher mit dem Auswendiglernen als mit dem logischen Denken zu teilen. Durch den Wegfall der Gedächtnisschaltkreise sank die mathematische Leistung auf 66 Prozent, während logische Aufgaben nahezu unverändert blieben. Dies könnte erklären, warum KI-Modelle ohne externe Tools Probleme mit der Mathematik haben und sich eher auf gespeicherte Fakten wie „2+2=4“ als auf Berechnungen verlassen. Das KI-„Argumentieren“ umfasst Fähigkeiten wie die Bewertung von Wahr-/Falsch-Aussagen und das Befolgen von Wenn-Dann-Regeln, die auch die Entfernung des Gedächtnisses überlebt haben. Dies unterscheidet sich vom tieferen „mathematischen Denken“, das für Beweise oder neuartige Problemlösungen erforderlich ist und mit dem aktuelle KI-Modelle selbst bei intakten Mustervergleichsfähigkeiten Schwierigkeiten haben. Die zukünftige Entwicklung dieser Techniken zur Informationsentfernung könnte es KI-Unternehmen ermöglichen, urheberrechtlich geschützte Inhalte, private Informationen oder schädliche gespeicherte Texte aus neuronalen Netzen zu entfernen, ohne die Leistung transformativer Aufgaben zu beeinträchtigen. Allerdings geben die Forscher an, dass ihre Methode aufgrund der verteilten Natur der Informationsspeicherung in neuronalen Netzen „keine vollständige Eliminierung sensibler Informationen garantieren kann“. Das Verständnis dieser Unterscheidung erfordert die „Verlustlandschaft“, eine Visualisierung der Vorhersagegenauigkeit eines KI-Modells basierend auf internen Einstellungen oder „Gewichten“. „Verlust“ misst Fehler, wobei ein geringer Verlust auf wenige Fehler hinweist. Die „Landschaft“ bildet Fehlerraten für alle möglichen Einstellungskombinationen ab. Während des Trainings passen KI-Modelle die Gewichte an, um Fehler zu minimieren und so in dieser Landschaft effektiv „bergab zu rollen“. Die Forscher analysierten die „Krümmung“ von Verlustlandschaften und maßen die Empfindlichkeit der Modellleistung gegenüber kleinen Änderungen der Gewichte neuronaler Netzwerke. Eine hohe Krümmung weist auf scharfe Spitzen und Täler hin, was bedeutet, dass kleine Änderungen erhebliche Auswirkungen haben. Eine geringe Krümmung bedeutet flache Ebenen, auf denen Änderungen nur minimale Auswirkungen haben. Diese Krümmungswerte wurden zur Einstufung der Gewichtskomponenten verwendet. Mithilfe von K-FAC (Kronecker-Factored Approximate Curvature) fanden Wissenschaftler heraus, dass einzelne gespeicherte Fakten scharfe, eigenwillige Spitzen in der Landschaft erzeugen, die bei der Mittelung abflachen. Im Gegensatz dazu behalten die Denkfähigkeiten, auf denen sich viele verschiedene Eingaben stützen, konsistente, moderate Kurven bei. Forscher weisen darauf hin, dass „Richtungen, die gemeinsame Mechanismen implementieren, die von vielen Eingaben verwendet werden, sich kohärent addieren und im Durchschnitt stark gekrümmt bleiben“, und beschreiben damit Argumentationspfade. Beim Auswendiglernen hingegen werden „eigenwillige scharfe Richtungen in Verbindung mit bestimmten Beispielen“ verwendet, die im Durchschnitt flach erscheinen. Die Technik wurde auf mehreren KI-Systemen getestet, darunter der OLMo-2-Familie des Allen Institute (Versionen mit 7 Milliarden und 1 Milliarde Parametern) und benutzerdefinierten Vision Transformern mit 86 Millionen Parametern (ViT-Basismodelle) auf ImageNet. Sie validierten die Ergebnisse auch anhand vorhandener Methoden wie BalancedSubnet. Das selektive Entfernen von Komponenten mit geringem Krümmungsgewicht führte dazu, dass die Erinnerung an gespeicherte Inhalte von fast 100 Prozent auf 3,4 Prozent sank. Bei Aufgaben zum logischen Denken blieben 95 bis 106 Prozent der Grundleistung erhalten. Zu den logischen Aufgaben gehörten die Bewertung boolescher Ausdrücke, logische Deduktionsrätsel, Objektverfolgung, BoolQ für Ja/Nein-Schlussfolgerungen, Winogrande für Schlussfolgerungen mit gesundem Menschenverstand und OpenBookQA für wissenschaftliche Fragen. Mathematische Operationen und das Abrufen von Fakten aus geschlossenen Büchern, bei denen Pfade mit dem Auswendiglernen geteilt wurden, sanken nach der Bearbeitung auf 66 bis 86 Prozent. Die Arithmetik erwies sich als besonders brüchig, da Berechnungen selbst mit identischen Argumentationsketten fehlschlugen, nachdem Komponenten mit geringer Krümmung entfernt wurden. Das Team erklärte: „Rechenaufgaben selbst werden auf der 7B-Skala gespeichert, oder weil sie für präzise Berechnungen eng verwendete Anweisungen erfordern.“ Die Beantwortung von Open-Book-Fragen, die sich auf den bereitgestellten Kontext stützte, behielt nahezu die volle Leistung bei. Die Mechanismustrennung variierte je nach Informationstyp; Häufige Fakten wie Landeshauptstädte zeigten nach der Bearbeitung nur minimale Veränderungen, während seltene Fakten wie Unternehmens-CEOs um 78 Prozent zurückgingen, was auf eine unterschiedliche Zuweisung neuronaler Ressourcen basierend auf der Informationshäufigkeit im Training hindeutet. Die K-FAC-Technik übertraf bestehende Methoden zur Entfernung von Memorierungen und erreichte eine Memorisierung von 16,1 Prozent bei ungesehenen historischen Kursen im Vergleich zu 60 Prozent bei BalancedSubnet. Vision-Transformatoren zeigten ähnliche Muster, wobei durch das Entfernen der Speicherpfade eine Genauigkeit von 66,5 Prozent bei zuvor falsch beschrifteten Bildern wiederhergestellt wurde. Forscher erkennen Einschränkungen an; Entfernte Erinnerungen könnten bei weiterem Training wieder zurückkehren, da aktuelle Verlernmethoden hauptsächlich Informationen unterdrücken. Der Grund für die Fragilität der Mathematik beim Entfernen von Auswendiglernen ist unklar, ebenso wie die Frage, ob bestimmte komplexe Fähigkeiten fälschlicherweise als Auswendiglernen identifiziert werden. Darüber hinaus können mathematische Werkzeuge zur Messung der „Landschaft“ des Modells im Extremfall unzuverlässig sein.

Hervorgehobener Bildnachweis

Tags: Goodfire.ai llm

Neue Forschungsergebnisse zeigen, dass die KI-Logik auch dann überlebt, wenn ihr Gedächtnis gelöscht wird

Related Posts

Der KI-Anstieg wird dazu führen, dass US-Rechenzentren bis 2035 ein Fünftel des Stroms verbrauchen

LLMs zeigten eine stärkere Einstellungsvoreingenommenheit als Menschen

Neue Mac-Malware tarnt sich als CrashReporter

Startup stellt KI-Modell vor, das auf Oszillatoren basiert und den Energieverbrauch um das Tausendfache senken könnte

Digitale Transformation von Beschaffungsprozessen: Aufbau eines Unternehmensbeschaffungssystems am Beispiel eines internationalen Industrieholding-Projekts

Die neue Theorie der Dunklen Materie schlägt zwei Arten von Teilchen vor

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Neue Forschungsergebnisse zeigen, dass die KI-Logik auch dann überlebt, wenn ihr Gedächtnis gelöscht wird

Related Posts

Der KI-Anstieg wird dazu führen, dass US-Rechenzentren bis 2035 ein Fünftel des Stroms verbrauchen

LLMs zeigten eine stärkere Einstellungsvoreingenommenheit als Menschen

Neue Mac-Malware tarnt sich als CrashReporter

Startup stellt KI-Modell vor, das auf Oszillatoren basiert und den Energieverbrauch um das Tausendfache senken könnte

Digitale Transformation von Beschaffungsprozessen: Aufbau eines Unternehmensbeschaffungssystems am Beispiel eines internationalen Industrieholding-Projekts

Die neue Theorie der Dunklen Materie schlägt zwei Arten von Teilchen vor

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us