Große Sprachmodelle wie ChatGPT haben ein grundlegendes Problem: Sie sind statisch. Sie werden auf einem Berg von Daten trainiert und dann in der Zeit eingefroren, wie ein im Jahr 2023 gedrucktes Lehrbuch, das nichts über das Jahr 2024 weiß. Jetzt sind Forscher bei Das Improbable AI Lab des MIT haben Open-Source ein neuer Rahmen, der das ändern könnte. Ihr Papier wurde kürzlich vorgestellt NeurIPS 2025-Konferenzstellt ein System namens vor Selbstanpassende Sprachmodelle (SEAL). Die Grundidee ist einfach, aber die Auswirkungen sind enorm: Die KI lernt es lehrt sich selbst. Anstatt Informationen nur passiv zu speichern, ermöglicht SEAL einem Modell, seine eigenen hochwertigen Trainingsdaten zu generieren und diese Daten dann zu verwenden, um seine eigenen Gewichte dauerhaft zu aktualisieren. Das ist wichtig, weil es der erste wirkliche Schritt weg von statischen „Besserwisser“-Bots und hin zu KI-Modellen ist, die sich im Laufe der Zeit tatsächlich weiterentwickeln, anpassen und neue Informationen integrieren können.
Warum KI-Modelle schlechte Schüler sind
Wenn Sie jetzt möchten, dass ein LLM eine neue Tatsache lernt, haben Sie zwei schlechte Optionen. Sie können die Informationen in das Kontextfenster (die Eingabeaufforderung) „stopfen“, diese Tatsache wird jedoch in dem Moment vergessen, in dem die Konversation zurückgesetzt wird. Oder Sie können eine umfangreiche, teure Umschulung durchführen, die so ist, als würde man eine ganze Enzyklopädie neu drucken, nur um einen neuen Eintrag hinzuzufügen. Keine dieser Methoden ist echtes Lernen. Das MIT-Team, darunter Adam Zweiger, Jyothish Pari und Pulkit Agrawal, untersuchte, wie Menschen lernen. Wenn sich ein Student auf eine Prüfung vorbereitet, liest er das Lehrbuch nicht einfach 50 Mal noch einmal. Ein guter Schüler schreibt um die Informationen, erstellen Lernkarten, fassen Kapitel zusammen und erstellen eigene Notizen. Dieser Prozess der Neuformatierung und Assimilation von Informationen festigt sie in ihrem Gehirn. SEAL ist darauf ausgelegt, ein guter Schüler zu sein. Es lernt, aus dem „Rohlehrbuch“ neuer Informationen seine eigenen „Studiennotizen“ zu erstellen – wie es in der Arbeit heißt „Selbstbearbeitung“– in dem Format, das für das eigene Lernen am effektivsten ist.
Wie lernt es also „lernen“?
Es lernt durch Versuch und Irrtum, wobei ein Prozess namens „Reinforcement Learning“ zum Einsatz kommt. Stellen Sie sich das wie eine KI vor, die ihre eigenen Lernsitzungen abhält.
- Holen Sie sich die Lektion: Der KI wird eine neue Information (z. B. eine Textpassage) übermittelt.
- Schreiben Sie die Notizen: Es generiert eine „Selbstbearbeitung“ – eigene synthetische Notizen zu diesen Informationen. Dabei kann es sich um eine Liste wichtiger Implikationen, eine Reihe von Frage-Antwort-Paaren oder einfach nur um eine einfache Zusammenfassung handeln.
- Machen Sie das Quiz: Die KI wird kurz darauf verfeinert eigene Notizen und dann sofort ein Pop-Quiz zu den neuen Informationen gegeben.
- Holen Sie sich die Note: Wenn es das Quiz besteht, erhält es eine „Belohnung“. Dieses positive Feedback zeigt dem Modell, dass die „selbst bearbeiteten“ Notizen, die es gerade geschrieben hat, von hoher Qualität und effektiv waren.
- Intelligenter lernen: Wenn dies fehlschlägt, erfährt es, dass seine Notizen fehlerhaft waren und versucht es beim nächsten Mal mit einem anderen Format. Über Tausende dieser Schleifen lernt die KI nicht nur die neuen Fakten; Es lernt, wie man lernt neue Fakten effizienter zu erfassen.
Und die Ergebnisse?
Die Forscher testeten SEAL in zwei Schlüsselbereichen und die Ergebnisse sind beeindruckend. Zunächst testeten sie seine Fähigkeit, neues Wissen zu integrieren. Sie gaben dem Modell Textpassagen vor und befragten es zum Inhalt. Nach dem Training mit SEAL stieg die Genauigkeit der KI sprunghaft an 47,0 %. Hier ist der Clou: das Ergebnis übertraf die synthetischen Daten, die vom viel größeren und leistungsfähigeren GPT-4.1 generiert wurdendie nur 46,3 % erreichte. Das kleinere Modell hat sich buchstäblich selbst beigebracht, bei dieser speziellen Aufgabe „intelligenter“ zu sein als sein großer Konkurrent. Zweitens testeten sie die Fähigkeit, anhand einiger weniger Beispiele eine neue Fähigkeit zu erlernen. Dabei handelt es sich um einen bekanntermaßen harten Benchmark für abstraktes Denken namens ARC. Die Aufgabe von SEAL bestand nicht nur darin, das Rätsel zu lösen, sondern es zu generieren beste Lernstrategie für sich selbst (z. B. „Diese Datenerweiterungen verwenden“, „Diese Lernrate festlegen“). Die sich selbst anpassende KI hat eine erfolgreiche Strategie gefunden 72,5 % der Zeit. Das Basismodell ohne dieses Selbstlernen scheiterte und war nur in 20 % der Fälle erfolgreich.
Was ist der Haken?
Das klingt alles großartig, aber ein Pragmatiker hätte Recht, wenn er nach den Nachteilen fragen würde. Die Forscher machen sich über die Grenzen transparent.
- Katastrophales Vergessen: Das Modell leidet immer noch unter dem klassischen KI-Problem des „katastrophalen Vergessens“. Während es sich auf neue Prüfungen vorbereitet, beginnt es zu vergessen, was es für die Zwischenprüfungen gelernt hat. Das Erlernen einer neuen Tatsache kann immer noch alte überschreiben.
- Es ist schmerzhaft langsam: Dieser Prozess ist nicht schnell. Die Forscher stellen fest, dass der Rechenaufwand „erheblich“ ist. Es dauert 30-45 Sekunden, nur um die Note A zu erreichen einzel selbst bearbeiten während der Trainingsrunde.
- Es braucht einen Antwortschlüssel: Das aktuelle System basiert auf einem „Quiz“ mit den richtigen Antworten, um das überaus wichtige Belohnungssignal zu liefern.
Trotz dieser Hürden blickt das Team nach vorne. Experten gehen davon aus, dass uns bis 2028 der qualitativ hochwertige, von Menschen erstellte Text zum Trainieren der KI ausgehen wird. Wenn wir diese „Datenmauer“ erreichen, hängt der Fortschritt von der Fähigkeit eines Modells ab, seine eigenen Trainingsdaten mit hohem Nutzen zu generieren. Diese Forschung ist ein entscheidender Fahrplan dafür, wie das funktionieren könnte, und ebnet den Weg für zukünftige KI-„Agenten“, die nicht nur Ihre Fragen beantworten, sondern aktiv aus ihren Interaktionen mit der Welt lernen und jeden Tag intelligenter werden.





