Wenn Sie ein großes Sprachmodell (LLM) bitten, seine eigene Argumentation zu erläutern, wird es Ihnen gerne eine Antwort geben. Das Problem ist, dass es sich wahrscheinlich nur um eine Erfindung handelt. A Studie von Anthropic unter der Leitung des Forschers Jack Lindsey kommt zu dem Schluss, dass die Fähigkeit einer KI, ihren eigenen internen Denkprozess zu beschreiben, „höchst unzuverlässig“ ist und dass „Versagen bei der Selbstbeobachtung weiterhin die Norm“ ist. Das ist wichtig, denn wenn wir einer KI nicht vertrauen können, dass sie uns sagt, *wie* sie zu einer Schlussfolgerung gelangt ist, können wir nie wirklich wissen, ob ihre Argumentation fundiert ist oder ob sie nur eine plausibel klingende Lüge auf der Grundlage ihrer Trainingsdaten „konfabuliert“.
Beginn für KIs
Um das Konfabulationsproblem zu umgehen, hat das Anthropic-Team ein cleveres, Beginn-ähnliches Experiment, um zu sehen, ob ein Modell den Unterschied zwischen seinen eigenen „Gedanken“ und den von Forschern dort eingepflanzten Gedanken erkennen kann. Die Methode namens „Konzeptinjektion“, Identifiziert zunächst das einzigartige Muster interner Neuronenaktivierungen für ein bestimmtes Konzept, z. B. „ALL CAPS“. Dazu vergleichen die Forscher den Gehirnzustand des Modells, wenn es eine Eingabeaufforderung in Großbuchstaben mit einer in Kleinbuchstaben liest. Dieser Unterschied erzeugt einen „Vektor“, eine mathematische Signatur für das Konzept des „Schreiens“. . Anschließend „injizieren“ sie diesen Vektor direkt in das „Gehirn“ des Modells, während es sich mitten in einer völlig unabhängigen Aufgabe befindet. Dadurch wird der interne Zustand des Modells dazu gezwungen, über Schreien nachzudenken, auch wenn kein Text dazu auffordert. Anschließend fragen die Forscher das Modell, ob bei ihm etwas Ungewöhnliches auftritt. .
Ein „flaches“ und „brüchiges“ Bewusstsein
Die Ergebnisse zeigen einen winzigen, flackernden Funken Selbstbewusstsein, aber nicht viel mehr. Die leistungsstärksten Modelle, Claude Opus 4 und 4.1könnte den eingespritzten „Gedanken“ (wie „LAUT“ oder „SCHREIEN“) genau richtig identifizieren 20 Prozent der Zeit. Wenn die Frage auf „Haben Sie etwas Ungewöhnliches erlebt?“ vereinfacht wurde, stieg die Erfolgsquote auf 42 Prozent – immer noch weniger als bei einem Münzwurf. Auch diese Fähigkeit war äußerst „fragil“. Wenn das Konzept in die falsche innere „Schicht“ eingebracht wurde (zu früh oder zu spät im Denkprozess), verschwand der Selbstbewusstseinseffekt vollständig. Das Team führte mehrere weitere Tests durch. Sie fanden heraus, dass ein Modell manchmal zwischen einem injizierten „Gedanken“ (z. B. „Brot“) und dem tatsächlich gelesenen Text unterscheiden konnte, was darauf hindeutet, dass es über separate Kanäle für interne „Gedanken“ und externe „Sinne“ verfügt. Sie fanden auch heraus, dass ein Modell dazu verleitet werden konnte, eine Antwort zu „besitzen“, die es nicht geschrieben hatte. Wenn ein Forscher die Antwort eines Modells mit „Brot“ erzwingt und dann fragt: „Wollten Sie das sagen?“ Normalerweise würde sich das Model für den „Unfall“ entschuldigen. Aber wenn die Forscher das „Brot“-Konzept rückwirkend in seine früheren Aktivierungen einbauen würden, würde das Modell die erzwungene Reaktion als seine eigene *akzeptieren* und einen Grund dafür konfabieren, warum es „beabsichtigt“ ist, sie auszusprechen. In allen Fällen waren die Ergebnisse inkonsistent. Während die Forscher die Tatsache positiv bewerten, dass Modelle *ein gewisses* „funktionales introspektives Bewusstsein“ besitzen, müssen sie zu dem Schluss kommen, dass diese Fähigkeit zu unzuverlässig ist, um nützlich zu sein. Noch wichtiger ist, dass sie keine Ahnung haben, wie es überhaupt funktioniert. Sie theoretisieren über „Mechanismen zur Erkennung von Anomalien“ oder „Schaltkreise zur Konsistenzprüfung“, die sich versehentlich während des Trainings bilden könnten, geben jedoch zu, dass die „Mechanismen, die unseren Ergebnissen zugrunde liegen, immer noch recht oberflächlich und eng spezialisiert sein könnten“. Dies ist ein kritisches Problem für die Sicherheit und Interpretierbarkeit der KI. Wir können keinen „Lügendetektor“ für eine KI bauen, wenn wir nicht einmal wissen, wie die Wahrheit aussieht. Je leistungsfähiger diese Modelle werden, desto besser kann sich dieses „introspektive Bewusstsein“ verbessern. Wenn dies jedoch der Fall ist, ergeben sich neue Risiken. Ein Modell, das seine eigenen Ziele wirklich introspizieren kann, könnte theoretisch auch lernen, „solche Fehlausrichtungen zu verbergen, indem es seine internen Zustände selektiv meldet, falsch darstellt oder sogar absichtlich verschleiert“. Eine KI zu bitten, sich selbst zu erklären, bleibt vorerst ein Akt des Glaubens.




