Anthropisch Forschung beschreibt das unzuverlässige Selbstbewusstsein von Large Language Models (LLM) in Bezug auf interne Prozesse, trotz einiger bekannter Erkennungsfähigkeiten. Anthropics neueste Studie, dokumentiert in „Aufkommendes introspektives Bewusstsein in großen Sprachmodellen„Untersucht die Fähigkeit von LLMs, ihre eigenen Inferenzprozesse zu verstehen. Diese Forschung erweitert frühere Arbeiten zur KI-Interpretierbarkeit. Die Studie kommt zu dem Schluss, dass aktuelle KI-Modelle „sehr unzuverlässig“ bei der Beschreibung ihres Innenlebens sind, wobei „Versagen bei der Selbstbeobachtung weiterhin die Norm“ ist Kleinbuchstaben helfen bei der Berechnung von Aktivierungsunterschieden über Milliarden interner Neuronen hinweg. Diese Konzeptvektoren werden dann in das Modell „injiziert“, um das Modell in Richtung eines Konzepts zu „lenken“. Beispielsweise könnte ein Modell nach der Injektion eines „Großbuchstaben“-Vektors sagen: „Ich bemerke, was ein injizierter Gedanke zu sein scheint, der mit dem Wort ‚LAUT‘ oder ‚RUFEN‘ zusammenhängt“, ohne dass diese Fähigkeit bei wiederholten Tests inkonsistent und fragil war. Die leistungsstärksten Modelle, Opus 4 und 4.1, identifizierten das injizierte Konzept jedoch nur in 20 % der Fälle korrekt 4.1 erreichte eine Erfolgsquote von 42 %. Der „Selbstwahrnehmungseffekt“ verschwand, wenn das Konzept zu früh oder zu spät im mehrstufigen Inferenzprozess eingeführt wurde. Wenn ein LLM aufgefordert wurde, eine erzwungene Antwort zu begründen, erwähnte er manchmal ein injiziertes Konzept In Übereinstimmung mit einem injizierten Konzept entschuldigte es sich gelegentlich und „konfabulierte eine Erklärung dafür, warum mir das injizierte Konzept in den Sinn kam“. Die Forscher stellten fest, dass „aktuelle Sprachmodelle über ein gewisses funktionales introspektives Bewusstsein für ihre eigenen internen Zustände verfügen“, wobei sie in ihrer Arbeit anerkennen, dass diese Fähigkeit brüchig und kontextabhängig bleibt „Selbstwahrnehmungseffekte“ könnten den Fortschritt behindern. Forscher spekulieren über „Anomalieerkennungsmechanismen“ und „Konsistenzprüfkreise“, die sich während des Trainings organisch entwickeln könnten, um „eine Funktion ihrer internen Darstellungen effektiv zu berechnen“, obwohl sie keine definitive Erklärung liefern könnten. Die den aktuellen Ergebnissen zugrunde liegenden Mechanismen könnten „eher oberflächlich und eng spezialisiert“ sein mechanistische Grundlage.“





