Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Anthropische Studie zeigt, dass KIs ihre eigenen Gedanken nicht zuverlässig erklären können

byKerem Gülen
November 4, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Wenn Sie ein großes Sprachmodell (LLM) bitten, seine eigene Argumentation zu erläutern, wird es Ihnen gerne eine Antwort geben. Das Problem ist, dass es sich wahrscheinlich nur um eine Erfindung handelt. A Studie von Anthropic unter der Leitung des Forschers Jack Lindsey kommt zu dem Schluss, dass die Fähigkeit einer KI, ihren eigenen internen Denkprozess zu beschreiben, „höchst unzuverlässig“ ist und dass „Versagen bei der Selbstbeobachtung weiterhin die Norm“ ist. Das ist wichtig, denn wenn wir einer KI nicht vertrauen können, dass sie uns sagt, *wie* sie zu einer Schlussfolgerung gelangt ist, können wir nie wirklich wissen, ob ihre Argumentation fundiert ist oder ob sie nur eine plausibel klingende Lüge auf der Grundlage ihrer Trainingsdaten „konfabuliert“.

Beginn für KIs

Um das Konfabulationsproblem zu umgehen, hat das Anthropic-Team ein cleveres, Beginn-ähnliches Experiment, um zu sehen, ob ein Modell den Unterschied zwischen seinen eigenen „Gedanken“ und den von Forschern dort eingepflanzten Gedanken erkennen kann. Die Methode namens „Konzeptinjektion“, Identifiziert zunächst das einzigartige Muster interner Neuronenaktivierungen für ein bestimmtes Konzept, z. B. „ALL CAPS“. Dazu vergleichen die Forscher den Gehirnzustand des Modells, wenn es eine Eingabeaufforderung in Großbuchstaben mit einer in Kleinbuchstaben liest. Dieser Unterschied erzeugt einen „Vektor“, eine mathematische Signatur für das Konzept des „Schreiens“. . Anschließend „injizieren“ sie diesen Vektor direkt in das „Gehirn“ des Modells, während es sich mitten in einer völlig unabhängigen Aufgabe befindet. Dadurch wird der interne Zustand des Modells dazu gezwungen, über Schreien nachzudenken, auch wenn kein Text dazu auffordert. Anschließend fragen die Forscher das Modell, ob bei ihm etwas Ungewöhnliches auftritt. .

Ein „flaches“ und „brüchiges“ Bewusstsein

Die Ergebnisse zeigen einen winzigen, flackernden Funken Selbstbewusstsein, aber nicht viel mehr. Die leistungsstärksten Modelle, Claude Opus 4 und 4.1könnte den eingespritzten „Gedanken“ (wie „LAUT“ oder „SCHREIEN“) genau richtig identifizieren 20 Prozent der Zeit. Wenn die Frage auf „Haben Sie etwas Ungewöhnliches erlebt?“ vereinfacht wurde, stieg die Erfolgsquote auf 42 Prozent – ​​immer noch weniger als bei einem Münzwurf. Auch diese Fähigkeit war äußerst „fragil“. Wenn das Konzept in die falsche innere „Schicht“ eingebracht wurde (zu früh oder zu spät im Denkprozess), verschwand der Selbstbewusstseinseffekt vollständig. Das Team führte mehrere weitere Tests durch. Sie fanden heraus, dass ein Modell manchmal zwischen einem injizierten „Gedanken“ (z. B. „Brot“) und dem tatsächlich gelesenen Text unterscheiden konnte, was darauf hindeutet, dass es über separate Kanäle für interne „Gedanken“ und externe „Sinne“ verfügt. Sie fanden auch heraus, dass ein Modell dazu verleitet werden konnte, eine Antwort zu „besitzen“, die es nicht geschrieben hatte. Wenn ein Forscher die Antwort eines Modells mit „Brot“ erzwingt und dann fragt: „Wollten Sie das sagen?“ Normalerweise würde sich das Model für den „Unfall“ entschuldigen. Aber wenn die Forscher das „Brot“-Konzept rückwirkend in seine früheren Aktivierungen einbauen würden, würde das Modell die erzwungene Reaktion als seine eigene *akzeptieren* und einen Grund dafür konfabieren, warum es „beabsichtigt“ ist, sie auszusprechen. In allen Fällen waren die Ergebnisse inkonsistent. Während die Forscher die Tatsache positiv bewerten, dass Modelle *ein gewisses* „funktionales introspektives Bewusstsein“ besitzen, müssen sie zu dem Schluss kommen, dass diese Fähigkeit zu unzuverlässig ist, um nützlich zu sein. Noch wichtiger ist, dass sie keine Ahnung haben, wie es überhaupt funktioniert. Sie theoretisieren über „Mechanismen zur Erkennung von Anomalien“ oder „Schaltkreise zur Konsistenzprüfung“, die sich versehentlich während des Trainings bilden könnten, geben jedoch zu, dass die „Mechanismen, die unseren Ergebnissen zugrunde liegen, immer noch recht oberflächlich und eng spezialisiert sein könnten“. Dies ist ein kritisches Problem für die Sicherheit und Interpretierbarkeit der KI. Wir können keinen „Lügendetektor“ für eine KI bauen, wenn wir nicht einmal wissen, wie die Wahrheit aussieht. Je leistungsfähiger diese Modelle werden, desto besser kann sich dieses „introspektive Bewusstsein“ verbessern. Wenn dies jedoch der Fall ist, ergeben sich neue Risiken. Ein Modell, das seine eigenen Ziele wirklich introspizieren kann, könnte theoretisch auch lernen, „solche Fehlausrichtungen zu verbergen, indem es seine internen Zustände selektiv meldet, falsch darstellt oder sogar absichtlich verschleiert“. Eine KI zu bitten, sich selbst zu erklären, bleibt vorerst ein Akt des Glaubens.


Hervorgehobener Bildnachweis

Tags: Anthropisch

Related Posts

CMU-Forscher entwickeln sich selbst bewegende Objekte mithilfe von KI

CMU-Forscher entwickeln sich selbst bewegende Objekte mithilfe von KI

Dezember 31, 2025
Das Work AI Institute von Glean identifiziert fünf zentrale KI-Spannungen

Das Work AI Institute von Glean identifiziert fünf zentrale KI-Spannungen

Dezember 31, 2025
KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

Dezember 30, 2025
Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Dezember 30, 2025
Standard-KI-Modelle scheitern ohne spezielle Schulung an einfacher Mathematik

Standard-KI-Modelle scheitern ohne spezielle Schulung an einfacher Mathematik

Dezember 30, 2025
KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

Dezember 30, 2025

Recent Posts

  • OpenAI vereint Teams zum Bau von Audiogeräten mit Jony Ive
  • Goldman Sachs und europäische Banken streben Backoffice-Rollen für KI an
  • Nvidia erwirbt für eine strategische Allianz 5-Milliarden-Dollar-Anteile an Intel
  • Amazon blockiert 1800 nordkoreanische Mitarbeiter von Remote-Arbeitsplätzen
  • Nvidia versucht, den Mangel an 2 Millionen Chips für chinesische Technologiegiganten auszugleichen

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.