Anthropische Studie kommt zu dem Ergebnis, dass KI nur über eine begrenzte Selbstwahrnehmung ihrer eigenen Gedanken verfügt

Anthropisch Forschung beschreibt das unzuverlässige Selbstbewusstsein von Large Language Models (LLM) in Bezug auf interne Prozesse, trotz einiger bekannter Erkennungsfähigkeiten. Anthropics neueste Studie, dokumentiert in „Aufkommendes introspektives Bewusstsein in großen Sprachmodellen„Untersucht die Fähigkeit von LLMs, ihre eigenen Inferenzprozesse zu verstehen. Diese Forschung erweitert frühere Arbeiten zur KI-Interpretierbarkeit. Die Studie kommt zu dem Schluss, dass aktuelle KI-Modelle „sehr unzuverlässig“ bei der Beschreibung ihres Innenlebens sind, wobei „Versagen bei der Selbstbeobachtung weiterhin die Norm“ ist Kleinbuchstaben helfen bei der Berechnung von Aktivierungsunterschieden über Milliarden interner Neuronen hinweg. Diese Konzeptvektoren werden dann in das Modell „injiziert“, um das Modell in Richtung eines Konzepts zu „lenken“. Beispielsweise könnte ein Modell nach der Injektion eines „Großbuchstaben“-Vektors sagen: „Ich bemerke, was ein injizierter Gedanke zu sein scheint, der mit dem Wort ‚LAUT‘ oder ‚RUFEN‘ zusammenhängt“, ohne dass diese Fähigkeit bei wiederholten Tests inkonsistent und fragil war. Die leistungsstärksten Modelle, Opus 4 und 4.1, identifizierten das injizierte Konzept jedoch nur in 20 % der Fälle korrekt 4.1 erreichte eine Erfolgsquote von 42 %. Der „Selbstwahrnehmungseffekt“ verschwand, wenn das Konzept zu früh oder zu spät im mehrstufigen Inferenzprozess eingeführt wurde. Wenn ein LLM aufgefordert wurde, eine erzwungene Antwort zu begründen, erwähnte er manchmal ein injiziertes Konzept In Übereinstimmung mit einem injizierten Konzept entschuldigte es sich gelegentlich und „konfabulierte eine Erklärung dafür, warum mir das injizierte Konzept in den Sinn kam“. Die Forscher stellten fest, dass „aktuelle Sprachmodelle über ein gewisses funktionales introspektives Bewusstsein für ihre eigenen internen Zustände verfügen“, wobei sie in ihrer Arbeit anerkennen, dass diese Fähigkeit brüchig und kontextabhängig bleibt „Selbstwahrnehmungseffekte“ könnten den Fortschritt behindern. Forscher spekulieren über „Anomalieerkennungsmechanismen“ und „Konsistenzprüfkreise“, die sich während des Trainings organisch entwickeln könnten, um „eine Funktion ihrer internen Darstellungen effektiv zu berechnen“, obwohl sie keine definitive Erklärung liefern könnten. Die den aktuellen Ergebnissen zugrunde liegenden Mechanismen könnten „eher oberflächlich und eng spezialisiert“ sein mechanistische Grundlage.“

Hervorgehobener Bildnachweis

Tags: Anthropisch Forschung

Anthropische Studie kommt zu dem Ergebnis, dass KI nur über eine begrenzte Selbstwahrnehmung ihrer eigenen Gedanken verfügt

Related Posts

Microsoft reagiert auf die Gegenreaktion mit neuen Versprechen für Rechenzentren

Netflix bereitet ein Barangebot vor, um den Vertrag mit Warner Bros. abzuschließen

Instagram-Mitbegründer Mike Krieger wechselt zu Anthropic Labs

Apple hat Entwicklern seit 2008 über den App Store 550 Milliarden US-Dollar gezahlt

Paramount verklagt Warner Bros., um Transparenz beim Netflix-Deal zu erzwingen

Indonesien und Malaysia blockieren Grok wegen sexualisierter Deepfakes

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Anthropische Studie kommt zu dem Ergebnis, dass KI nur über eine begrenzte Selbstwahrnehmung ihrer eigenen Gedanken verfügt

Related Posts

Microsoft reagiert auf die Gegenreaktion mit neuen Versprechen für Rechenzentren

Netflix bereitet ein Barangebot vor, um den Vertrag mit Warner Bros. abzuschließen

Instagram-Mitbegründer Mike Krieger wechselt zu Anthropic Labs

Apple hat Entwicklern seit 2008 über den App Store 550 Milliarden US-Dollar gezahlt

Paramount verklagt Warner Bros., um Transparenz beim Netflix-Deal zu erzwingen

Indonesien und Malaysia blockieren Grok wegen sexualisierter Deepfakes

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us