Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Anthropische Studie kommt zu dem Ergebnis, dass KI nur über eine begrenzte Selbstwahrnehmung ihrer eigenen Gedanken verfügt

byAytun Çelebi
November 12, 2025
in Industry, Research
Home Industry
Share on FacebookShare on Twitter

Anthropisch Forschung beschreibt das unzuverlässige Selbstbewusstsein von Large Language Models (LLM) in Bezug auf interne Prozesse, trotz einiger bekannter Erkennungsfähigkeiten. Anthropics neueste Studie, dokumentiert in „Aufkommendes introspektives Bewusstsein in großen Sprachmodellen„Untersucht die Fähigkeit von LLMs, ihre eigenen Inferenzprozesse zu verstehen. Diese Forschung erweitert frühere Arbeiten zur KI-Interpretierbarkeit. Die Studie kommt zu dem Schluss, dass aktuelle KI-Modelle „sehr unzuverlässig“ bei der Beschreibung ihres Innenlebens sind, wobei „Versagen bei der Selbstbeobachtung weiterhin die Norm“ ist Kleinbuchstaben helfen bei der Berechnung von Aktivierungsunterschieden über Milliarden interner Neuronen hinweg. Diese Konzeptvektoren werden dann in das Modell „injiziert“, um das Modell in Richtung eines Konzepts zu „lenken“. Beispielsweise könnte ein Modell nach der Injektion eines „Großbuchstaben“-Vektors sagen: „Ich bemerke, was ein injizierter Gedanke zu sein scheint, der mit dem Wort ‚LAUT‘ oder ‚RUFEN‘ zusammenhängt“, ohne dass diese Fähigkeit bei wiederholten Tests inkonsistent und fragil war. Die leistungsstärksten Modelle, Opus 4 und 4.1, identifizierten das injizierte Konzept jedoch nur in 20 % der Fälle korrekt 4.1 erreichte eine Erfolgsquote von 42 %. Der „Selbstwahrnehmungseffekt“ verschwand, wenn das Konzept zu früh oder zu spät im mehrstufigen Inferenzprozess eingeführt wurde. Wenn ein LLM aufgefordert wurde, eine erzwungene Antwort zu begründen, erwähnte er manchmal ein injiziertes Konzept In Übereinstimmung mit einem injizierten Konzept entschuldigte es sich gelegentlich und „konfabulierte eine Erklärung dafür, warum mir das injizierte Konzept in den Sinn kam“. Die Forscher stellten fest, dass „aktuelle Sprachmodelle über ein gewisses funktionales introspektives Bewusstsein für ihre eigenen internen Zustände verfügen“, wobei sie in ihrer Arbeit anerkennen, dass diese Fähigkeit brüchig und kontextabhängig bleibt „Selbstwahrnehmungseffekte“ könnten den Fortschritt behindern. Forscher spekulieren über „Anomalieerkennungsmechanismen“ und „Konsistenzprüfkreise“, die sich während des Trainings organisch entwickeln könnten, um „eine Funktion ihrer internen Darstellungen effektiv zu berechnen“, obwohl sie keine definitive Erklärung liefern könnten. Die den aktuellen Ergebnissen zugrunde liegenden Mechanismen könnten „eher oberflächlich und eng spezialisiert“ sein mechanistische Grundlage.“


Hervorgehobener Bildnachweis

Tags: AnthropischForschung

Related Posts

Goldman Sachs und europäische Banken streben Backoffice-Rollen für KI an

Goldman Sachs und europäische Banken streben Backoffice-Rollen für KI an

Januar 2, 2026
Nvidia erwirbt für eine strategische Allianz 5-Milliarden-Dollar-Anteile an Intel

Nvidia erwirbt für eine strategische Allianz 5-Milliarden-Dollar-Anteile an Intel

Januar 2, 2026
Amazon blockiert 1800 nordkoreanische Mitarbeiter von Remote-Arbeitsplätzen

Amazon blockiert 1800 nordkoreanische Mitarbeiter von Remote-Arbeitsplätzen

Januar 2, 2026
Nvidia versucht, den Mangel an 2 Millionen Chips für chinesische Technologiegiganten auszugleichen

Nvidia versucht, den Mangel an 2 Millionen Chips für chinesische Technologiegiganten auszugleichen

Januar 2, 2026
Große Batterien steigern den Umsatz von Honor im Jahr 2025 auf 71 Millionen

Große Batterien steigern den Umsatz von Honor im Jahr 2025 auf 71 Millionen

Januar 2, 2026
CMU-Forscher entwickeln sich selbst bewegende Objekte mithilfe von KI

CMU-Forscher entwickeln sich selbst bewegende Objekte mithilfe von KI

Dezember 31, 2025

Recent Posts

  • OpenAI vereint Teams zum Bau von Audiogeräten mit Jony Ive
  • Goldman Sachs und europäische Banken streben Backoffice-Rollen für KI an
  • Nvidia erwirbt für eine strategische Allianz 5-Milliarden-Dollar-Anteile an Intel
  • Amazon blockiert 1800 nordkoreanische Mitarbeiter von Remote-Arbeitsplätzen
  • Nvidia versucht, den Mangel an 2 Millionen Chips für chinesische Technologiegiganten auszugleichen

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.