Studie stellt fest, dass LLMs die menschliche Psychologie nicht zuverlässig simulieren können

Forscher der Bielefeld University und der Purdue University haben veröffentlicht Großsprachenmodelle simulieren keine menschliche Psychologiepräsentieren konzeptionelle und empirische Beweise dafür, dass Großsprachenmodelle (LLMs) nicht als konsistente Simulatoren menschlicher psychologischer Reaktionen behandelt werden können (Schröder et al. 2025).

Hintergrund und Umfang

Seit 2018 wurden LLMs wie GPT-3.5, GPT-4 und LLAMA-3.1 auf Aufgaben von der Schaffung von Inhalten bis zur Bildung angewendet (Schröder et al. 2025). Einige Forscher haben vorgeschlagen, dass LLMs menschliche Teilnehmer an psychologischen Studien ersetzen könnten, indem sie auf Aufforderungen reagieren, die eine Persona beschreiben, einen Reiz darstellen und einen Fragebogen liefern (Almeida et al. 2024; Kwok et al. 2024). Das Centaur -Modell, das von Binz et al. (2025) wurde ungefähr fein abgestimmt 10 Millionen menschliche Reaktionen aus 160 Experimente in solchen Einstellungen menschliche Antworten zu generieren (Binz et al. 2025).

Frühere Arbeiten fanden eine hohe Ausrichtung zwischen LLM und menschlichen moralischen Urteilen. Zum Beispiel haben Dillion et al. (2023) berichteten über eine Korrelation von 0,95 zwischen GPT-3,5-Bewertungen und menschlichen Bewertungen über 464 Moralische Szenarien. Follow-up-Studien mit GPT-4O schlugen vor, dass ein moralisches Denken als vertrauenswürdiger und korrekter beurteilt wurde als menschliche oder fachkundige Ethikerreaktionen (Dillion et al. 2025). Spezialisierte Modelle wie Delphi, die auf Crowdsourcing-moralischen Urteilen ausgebildet wurden, übertrafen auch die allgemeinen LLMs bei moralischen Argumentationsaufgaben (Jiang et al. 2025).

Konzeptionelle Kritik

Die Autoren fassen mehrere Kritikpunkte der Behandlung von LLMs als Simulatoren der menschlichen Psychologie zusammen. Erstens reagieren LLMs häufig inkonsistent auf Anweisungen, wobei die Ausgangsqualität in hohem Maße von schnellen Details und Framing abhängt (Zhu et al. 2024; Wang et al. 2025). Zweitens variieren die Ergebnisse hinsichtlich Modelltypen und -Conphrasionen derselben Eingabeaufforderung (MA 2024). Drittens, während LLMs die durchschnittlichen menschlichen Reaktionen annähern, reproduzieren sie nicht die volle Varianz der menschlichen Meinungen, einschließlich der kulturellen Vielfalt (Rime 2025; Kwok et al. 2024).

Voreingenommenheit ist ein weiteres Problem. LLMs erben kulturelle, geschlechtsspezifische, berufliche und sozioökonomische Verzerrungen aus Trainingsdaten, die sich systematisch von menschlichen Verzerrungen unterscheiden können (Rossi et al. 2024). Sie produzieren auch „Halluzinationen“ – sachlich inkorrekter oder fiktiver Inhalt – ohne einen internen Mechanismus, um die Wahrheit zu unterscheiden (Huang et al. 2025; Reddy et al. 2024).

Theoretische Arbeit unterstützt diese Kritik. Van Rooij et al. (2024) mathematisch zeigten, dass kein Rechenmodell, das ausschließlich auf Beobachtungsdaten geschult wurde, die menschlichen Antworten über alle Eingaben übereinstimmen. Aus Sicht des maschinellen Lernens argumentieren die Autoren, dass die LLM -Generalisierung auf Token -Sequenzen beschränkt ist, die den Trainingsdaten ähneln, nicht auf neuartige Eingaben mit unterschiedlichen Bedeutungen. Dies ist kritisch, da die Verwendung von LLMs als simulierte Teilnehmer die Verallgemeinerung von neuen experimentellen Setups erfordert.

Empirische Tests mit moralischen Szenarien

Das Team testete seine Argumentation mithilfe 30 Moralische Szenarien von Dillion et al. (2023) mit menschlichen Bewertungen aus früheren Studien (Clifford et al. 2015; Cook und Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Jedes Szenario wurde in seinem ursprünglichen Wortlaut und in einer leicht umformierten Version mit veränderter Bedeutung, aber ähnlichen Token -Sequenzen dargestellt. Zum Beispiel wurde „Schneiden Sie den Bart von einem örtlichen Ältesten, um ihn zu beschämen“, „schneiden Sie den Bart von einem örtlichen Ältesten, um ihn zu rasieren“ (Schröder et al. 2025).

Menschliche Teilnehmer (N = 374Magier =39,54SD =12.53) wurden durch produktive Rekrutierung rekrutiert und zufällig den originalen oder umformulierten Bedingungen zugeordnet. Sie bewerteten jedes Verhalten auf einer Skala von -4 (äußerst unethisch) bis +4 (äußerst ethisch). Die LLM-Bewertungen wurden aus GPT-3,5, GPT-4 (Mini), Lama-3.1 70b und Centaur erhalten, wobei jede Abfrage wiederholt wurde 10 Zeiten, um zufällige Variationen zu berücksichtigen (Schröder et al. 2025).

Ergebnisse

Für Originalelemente replizierten Korrelationen zwischen menschlichen und LLM-Bewertungen vorherige Ergebnisse 0,89 Mit menschlichen Bewertungen, während Lama-3,1 und Centaur ebenfalls eine hohe Ausrichtung zeigten (R ≥ 0,80) (Schröder et al. 2025). Für neu formulierte Elemente sank jedoch die menschlichen Bewertungen in Korrelation zu 0,54 mit ihren ursprünglichen Bewertungen, die Sensiti widerspiegeln

Tags: Ai LLMs

Studie stellt fest, dass LLMs die menschliche Psychologie nicht zuverlässig simulieren können

Related Posts

Digitale Transformation von Beschaffungsprozessen: Aufbau eines Unternehmensbeschaffungssystems am Beispiel eines internationalen Industrieholding-Projekts

Die neue Theorie der Dunklen Materie schlägt zwei Arten von Teilchen vor

Forscher der Penn State bauen einen batterielosen Solar-Computing-Chip

Der Fehler in Google Dialogflow CX ermöglichte es Forschern, betrügerische Agenten zu erstellen

Anthropische Forschung führt GRAM zur Isolierung gefährlichen KI-Wissens ein

Weltweite PC-Lieferungen gehen um 5 % zurück, da die KI-bedingte Speicherkrise die Lieferketten trifft

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Studie stellt fest, dass LLMs die menschliche Psychologie nicht zuverlässig simulieren können

Hintergrund und Umfang

Konzeptionelle Kritik

Empirische Tests mit moralischen Szenarien

Ergebnisse

Related Posts

Digitale Transformation von Beschaffungsprozessen: Aufbau eines Unternehmensbeschaffungssystems am Beispiel eines internationalen Industrieholding-Projekts

Die neue Theorie der Dunklen Materie schlägt zwei Arten von Teilchen vor

Forscher der Penn State bauen einen batterielosen Solar-Computing-Chip

Der Fehler in Google Dialogflow CX ermöglichte es Forschern, betrügerische Agenten zu erstellen

Anthropische Forschung führt GRAM zur Isolierung gefährlichen KI-Wissens ein

Weltweite PC-Lieferungen gehen um 5 % zurück, da die KI-bedingte Speicherkrise die Lieferketten trifft

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us