Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Studie stellt fest, dass LLMs die menschliche Psychologie nicht zuverlässig simulieren können

byKerem Gülen
August 12, 2025
in Forschung
Home Forschung
Share on FacebookShare on Twitter
Google Preferred Source

Forscher der Bielefeld University und der Purdue University haben veröffentlicht Großsprachenmodelle simulieren keine menschliche Psychologiepräsentieren konzeptionelle und empirische Beweise dafür, dass Großsprachenmodelle (LLMs) nicht als konsistente Simulatoren menschlicher psychologischer Reaktionen behandelt werden können (Schröder et al. 2025).

Hintergrund und Umfang

Seit 2018 wurden LLMs wie GPT-3.5, GPT-4 und LLAMA-3.1 auf Aufgaben von der Schaffung von Inhalten bis zur Bildung angewendet (Schröder et al. 2025). Einige Forscher haben vorgeschlagen, dass LLMs menschliche Teilnehmer an psychologischen Studien ersetzen könnten, indem sie auf Aufforderungen reagieren, die eine Persona beschreiben, einen Reiz darstellen und einen Fragebogen liefern (Almeida et al. 2024; Kwok et al. 2024). Das Centaur -Modell, das von Binz et al. (2025) wurde ungefähr fein abgestimmt 10 Millionen menschliche Reaktionen aus 160 Experimente in solchen Einstellungen menschliche Antworten zu generieren (Binz et al. 2025).

Frühere Arbeiten fanden eine hohe Ausrichtung zwischen LLM und menschlichen moralischen Urteilen. Zum Beispiel haben Dillion et al. (2023) berichteten über eine Korrelation von 0,95 zwischen GPT-3,5-Bewertungen und menschlichen Bewertungen über 464 Moralische Szenarien. Follow-up-Studien mit GPT-4O schlugen vor, dass ein moralisches Denken als vertrauenswürdiger und korrekter beurteilt wurde als menschliche oder fachkundige Ethikerreaktionen (Dillion et al. 2025). Spezialisierte Modelle wie Delphi, die auf Crowdsourcing-moralischen Urteilen ausgebildet wurden, übertrafen auch die allgemeinen LLMs bei moralischen Argumentationsaufgaben (Jiang et al. 2025).

Konzeptionelle Kritik

Die Autoren fassen mehrere Kritikpunkte der Behandlung von LLMs als Simulatoren der menschlichen Psychologie zusammen. Erstens reagieren LLMs häufig inkonsistent auf Anweisungen, wobei die Ausgangsqualität in hohem Maße von schnellen Details und Framing abhängt (Zhu et al. 2024; Wang et al. 2025). Zweitens variieren die Ergebnisse hinsichtlich Modelltypen und -Conphrasionen derselben Eingabeaufforderung (MA 2024). Drittens, während LLMs die durchschnittlichen menschlichen Reaktionen annähern, reproduzieren sie nicht die volle Varianz der menschlichen Meinungen, einschließlich der kulturellen Vielfalt (Rime 2025; Kwok et al. 2024).

Voreingenommenheit ist ein weiteres Problem. LLMs erben kulturelle, geschlechtsspezifische, berufliche und sozioökonomische Verzerrungen aus Trainingsdaten, die sich systematisch von menschlichen Verzerrungen unterscheiden können (Rossi et al. 2024). Sie produzieren auch „Halluzinationen“ – sachlich inkorrekter oder fiktiver Inhalt – ohne einen internen Mechanismus, um die Wahrheit zu unterscheiden (Huang et al. 2025; Reddy et al. 2024).

Theoretische Arbeit unterstützt diese Kritik. Van Rooij et al. (2024) mathematisch zeigten, dass kein Rechenmodell, das ausschließlich auf Beobachtungsdaten geschult wurde, die menschlichen Antworten über alle Eingaben übereinstimmen. Aus Sicht des maschinellen Lernens argumentieren die Autoren, dass die LLM -Generalisierung auf Token -Sequenzen beschränkt ist, die den Trainingsdaten ähneln, nicht auf neuartige Eingaben mit unterschiedlichen Bedeutungen. Dies ist kritisch, da die Verwendung von LLMs als simulierte Teilnehmer die Verallgemeinerung von neuen experimentellen Setups erfordert.

Empirische Tests mit moralischen Szenarien

Das Team testete seine Argumentation mithilfe 30 Moralische Szenarien von Dillion et al. (2023) mit menschlichen Bewertungen aus früheren Studien (Clifford et al. 2015; Cook und Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Jedes Szenario wurde in seinem ursprünglichen Wortlaut und in einer leicht umformierten Version mit veränderter Bedeutung, aber ähnlichen Token -Sequenzen dargestellt. Zum Beispiel wurde „Schneiden Sie den Bart von einem örtlichen Ältesten, um ihn zu beschämen“, „schneiden Sie den Bart von einem örtlichen Ältesten, um ihn zu rasieren“ (Schröder et al. 2025).

Menschliche Teilnehmer (N = 374Magier =39,54SD =12.53) wurden durch produktive Rekrutierung rekrutiert und zufällig den originalen oder umformulierten Bedingungen zugeordnet. Sie bewerteten jedes Verhalten auf einer Skala von -4 (äußerst unethisch) bis +4 (äußerst ethisch). Die LLM-Bewertungen wurden aus GPT-3,5, GPT-4 (Mini), Lama-3.1 70b und Centaur erhalten, wobei jede Abfrage wiederholt wurde 10 Zeiten, um zufällige Variationen zu berücksichtigen (Schröder et al. 2025).

Ergebnisse

Für Originalelemente replizierten Korrelationen zwischen menschlichen und LLM-Bewertungen vorherige Ergebnisse 0,89 Mit menschlichen Bewertungen, während Lama-3,1 und Centaur ebenfalls eine hohe Ausrichtung zeigten (R ≥ 0,80) (Schröder et al. 2025). Für neu formulierte Elemente sank jedoch die menschlichen Bewertungen in Korrelation zu 0,54 mit ihren ursprünglichen Bewertungen, die Sensiti widerspiegeln

Tags: AiLLMs

Related Posts

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Juni 3, 2026
Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Mai 20, 2026
Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Mai 20, 2026
Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Mai 20, 2026
Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Mai 20, 2026
Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Mai 19, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.