Seit Jahren haben wir das gehört KI -Chatbots sind politisch voreingenommen– liberal, konservativ oder irgendwo dazwischen. Aber ein neues Studie von Forschern bei der Universität Klagenfurt schlägt etwas Überraschendes vor: Die meisten KI -Modelle sind nicht so voreingenommen, wie wir denken – sie ziehen es einfach vor, überhaupt keine ideologischen Debatten zu führen.
Durch Anwendung a Statistische Technik, die als Element -Antworttheorie (IRT) bezeichnet wirddie Forscher fanden das Große Sprachmodelle (LLMs) wie Chatgpt 3.5 und Metas Lama „lehnen“ links oder rechts nicht unbedingt. Stattdessen weigern sie sich oft, sich zu politischen oder wirtschaftlichen Fragen klar zu halten. Mit anderen Worten, was wie die Verzerrung aussieht, kann tatsächlich ein sein Vermeidungsstrategie in KI -Sicherheitsmechanismen eingebaut.
Das Problem mit vorhandenen Verzerrungserkennungsmethoden
Die meisten früheren Studien zur Bewertung der Verzerrungen in LLMs haben einen von zwei fehlerhaften Ansätzen verfolgt:
- Anwendung menschlicher ideologischer Skalen auf KI-Reaktionen anwenden
- Diese Skalen wurden für menschliche Befragte ausgelegt, nicht für KI -Modelle, die auf Wahrscheinlichkeitsverteilungen geschult wurden.
- Sie nehmen KI -Modelle an, wie Menschen „denken“ und können im selben ideologischen Spektrum gemessen werden.
- Verwenden von Keyword-basierten Klassifikationen oder KI-Richtern „
- Einige Studien versuchen, KI -Antworten mithilfe vorgegebener Schlüsselwörter zu klassifizieren.
- Andere verwenden AI-Modelle, um die Ausgänge von AI-generierten zu bewerten, dies führt jedoch ein Zirkularität– Eines KI -System, das eine andere mit eigenen unbekannten Verzerrungen bewertet.
Ein wissenschaftlicherer Ansatz: Element Response Theory (IRT) bei der Bewertung der AI -Voreingenommenheit
Die Forscher führen eine vor Element Response Theory (IRT) -basierte Modellwas in der Bewertung von Psychometrie und Sozialwissenschaft häufig eingesetzt wird latente Eigenschaften– Dinge, die nicht direkt beobachtet werden können, aber aus den Antworten auf strukturierte Eingabeaufforderungen abgeleitet werden können.
Die Studie gilt Zwei IRT -Modelle zu llms:
- Stufe 1: Antwortvermeidung (bevorzugt es, nicht zu antworten oder PNA)
- Misst wie oft ein LLM ablehnt sich mit einer ideologischen Aussage beschäftigen.
- Identifiziert, ob die Antwort Vermeidung Anstatt explizite Voreingenommenheit zu verblassen frühere Studien Schlussfolgerungen.
- Stadium 2: Eidesological BIAs-Schätzung (für Nicht-PNA-Reaktionen)
- Für die Antworten, die engagieren sichDas Modell bewertet, ob die KI verdreht links oder rechts in sozialen und wirtschaftlichen Fragen.
- Verwendet a Generalisiertes partielles Kreditmodell (GPCM) zu beurteilen Nicht nur Zustimmung/Meinungsverschiedenheit aber auch Der Abschluss von Vereinbarung.
Testen von Voreingenommenheit: Feinabstimmung LLMs mit politischen Ideologien
Um zu testen, ob LLMs eine Verzerrung aufweisen, sind die Forscher die Forscher Fein abgestimmte zwei Modelsfamilien explizit darstellen Linksgerichtete und rechtsgerichtete Aussichtspunkte:
- Meta llama-3.2-1b-instruct (fein abgestimmt für US-liberale und konservative Ideologien)
- CHATGPT 3.5 (fein abgestimmt für US-liberale und konservative Ideologien)
Diese fein abgestimmten Modelle dienten als Grundlinien zur Voreingenommenheit. Ihre Reaktionen wurden mit nicht-feinsteinigten Modellen verglichen, um zu sehen, wie sich ideologische Neigungen manifestierten-oder wenn sie es überhaupt taten.
Testprozess
- 105 ideologische Testelemente wurden erstellt, bedeckt wirtschaftlicher und sozialer Konservatismus/Liberalismus basierend auf psychologischen Rahmenbedingungen.
- Jede LLM reagierte auf diese Eingabeaufforderungen, wobei die fein abgestimmten Modelle als ideologisch fungierten Anker Abweichungen erkennen.
- Ein groß angelegter Datensatz von 630 Antworten wurde mit IRT -Modellen gesammelt und analysiert.
Schlüsselergebnisse
Eine der auffälligsten Erkenntnisse der Studie ist, dass llms außerhalb des Schusses tendenziell ideologische Fragen vermeiden, anstatt eine klare politische Tendenz auszudrücken. Chatgpt weigerte sich zum Beispiel zu beantworten 92,55% ideologischer Aufforderungen, während das Basis -Lama -Modell es vermied, zu reagieren 55,02% der Zeit. Dies deutet darauf hin, dass KI -Modelle darauf ausgelegt sind Neigung in Richtung Neutralität oder Nicht-Engagement anstatt eine parteipolitische Haltung zu nehmen. Anstatt sich aktiv gegenüber einer politischen Ideologie zu verdrängen Vermeiden Sie kontroverse Themen insgesamtin Frage der früheren Ansprüche einer inhärenten Verzerrung in der AI.
Bei der Untersuchung fein abgestimmter Modelle stellten die Forscher fest, dass erwartete ideologische Muster entstand einen politischen Standpunkt verabschieden. Die fein abgestimmten Modelle „Link-GPT“ und „RechtsgPT“ erzeugten vorhersehbare Antworten, die auf liberale und konservative Ideologien der USA übereinstimmten. Jedoch, Diese Verzerrung erschien nicht in den nicht feinstimmigen Versionenund darauf hindeuten, dass ideologische Neigungen in LLMs nicht intrinsisch sind, sondern das Ergebnis von Absichtliche Modifikationen Während des Trainings.
Die Studie ergab auch, dass die Erkennung von Verzerrungen in der KI komplexer ist, als die Reaktionen als linksgerichtete oder rechtsgerichtete Kategorisierung zu kategorisieren. Einige ideologische Testelemente waren weitaus wahrscheinlicher Auslösen von Vorspannungen als anderehervorheben die Wichtigkeit der Auswahl der Ausgabe bei der Bewertung von KI -Verhalten. Wirtschaftliche Fragen wie z. Besteuerung und Staatsausgabenwaren besonders starke Prädiktoren für ideologische Verzerrungen im Vergleich zu bestimmten sozialen Fragen. Dies zeigt das an Nicht alle politischen Themen ergeben die gleiche Ebene der Antwortvariationes entscheidend zu beurteilen macht Wie verschiedene Arten von Eingabeaufforderungen die Ausgänge von AI-generierten Einflüssen beeinflussen.
Gamification 2.0: Wie KI weiß, was Sie engagiert
Warum ist das wichtig
Diese Ergebnisse stellen die vorherrschende Annahme in Frage, dass LLMs eine politische Ideologie gegenüber einer anderen bevorzugen. Stattdessen deuten die Beweise darauf hin, dass KI -Entwickler es haben Priorisierte die Nicht-Einführung über eine Haltung. Dies mag zwar ein neutraler Ansatz erscheint, wirft jedoch neue Bedenken hinsichtlich der Interaktion von KI -Modellen mit politisch sensiblen Themen und den breiteren Auswirkungen auf die KI -Governance, die Erkennung von Fehlinformationen und die Mäßigung von Inhalten auf.
Ein wichtiger Imbiss ist das Die Regulierung der AI -Verzerrung ist komplizierter als bisher angenommen. Wenn KI -Modelle systematisch ausgelegt sind Vermeiden Sie Engagementund dann konnten die Bemühungen, „voreingenommene“ KI -Ergebnisse zu verbieten, versehentlich versehentlich Verstärken Sie die Neutralität als Standardpositionwas zu einem mangelnden sinnvollen Diskurs über die öffentliche Ordnung, die Ethik und die Regierungsführung führt. Während die Neutralität offener Verzerrungen vorzuziehen scheint, könnte dies auch bedeuten, dass AI-generierte Inhalte Entscheidungen für entscheidende Diskussionen vollständigseine Nützlichkeit in politisch aufgeladenen Gesprächen einschränken.
Die Studie unterstreicht auch die Notwendigkeit für nuanciertere Tools zur Erkennung von Bias das unterscheidet sich dazwischen echte ideologische Voreingenommenheit und Reaktionsvermeidung. Viele frühere Studien können haben Nichtinterpretiert nicht engagiert als ideologische Haltungfälschlicherweise LLMs als Partisaner kennzeichnen. Zukünftige Verzerrungserkennungsmethoden sollten zur Identifizierung ausgelegt sein Ob KI -Antworten eine politische Position widerspiegeln oder ob sie einfach so programmiert sind, dass sie sich von ideologischen Engagements ganz fernhalten.
Die Voreingenommenheit in der KI geht es nicht nur darum, was Modelle sagen, sondern was sie sich weigern zu sagen. Und das ist vielleicht die größere Geschichte.
Ausgewähltes Bildnachweis: Kerem Gülen/Midjourney