Großsprachige Modelle (LLMs) werden für ihre mehrsprachigen Fähigkeiten gefeiert, aber wie verarbeiten sie nicht englische Sprachen? Eine kürzlich durchgeführte Studie namens “Denken mehrsprachige LLMs auf Englisch?”Von Lisa Schut, Yarin Gal und Sebastian Farquhar von der University of Oxford und Google DeepMind schlägt vor, dass LLMs möglicherweise stärker auf englisch zentriertes sein können als bisher angenommen. Ihre Ergebnisse zeigen, dass diese Modelle unabhängig von der Eingabe- oder Ausgangssprache dazu neigen, in einem internen Repräsentationsraum zu argumentieren, der dem Englisch am nächsten ist, bevor sie ihre Gedanken in die Zielsprache übersetzen.
Ein englischzentrierter Denkprozess
LLMs sind in großen Mengen mehrsprachiger Daten geschult, doch die dominierende Sprache in ihrem Trainingskorpus schreibt häufig vor, wie sie Informationen intern strukturieren. Die Studie analysierte mehrere Open-Source-Modelle, einschließlich LLAMA-3.1-70B, MIXTRAL-8X22B, GEMMA-2-27B und AYA-23-35Bum zu untersuchen, ob diese Systeme eine Sprach-Agnostik-Art und Weise verarbeiten oder ob sie in einem englischzentrierten Repräsentationsraum standardmäßig ausfallen.
Verwenden einer Technik namens die Logit -ObjektivDie Forscher dekodierten die latenten Darstellungen dieser Modelle und entdeckten ein auffälliges Muster: beim Generieren von Text in nicht englischen Sprachen, LLMs erste Karte Semantisch bedeutende Wörter (wie Substantive und Verben) zu ihren englischen Äquivalenten, bevor sie sie in die Zielsprache umwandeln. Dieses Phänomen wurde in mehreren Sprachen beobachtet, einschließlich Französisch, Deutsch, Niederländisch und Mandarin.
Zum Beispiel, wenn dem Modell der französische Satz gegeben wurde „Le Bodeau Naviguait en douceur sur l’eau“ („Das Boot segelte reibungslos auf dem Wasser“), die inneren Darstellungen zeigten, dass Wörter wie Wasser Und Boot wurden zuerst ihren englischen Bedeutungen zugeordnet, bevor sie wieder in Französisch übersetzt wurden. Jedoch, grammatikalische Elemente wie Präpositionen und Determiner blieben in der Originalsprache, was darauf hindeutet, dass nur semantisch geladene Wörter dieser englischzentrierten Verarbeitung unterzogen werden.
AI kümmert sich jetzt um molekulare Simulationen: Dank an MDCrow
Das Lenkvektor -Experiment
Ein weiteres Schlüsselexperiment in der Studie beteiligte sich AktivierungslenkungEine Technik, die zur Manipulation von LLM -Antworten verwendet wird, indem sie an bestimmte Konzepte stupsen. Die Forscher fanden heraus, dass die Lenkvektoren-mathematische Darstellungen, die die Entscheidungsfindung des Modells leiten-bei der Berechnung in englischer Sprache signifikant effektiver sind als in der Eingabe- oder Ausgangssprache. Dies unterstützt die Idee weiter, dass das Kernzustand des Modells in einem englisch ausgerichteten Raum auftritt.
Als beispielsweise ein LLM aufgefordert wurde, einen Satz über Tiere auf Deutsch zu schreiben, antwortete das Modell konsequenter, als der Lenkvektor aus dem englischen Wort abgeleitet wurde Tier eher als sein deutscher Gegenstück Stufe. Dies deutet darauf hin, dass ihre zugrunde liegende Logik auch dann, wenn Modelle einen fließenden nicht englischen Text erzeugen, an englische Darstellungen gebunden bleibt.
Die englischzentrierte Natur von LLMs hat Sowohl Vorteile als auch Nachteile. Einerseits ermöglicht es diesen Modellen, über mehrere Sprachen hinweg gut abzuschneiden, obwohl sie überwiegend in englischen Daten geschult wurden. Andererseits führt es ein Vorurteile und Einschränkungen:
- Geringere Sprachen in nicht englischen Sprachen: Modelle, die mit einer englisch orientierten Struktur ausgebildet sind, erzeugen bei der Erstellung von Text in anderen Sprachen in der Regel unnatürliche Sätze. Dies kann ihren Ausgangsschall gestelzt werden, insbesondere in Sprachen mit einer deutlich unterschiedlichen Syntax und Grammatik.
- Kulturelle und sprachliche Voreingenommenheit: Da die interne Struktur Englisch bevorzugt, können bestimmte Sprachen unterrepräsentiert sein, was zu unfairen Nachteilen bei der Leistung führt. Frühere Forschungen haben bereits hervorgehoben Western zentrierte Vorurteile In AI -Modellen, und diese Studie fügt dem Problem eine weitere Schicht hinzu.
- Übersetzungsartefakte: Da Modelle ihre internen Gedanken aus Englisch übersetzen, können sie erzeugen unangenehme Phrasierung oder Fehler Bei der Arbeit mit Sprachen, die keine direkten englischen Äquivalente für bestimmte Wörter oder Ausdrücke haben.
Zeigen alle LLMs dieses Verhalten?
Interessanterweise zeigten nicht alle Modelle den gleichen Grad an englischzentrierter Verarbeitung. AYA-23-35B, ein Modell, das auf 23 Sprachen trainiert wurde, zeigte die geringste Menge an englischer Routingwohingegen Gemma-2-27b, hauptsächlich auf Englisch ausgebildet, zeigte am meisten. Dies deutet darauf hin, dass der Grad der mehrsprachigen Fähigkeiten direkt beeinflusst, ob ein Modell auf englische Darstellungen beruht.
Zusätzlich, Kleinere Modelle zeigten eine größere Tendenz, standardmäßig Englisch zu sein, Wahrscheinlich aufgrund ihrer begrenzten Fähigkeit, mehrsprachige Einbettungen effizient zu speichern. Größere Modelle mit weiteren Parametern und Trainingsdaten scheinen ein etwas besseres Verständnis für mehrsprachige Semantik zu haben, obwohl die englische Tendenz noch bestehen bleibt.
Kann LLMs wirklich mehrsprachig denken?
Die Ergebnisse der Studie stellen die Annahme in Frage, dass LLMs in einem wirklich arbeiten Sprach-agnostische Art. Stattdessen schlagen sie vor, dass mehrsprachige KI ist Immer noch grundlegend von der dominanten Sprache in seinem Trainingskorpus geprägt. Dies wirft wichtige Fragen für KI -Entwickler und Forscher auf:
- Sollten Schulungsdatensätze umstrukturiert werden, um ausgewogenere mehrsprachige Darstellungen zu fördern?
- Wie können wir die englische Tendenz mildern, um die Sprache und Fairness in verschiedenen Sprachen zu verbessern?
- Gibt es alternative Architekturen, die sprachunabhängige Darstellungen besser kodieren könnten?
Adressieren die Englische zentrierte Voreingenommenheit in LLMs wird entscheidend sein, um sich wirklich zu entwickeln Mehrsprachiger, kulturell bewusst Systeme. Forscher schlagen potenzielle Verbesserungen vor, wie z. B.:
- Training über vielfältigere Daten: Die Einbeziehung eines breiteren Spektrums von Sprachen während der Vorbereitung könnte LLMs helfen, einen ausgewogeneren Repräsentationsraum zu entwickeln.
- Verbesserung der lendenden Lenkung: Die Entwicklung besserer Methoden zur Lenkung von LLMs in nicht englischen Sprachen könnte ihre Leistung in verschiedenen sprachlichen Kontexten verbessern.
- Erforschung neuer Architekturen: Zukünftige KI -Modelle könnten Mechanismen annehmen Dezentralisierung von Sprachdarstellungenund sicherstellen, dass Argumentations- und Entscheidungsprozesse sind Wirklich Sprach-Agnostiker.
Eines ist vorerst klar: Während die mehrsprachige KI beeindruckende Fortschritte gemacht hat, ist die Art und Weise, wie es „denkt“, immer noch tief mit Englisch verbunden. Das Verständnis dieser Verzerrung ist der erste Schritt, um fairere und effektivere KI -Systeme für globale Benutzer zu erstellen.
Ausgewähltes Bildnachweis: Kerem Gülen/Ideogramm