Nach bestem Wissen und Gewissen nördlich von 7.000 Sprachen werden heute weltweit gesprochen. Etwa 400 Sprachen haben mehr als eine Million Sprecher. Angesichts der Tatsache, dass einige Sprachen, insbesondere Englisch, im digitalen Bereich zu dominieren scheinen, besteht tatsächlich ein enormer Bedarf an Tools, die in verschiedenen Sprachen funktionieren und unterschiedliche Aufgaben ausführen können.
Künstliche Intelligenz und die Verarbeitung natürlicher Sprache, ein Zweig der Informatik, arbeiten seit Jahrzehnten an der Entwicklung von Tools, die genau das können. In den letzten Jahren sind zahlreiche Tools auf der Grundlage mehrsprachiger Modelle für die Verarbeitung natürlicher Sprache (NLP) entstanden. Diese Modelle dienen als Rosetta Stone für das Informationszeitalter und ermöglichen es Computern, nahtlos zwischen Sprachen zu wechseln. Sie bieten nicht nur Übersetzungen, sondern unterstützen auch eine Vielzahl von Anwendungen, wie z. B. Stimmungs- und Inhaltsanalysen.
Multilinguale NLP wird daher in Zukunft eine entscheidende Rolle spielen. Sie kann für maschinelle Übersetzungen oder zur Analyse von Social-Media-Posts in verschiedenen Sprachen verwendet werden, um Stimmungen zu ermitteln, die wiederum für Marketingstrategien oder den Kundenservice genutzt werden können. Multilinguale NLP kann auch Inhaltsempfehlungen für Streaming-Dienste unterstützen oder den Kundenservice in mehreren Sprachen verfügbar machen. Sie kann die Analyse von Nachrichteninhalten unterstützen oder die Übersetzung von Gesundheitsakten in großem Maßstab ermöglichen. Kurz gesagt: Viele Aufgaben, die früher vielleicht unmöglich erschienen – beispielsweise die Übersetzung der Gesundheitsakten eines französischen Krankenhauses ins Englische – sind mit multilingualer NLP möglich.
Manche sehen den Aufstieg der mehrsprachigen NLP auch als eine Kraft zur Demokratisierung von Daten, die Inhalte und Dienste, die einst nur in wenigen Sprachen verfügbar waren, für jedermann zugänglich macht. Und die mehrsprachige NLP entwickelt sich ständig weiter und bezieht sogar nicht-textuelle Daten mit ein.
Von Mensch und Maschine: Jüngste Fortschritte bei mehrsprachigen Modellarchitekturen
Die Verarbeitung natürlicher Sprache hat tiefe Wurzeln. Der englische Mathematiker und Informatiker Alan Turing beschrieb das Potenzial von Computern, natürliche Sprache zu erzeugen, in seinem bahnbrechenden Aufsatz von 1950:Computermaschinen und Intelligenz.“ NLP entwickelte sich in den folgenden Jahrzehnten stetig weiter, und Multilingual NLP begann sich in den 2000er Jahren schnell zu entwickeln. Einige der bedeutendsten Fortschritte bei mehrsprachigen Modellarchitekturen fanden jedoch im letzten Jahrzehnt statt.
Einige Namen dieser Modelle sind fast jedem geläufig, der sich schon einmal mit Übersetzungen beschäftigt hat. DeepLgehört beispielsweise der in Köln ansässigen DeepL SE und verwendet einen eigenen Algorithmus gepaart mit Convolutional Neural Networks, um Übersetzungen zwischen 33 Sprachen und Dialekte. Dies wurde 2017 erstmals eingeführt und ist ein bekanntes Beispiel für mehrsprachiges NLP.
Natürlich gibt es auch ChatGPTgestartet vom in San Francisco ansässigen Unternehmen OpenAI und basierend auf dessen Generative Pre-trained Transformer-Grundmodell 3.5, das später auf Version 4 aktualisiert wurde. GPT 3.5 und 4 gehören zu den größten verfügbaren Sprachmodellen und wurden anhand riesiger Datensätze trainiert. Dies ermöglicht ihnen, große Mengen an Textdaten zu untersuchen, komplexe Muster in der Sprache zu erfassen und qualitativ hochwertigen Text auszugeben.
Dieses mehrsprachige NLP wurde in großem Umfang für die Sprachübersetzung, Stimmungsanalyse und viele andere Zwecke übernommen. GPT 3.5 und GPT 4 wurden über eine API zugänglich gemacht. Im Jahr 2018 führten Forscher bei Google ein Sprachmodell namens Bidirectional Encoder Representations from Transformers oder (BERT). Das Modell umfasste eine Transformer-Encoder-Architektur und wird vom Unternehmen verwendet, um Suchvorgänge auf seiner Plattform verständlicher zu machen und relevantere Informationen in Abfragen zurückzugeben. Das Modell wird über maskierte Token-Vorhersage und Vorhersage des nächsten Satzes trainiert.
Verschiedene verwandte Modelle haben das BERT-Modell weiterentwickelt, wie zum Beispiel RoBERTadas Hyperparameter ändert, das Vortrainingsziel des nächsten Satzes entfernt und das Training mit größeren Mini-Batches ermöglicht.
Um nicht übertroffen zu werden, veröffentlichte Facebook AI ein Modell namens XLM-R im Jahr 2019in dem es den oben erwähnten RoBERTa anhand eines mehrsprachigen Datensatzes trainierte, der aus etwa hundert Sprachen aus CommonCrawl-Datensätzen bestand.
Die Wissenschaftler, die das Tool beschrieben, stellten fest, dass es auch in Sprachen mit kleineren Datensätzen wie Swahili und Urdu, die beide mehrere zehn Millionen Sprecher haben, gute Ergebnisse liefert. Sie stellten auch fest, dass es beim sprachübergreifenden Verstehen gut funktioniert, wobei ein Modell in einer Sprache trainiert und dann mit einer anderen verwendet wird, ohne dass weitere Trainingsdaten erforderlich sind.
Laufende Herausforderungen und Lösungsvorschläge
Obwohl sich die mehrsprachige NLP in den letzten Jahren rasant entwickelt hat, muss sie mit verschiedenen Hindernissen kämpfen. Eines davon ist schlicht und ergreifend die sprachliche Vielfalt.
Bei der Erstellung solcher Modelle geht es nicht nur darum, nahtlose Übersetzungen bereitzustellen. Sprachen können regional unterschiedlich sein oder stärker vom Kontext abhängen, und auch der Slang kann sich ändern. Das bedeutet, dass NLP-Modelle kontinuierlich verbessert werden müssen, um relevant zu sein.
Darüber hinaus sind manche Sprachen in Form digitaler Kommentare einfach nicht so gut vertreten, und mit diesen Datensätzen ist es einfacher, ein Modell zu trainieren. Kleinere Gemeinschaften, die beispielsweise nicht-lateinische Alphabete verwenden, werden besonders außen vor gelassen.
Eine dritte und ziemlich spannende Herausforderung betrifft das Code-Switching, bei dem Community-Mitglieder zwischen Sprachen wechseln können. Man denke an einen englischen Dichter, der plötzlich etwas ausführlich auf Französisch zitiert, oder an einen japanischen Schriftsteller, der seine Prosa mit englischen Referenzen aufpeppt. Wenn ein Modell die Sprache als Japanisch erkennt, wie geht es dann mit diesen englischen Abschnitten im Text um?
Es gibt auch Probleme im Zusammenhang mit dem Zugang zu Ressourcen und Voreingenommenheit. Angesichts der rechnerischen Mittel, die zur Entwicklung mehrsprachiger NLPs erforderlich sind, stellt sich die Frage, ob nur die mächtigsten Unternehmen der Welt in der Lage sein werden, die Ressourcen für deren Entwicklung aufzubringen. Oder gibt es eine Möglichkeit, sie Forschern und Organisationen zugänglicher zu machen? Und wenn Datensätze größere Sprachen oder Gemeinschaften bevorzugen, wie kann man dann sicherstellen, dass Sprecher kleinerer Sprachen gut vertreten sind?
Schließlich gibt es auch das allgegenwärtige Problem schlechter Daten. Forscher müssen damit rechnen, dass ihre Quelldaten für einige Sprachen möglicherweise nicht genau sind, was zu verzerrten Ergebnissen führt.
Lösungen in allen Bereichen bestehen darin, mehr Zeit in die Forschung zu investieren und zusammenzuarbeiten. Forscher müssen daran arbeiten, bessere Daten aus unterrepräsentierten Sprachen zu erhalten und gleichzeitig ihre Modelle zu verbessern. Einige haben bereits Zero-Shot- und Few-Shot-Learning-Ansätze eingesetzt, um Situationen zu bewältigen, in denen für eine Sprache nur wenige Daten verfügbar sind.
Um Voreingenommenheit zu reduzieren, arbeiten sie auch daran, vielfältige Trainingsdatensätze zu erstellen und Metriken zu entwickeln, um Fairness zu gewährleisten. Entwickler sind sich auch bewusst, dass Inhalte in einer Sprache anstößig oder unangemessen sein können, wenn sie in einer anderen Sprache schlecht wiedergegeben werden, und gehen dieses Problem an.
In Bezug auf die Zugänglichkeit sind kleinere Modelle entstanden, um das Ressourcenproblem anzugehen. Einige dieser kleineren Modelle umfassen Orca 2 von Microsoft Und Phi 2EleutherAIs GPT-J Und GPT-Neound T5 Small, eine abgespeckte Version von Googles Text-to-Text Transfer Transformer (T5).
Die Zukunft des mehrsprachigen NLP
Während die Entwickler nach Lösungen für die Herausforderungen der aktuellen Modellgeneration suchen, sind bereits Innovationen im Gange, die die Leistungsfähigkeit dieser Modelle völlig verändern.
Multimodale multilinguale NLP wird genau das tun, indem sie neben Text auch andere Datentypen verarbeitet, wie etwa Bilder oder andere audiovisuelle Daten. Sie könnte Inhalte beispielsweise auf Gesichtsausdrücke oder Tonfall analysieren, was zur Verbesserung der maschinellen Übersetzung oder Stimmungsanalyse verwendet werden könnte und der Verarbeitungspipeline neue Datendimensionen hinzufügt.
Es werden auch Innovationen entwickelt, um bestehende Sprachassistenten und mehrsprachige Chatbots zu verbessern. Apples Sprachassistent Siri kann derzeit auf Anfragen in etwa 25 Sprachen und Dialektewährend Amazons Alexa erhältlich in neunDurch den Einsatz von mehrsprachiger NLP könnten diese Sprachassistenten Millionen weiteren Menschen weltweit zugänglich gemacht werden.
Ebenso können Chatbots und virtuelle Agenten verbessert werden, und zwar nicht nur inhaltlich, sondern auch indem ihre Antworten kontextbezogener und spezifischer auf die Anfrage der Person zugeschnitten werden, was wiederum das Benutzererlebnis verbessert.
Mit der Weiterentwicklung der Technologie wird sich die mehrsprachige NLP über Übersetzung, Stimmungsanalyse und andere aktuelle Anwendungen hinaus auf breitere Anwendungen ausweiten. Beispielsweise könnten Online-Bildungstools leichter in verschiedenen Sprachen verfügbar sein.
Unternehmen können ihre Forschung verbessern, mehr Kunden erreichen und lokale Märkte besser bedienen als bisher – und das alles mit Hilfe von Multilingual NLP. Kurz gesagt: Multilingual NLP steckt noch in den Kinderschuhen. Angesichts der Geschwindigkeit der Entwicklungen wird die Zukunft aber schon bald da sein.
Bildnachweis für vorgestelltes Bild: Freepik