Einer aktuellen Studie zufolge hatten große Sprachmodelle trotz ihrer Fähigkeit, komplexe Codierungs- und Argumentationsaufgaben zu bewältigen, Probleme mit der mehrstelligen Multiplikation ohne spezielle Trainingsmethoden. Forschungsergebnisse veröffentlicht am arXiv Mithilfe eines Preprint-Servers von Xiaoyan Bai und Chenhao Tan von der University of Chicago identifizierten Xiaoyan Bai und Chenhao Tan zusammen mit Mitarbeitern des MIT, der Harvard University, der University of Waterloo und Google DeepMind die Gründe für diese Einschränkung und fanden Lösungen. Standardmodelle großer Sprachen erreichten eine Genauigkeit von weniger als 1 % bei der Multiplikation zweier vierstelliger Zahlen, selbst bei einer Erhöhung der Schichten auf bis zu 12. Diese Modelle konvergierten auf ein „lokales Optimum“ und konnten die für die mehrstellige Multiplikation erforderlichen Zwischenberechnungen, die als Abhängigkeiten mit großer Reichweite kategorisiert werden, nicht speichern und abrufen. Umgekehrt erreichte ein mit der Implicit Chain of Thought (ICoT)-Methode trainiertes Modell eine Genauigkeit von 100 %. Das ICoT-Modell zeigte die Fähigkeit, langfristige Abhängigkeiten zu verfolgen und Argumentationsprozesse zu verinnerlichen, indem während des Trainings schrittweise Zwischenschritte des Denkens entfernt werden. Das Forschungsteam entschlüsselte Zwischenwerte, wie zum Beispiel laufende Summen, aus den internen Zuständen des ICoT-Modells, was mit dem Standard-Feinabstimmungsmodell nicht möglich war. Das ICoT-Modell organisierte seine Aufmerksamkeit in verschiedene Pfade, berechnete Produkte von Ziffernpaaren in frühen Schichten und speicherte sie an bestimmten Orten für den Abruf in späteren Schichten. Dadurch wurde eine effiziente interne Struktur für die Multiplikation geschaffen. Die Studie ergab außerdem, dass das ICoT-Modell Operationen mithilfe eleganter Strukturen darstellte, Ziffern als wellenartige Muster (Fourier-Basen) kodierte und die Arithmetik räumlich organisierte. Bei der Multiplikation von Ziffernpaaren nutzte das Modell natürlich eine geometrische Operation namens Minkowski-Summe, die von den Forschern nicht explizit programmiert wurde. Die Forscher erreichten eine Genauigkeit von 99 % in einem zweischichtigen Modell, indem sie ein modifiziertes Trainingsziel einführten, das dem Modell beibrachte, laufende Summen bei jedem Schritt zu verfolgen und so Zwischenwerte und Teilprodukte weiterzuleiten. Diese Ergänzung ermöglichte es dem Modell, ähnliche Mechanismen wie ICoTs zu entwickeln, einschließlich der Speicherung und des Abrufs von Teilprodukten und der gleichzeitigen Verfolgung mehrerer Ziffernpaare. Chenhao Tan sagte: „Unsere Forschung versucht, dieses Terrain abzustecken.“ Die Studie hebt hervor, dass architektonische Erkenntnisse und Trainingstechniken Hindernisse überwinden können, die durch Skalierung allein nicht beseitigt werden können, und betont die Bedeutung integrierter Anleitungen für die Weiterentwicklung der KI-Fähigkeiten. Die Ergebnisse beleuchten grundlegende Aspekte des Lernens und „Denkens“ großer Sprachmodelle, wobei sich das Problem der Langzeitabhängigkeit über die Arithmetik hinaus auf andere sequentielle Aufgaben in der Sprachmodellierung erstreckt.




