Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Standard-KI-Modelle scheitern ohne spezielle Schulung an einfacher Mathematik

byKerem Gülen
Dezember 30, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Einer aktuellen Studie zufolge hatten große Sprachmodelle trotz ihrer Fähigkeit, komplexe Codierungs- und Argumentationsaufgaben zu bewältigen, Probleme mit der mehrstelligen Multiplikation ohne spezielle Trainingsmethoden. Forschungsergebnisse veröffentlicht am arXiv Mithilfe eines Preprint-Servers von Xiaoyan Bai und Chenhao Tan von der University of Chicago identifizierten Xiaoyan Bai und Chenhao Tan zusammen mit Mitarbeitern des MIT, der Harvard University, der University of Waterloo und Google DeepMind die Gründe für diese Einschränkung und fanden Lösungen. Standardmodelle großer Sprachen erreichten eine Genauigkeit von weniger als 1 % bei der Multiplikation zweier vierstelliger Zahlen, selbst bei einer Erhöhung der Schichten auf bis zu 12. Diese Modelle konvergierten auf ein „lokales Optimum“ und konnten die für die mehrstellige Multiplikation erforderlichen Zwischenberechnungen, die als Abhängigkeiten mit großer Reichweite kategorisiert werden, nicht speichern und abrufen. Umgekehrt erreichte ein mit der Implicit Chain of Thought (ICoT)-Methode trainiertes Modell eine Genauigkeit von 100 %. Das ICoT-Modell zeigte die Fähigkeit, langfristige Abhängigkeiten zu verfolgen und Argumentationsprozesse zu verinnerlichen, indem während des Trainings schrittweise Zwischenschritte des Denkens entfernt werden. Das Forschungsteam entschlüsselte Zwischenwerte, wie zum Beispiel laufende Summen, aus den internen Zuständen des ICoT-Modells, was mit dem Standard-Feinabstimmungsmodell nicht möglich war. Das ICoT-Modell organisierte seine Aufmerksamkeit in verschiedene Pfade, berechnete Produkte von Ziffernpaaren in frühen Schichten und speicherte sie an bestimmten Orten für den Abruf in späteren Schichten. Dadurch wurde eine effiziente interne Struktur für die Multiplikation geschaffen. Die Studie ergab außerdem, dass das ICoT-Modell Operationen mithilfe eleganter Strukturen darstellte, Ziffern als wellenartige Muster (Fourier-Basen) kodierte und die Arithmetik räumlich organisierte. Bei der Multiplikation von Ziffernpaaren nutzte das Modell natürlich eine geometrische Operation namens Minkowski-Summe, die von den Forschern nicht explizit programmiert wurde. Die Forscher erreichten eine Genauigkeit von 99 % in einem zweischichtigen Modell, indem sie ein modifiziertes Trainingsziel einführten, das dem Modell beibrachte, laufende Summen bei jedem Schritt zu verfolgen und so Zwischenwerte und Teilprodukte weiterzuleiten. Diese Ergänzung ermöglichte es dem Modell, ähnliche Mechanismen wie ICoTs zu entwickeln, einschließlich der Speicherung und des Abrufs von Teilprodukten und der gleichzeitigen Verfolgung mehrerer Ziffernpaare. Chenhao Tan sagte: „Unsere Forschung versucht, dieses Terrain abzustecken.“ Die Studie hebt hervor, dass architektonische Erkenntnisse und Trainingstechniken Hindernisse überwinden können, die durch Skalierung allein nicht beseitigt werden können, und betont die Bedeutung integrierter Anleitungen für die Weiterentwicklung der KI-Fähigkeiten. Die Ergebnisse beleuchten grundlegende Aspekte des Lernens und „Denkens“ großer Sprachmodelle, wobei sich das Problem der Langzeitabhängigkeit über die Arithmetik hinaus auf andere sequentielle Aufgaben in der Sprachmodellierung erstreckt.


Hervorgehobener Bildnachweis

Tags: KIMathe

Related Posts

KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

Dezember 30, 2025
Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Dezember 30, 2025
KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

Dezember 30, 2025
Wissenschaftler entdecken mehr als 17.000 neue Arten

Wissenschaftler entdecken mehr als 17.000 neue Arten

Dezember 26, 2025
GPT-5.2 übertrifft mit 92 % der wissenschaftlichen Bewertung die Baseline der Experten-Doktorarbeit

GPT-5.2 übertrifft mit 92 % der wissenschaftlichen Bewertung die Baseline der Experten-Doktorarbeit

Dezember 24, 2025
Warum DIG AI die gefährlichste bösartige KI des Jahres 2025 ist

Warum DIG AI die gefährlichste bösartige KI des Jahres 2025 ist

Dezember 23, 2025

Recent Posts

  • SoftBank erwirbt DigitalBridge für 4 Milliarden US-Dollar in bar
  • CachyOS fordert Ubuntu in neuen Server-Benchmarks heraus
  • Stoxx 600 bricht Rekord: Europäische Märkte erreichen Rekordhoch, während sich die Bergleute erholen
  • Analysten prognostizieren für das erste Quartal 2026, dass Bitcoin stabiler ist als Wachstum
  • KI korrumpiert akademische Forschung durch Zitate nicht existierender Studien

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.