Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Standard-KI-Modelle scheitern ohne spezielle Schulung an einfacher Mathematik

byKerem Gülen
Dezember 30, 2025
in Forschung
Home Forschung
Share on FacebookShare on Twitter
Google Preferred Source

Einer aktuellen Studie zufolge hatten große Sprachmodelle trotz ihrer Fähigkeit, komplexe Codierungs- und Argumentationsaufgaben zu bewältigen, Probleme mit der mehrstelligen Multiplikation ohne spezielle Trainingsmethoden. Forschungsergebnisse veröffentlicht am arXiv Mithilfe eines Preprint-Servers von Xiaoyan Bai und Chenhao Tan von der University of Chicago identifizierten Xiaoyan Bai und Chenhao Tan zusammen mit Mitarbeitern des MIT, der Harvard University, der University of Waterloo und Google DeepMind die Gründe für diese Einschränkung und fanden Lösungen. Standardmodelle großer Sprachen erreichten eine Genauigkeit von weniger als 1 % bei der Multiplikation zweier vierstelliger Zahlen, selbst bei einer Erhöhung der Schichten auf bis zu 12. Diese Modelle konvergierten auf ein „lokales Optimum“ und konnten die für die mehrstellige Multiplikation erforderlichen Zwischenberechnungen, die als Abhängigkeiten mit großer Reichweite kategorisiert werden, nicht speichern und abrufen. Umgekehrt erreichte ein mit der Implicit Chain of Thought (ICoT)-Methode trainiertes Modell eine Genauigkeit von 100 %. Das ICoT-Modell zeigte die Fähigkeit, langfristige Abhängigkeiten zu verfolgen und Argumentationsprozesse zu verinnerlichen, indem während des Trainings schrittweise Zwischenschritte des Denkens entfernt werden. Das Forschungsteam entschlüsselte Zwischenwerte, wie zum Beispiel laufende Summen, aus den internen Zuständen des ICoT-Modells, was mit dem Standard-Feinabstimmungsmodell nicht möglich war. Das ICoT-Modell organisierte seine Aufmerksamkeit in verschiedene Pfade, berechnete Produkte von Ziffernpaaren in frühen Schichten und speicherte sie an bestimmten Orten für den Abruf in späteren Schichten. Dadurch wurde eine effiziente interne Struktur für die Multiplikation geschaffen. Die Studie ergab außerdem, dass das ICoT-Modell Operationen mithilfe eleganter Strukturen darstellte, Ziffern als wellenartige Muster (Fourier-Basen) kodierte und die Arithmetik räumlich organisierte. Bei der Multiplikation von Ziffernpaaren nutzte das Modell natürlich eine geometrische Operation namens Minkowski-Summe, die von den Forschern nicht explizit programmiert wurde. Die Forscher erreichten eine Genauigkeit von 99 % in einem zweischichtigen Modell, indem sie ein modifiziertes Trainingsziel einführten, das dem Modell beibrachte, laufende Summen bei jedem Schritt zu verfolgen und so Zwischenwerte und Teilprodukte weiterzuleiten. Diese Ergänzung ermöglichte es dem Modell, ähnliche Mechanismen wie ICoTs zu entwickeln, einschließlich der Speicherung und des Abrufs von Teilprodukten und der gleichzeitigen Verfolgung mehrerer Ziffernpaare. Chenhao Tan sagte: „Unsere Forschung versucht, dieses Terrain abzustecken.“ Die Studie hebt hervor, dass architektonische Erkenntnisse und Trainingstechniken Hindernisse überwinden können, die durch Skalierung allein nicht beseitigt werden können, und betont die Bedeutung integrierter Anleitungen für die Weiterentwicklung der KI-Fähigkeiten. Die Ergebnisse beleuchten grundlegende Aspekte des Lernens und „Denkens“ großer Sprachmodelle, wobei sich das Problem der Langzeitabhängigkeit über die Arithmetik hinaus auf andere sequentielle Aufgaben in der Sprachmodellierung erstreckt.


Hervorgehobener Bildnachweis

Tags: KIMathe

Related Posts

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Juni 3, 2026
Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Mai 20, 2026
Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Mai 20, 2026
Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Mai 20, 2026
Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Mai 20, 2026
Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Mai 19, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.