Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Warum das Werfen mehr KI -Berechnung bei der Überprüfung ein Fehler sein könnte

byKerem Gülen
April 11, 2025
in Forschung
Home Forschung
Share on FacebookShare on Twitter
Google Preferred Source

Großsprachige Modelle (LLMs) besser zu bringen, ist eine Sache. Sie dazu zu bringen, es zu tun, ohne absurde Berechnung zu durchbrennen, ist ein anderer. Eine neue Forschungspapierin von Tu Darmstadt, UCLA, Google DeepMind und Mila greift tief in diesen Kompromiss ein-und könnte nur die Art und Weise ändern, wie KI-Entwickler über Skalierungen zur Testzeit nachdenken.

Die Kernspannung? Ob LLMs ihre Berechnung verbringen sollten, um mehr Antworten zu generieren (was als Selbstkonsistenz oder SC bezeichnet wird) oder einige vielversprechende Antworten mit generativen Belohnungsmodellen (GENRMS) zu überprüfen. Es stellt sich heraus, dass die Auswahl von falscher Auswahl Ihr Modell bis zu 128 -mal mehr berechnet wird – für eine kaum spürbare Leistungssteigerung.

Die neue Mathematik des Argumentierens im Maßstab

LLMs wie GPT-4, LLAMA oder QWEN sind schockierend gut darin, Mathematik- und Wissenschaftsprobleme zu lösen, indem sie mehrere Gedankenketten (COTS) generieren und das häufigste Ergebnis auswählen. Das ist die Idee hinter SC – Brute Force Weisheit der Menge. Die Forscher wurden aber auch von Genrms begeistert, ein neuerer Ansatz, der LLMs wie ihren eigenen Richter handeln lässt, indem sie Antworten durch weitere Überlegungen zur Kette des Kettens überprüfen.

Frühere Vergleiche haben Genrm wild effizient aussehen: die Genauigkeit von SC mit 4 × weniger Lösungen. Aber dieses Papier nennt das aus – hart. Warum? Weil niemand die wahren Rechenkosten all dieser Überprüfungsschritte zählte.

Berechnen Budgets ändern alles

Diese Studie führt einen sauberen Rahmen für die Messung der tatsächlichen Kosten von SC- und GENRM -Ansätzen im Rahmen eines festen Rechenbudgets ein. Es funktioniert wie folgt: Sie können entweder Berechnung ausgeben, um mehr Antworten zu generieren (SC) oder dieses Budget zwischen ein paar Antworten und vielen Überprüfungen (GENRM) aufzuteilen. Ihr Modell zur Berechnung des Gesamtinferenz -Rechens ist erfrischend unkompliziert: C (s, v) = s (1 + λv), wobei S die Anzahl der Lösungen ist, v die Anzahl der Überprüfungen, und λ spiegelt die Überprüfungslänge relativ zu Lösungen wider.

Das brutale Ergebnis: SC ist immer noch König (es sei denn, Sie sind reich)

Die Experimente ließen wenig Zweifel. In Lama- und Qwen -Modellen, von 7B bis 70B -Parametern sowie über mathematische und naturwissenschaftliche Überlegungsaufgaben, wiederholte sich die Geschichte: SC übertraf Genrm bei niedrigeren Rechenbudgets. Erst wenn die Berechnung über 8 × skaliert wurde, hat Genrm aufgenommen. Und einen bescheidenen Leistungsschub von 3,8% gegenüber SC erforderte einen Augenheiliger 128 × mehr Berechnung.

Dieses Ergebnis hielt auch für fortgeschrittene „Denkmodelle“ wie QWQ-32B und für harte mathematische Datensätze wie Aime24 auf. SC gewinnt, wenn der Berechnung eng ist. Genrm ist nur sinnvoll, wenn der Computer praktisch frei ist – oder wenn die Probleme so schwierig sind, dass sich die Überprüfung dramatisch auszahlt.


IEA warn


Die intelligente Möglichkeit, Genrm zu verwenden (falls Sie müssen)

Trotzdem entlässt die Studie Genrm nicht vollständig. In der Tat leitet es ab Inferenz -Skalierungsgesetze Für Genrm-eine Blaupause für die rechenoptimale Problemlösung. Der Schlüssel zu finden? Wenn Sie Genrm skalieren, geben Sie Berechnung für die Erzeugung von Lösungen schneller zu als die Überprüfungen – ungefähr 1,5 bis 2 -mal schneller. In Zahlen fanden ihre Skalierungsgesetze optimale Lösungszählungsskalen mit dem Rechenbudget als S ∝ C^0,57, während optimale Überprüfungen als V ∝ c^0,39 skalieren.

In dieser Forschung wird Praktikern einen sehr praktischen Leitfaden hinterlassen: Wenn der Computer begrenzt ist, vertrauen Sie SC und geben Sie sie für mehr Lösungen aus. Wenn der Computer reichlich vorhanden ist und vor allem, wenn Sie mit härteren Argumentationsaufgaben zu tun haben, kann es sich lohnen, Genrm mit dem richtigen Skalierungsbetrag zu verwenden – aber nur mit ernsthafter Optimierung.

Für KI-Entwickler, die mit realen Einschränkungen konfrontiert sind, ist das Imbiss fast komisch einfach: mehr Denken überprüft, es sei denn, Sie verfügen über nahezu unendliche Ressourcen. Und selbst dann muss die Überprüfung intelligent, effizient und minimal sein.

Das volle Papier “Wann zu lösen, wann zu verifizieren ist: Berechnen optimal Problemlösung und generative Überprüfung für LLM-Argumentation“Ist auf erhältlich Arxiv. Ihre Codebasis ist geöffnet bei Github.


Ausgewähltes Bildnachweis

Tags: AiLLMs

Related Posts

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Juni 3, 2026
Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Mai 20, 2026
Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Mai 20, 2026
Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Mai 20, 2026
Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Mai 20, 2026
Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Mai 19, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.