Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Warum das Werfen mehr KI -Berechnung bei der Überprüfung ein Fehler sein könnte

byKerem Gülen
April 11, 2025
in Research
Home Research

Großsprachige Modelle (LLMs) besser zu bringen, ist eine Sache. Sie dazu zu bringen, es zu tun, ohne absurde Berechnung zu durchbrennen, ist ein anderer. Eine neue Forschungspapierin von Tu Darmstadt, UCLA, Google DeepMind und Mila greift tief in diesen Kompromiss ein-und könnte nur die Art und Weise ändern, wie KI-Entwickler über Skalierungen zur Testzeit nachdenken.

Die Kernspannung? Ob LLMs ihre Berechnung verbringen sollten, um mehr Antworten zu generieren (was als Selbstkonsistenz oder SC bezeichnet wird) oder einige vielversprechende Antworten mit generativen Belohnungsmodellen (GENRMS) zu überprüfen. Es stellt sich heraus, dass die Auswahl von falscher Auswahl Ihr Modell bis zu 128 -mal mehr berechnet wird – für eine kaum spürbare Leistungssteigerung.

Die neue Mathematik des Argumentierens im Maßstab

LLMs wie GPT-4, LLAMA oder QWEN sind schockierend gut darin, Mathematik- und Wissenschaftsprobleme zu lösen, indem sie mehrere Gedankenketten (COTS) generieren und das häufigste Ergebnis auswählen. Das ist die Idee hinter SC – Brute Force Weisheit der Menge. Die Forscher wurden aber auch von Genrms begeistert, ein neuerer Ansatz, der LLMs wie ihren eigenen Richter handeln lässt, indem sie Antworten durch weitere Überlegungen zur Kette des Kettens überprüfen.

Frühere Vergleiche haben Genrm wild effizient aussehen: die Genauigkeit von SC mit 4 × weniger Lösungen. Aber dieses Papier nennt das aus – hart. Warum? Weil niemand die wahren Rechenkosten all dieser Überprüfungsschritte zählte.

Berechnen Budgets ändern alles

Diese Studie führt einen sauberen Rahmen für die Messung der tatsächlichen Kosten von SC- und GENRM -Ansätzen im Rahmen eines festen Rechenbudgets ein. Es funktioniert wie folgt: Sie können entweder Berechnung ausgeben, um mehr Antworten zu generieren (SC) oder dieses Budget zwischen ein paar Antworten und vielen Überprüfungen (GENRM) aufzuteilen. Ihr Modell zur Berechnung des Gesamtinferenz -Rechens ist erfrischend unkompliziert: C (s, v) = s (1 + λv), wobei S die Anzahl der Lösungen ist, v die Anzahl der Überprüfungen, und λ spiegelt die Überprüfungslänge relativ zu Lösungen wider.

Das brutale Ergebnis: SC ist immer noch König (es sei denn, Sie sind reich)

Die Experimente ließen wenig Zweifel. In Lama- und Qwen -Modellen, von 7B bis 70B -Parametern sowie über mathematische und naturwissenschaftliche Überlegungsaufgaben, wiederholte sich die Geschichte: SC übertraf Genrm bei niedrigeren Rechenbudgets. Erst wenn die Berechnung über 8 × skaliert wurde, hat Genrm aufgenommen. Und einen bescheidenen Leistungsschub von 3,8% gegenüber SC erforderte einen Augenheiliger 128 × mehr Berechnung.

Dieses Ergebnis hielt auch für fortgeschrittene „Denkmodelle“ wie QWQ-32B und für harte mathematische Datensätze wie Aime24 auf. SC gewinnt, wenn der Berechnung eng ist. Genrm ist nur sinnvoll, wenn der Computer praktisch frei ist – oder wenn die Probleme so schwierig sind, dass sich die Überprüfung dramatisch auszahlt.


IEA warn


Die intelligente Möglichkeit, Genrm zu verwenden (falls Sie müssen)

Trotzdem entlässt die Studie Genrm nicht vollständig. In der Tat leitet es ab Inferenz -Skalierungsgesetze Für Genrm-eine Blaupause für die rechenoptimale Problemlösung. Der Schlüssel zu finden? Wenn Sie Genrm skalieren, geben Sie Berechnung für die Erzeugung von Lösungen schneller zu als die Überprüfungen – ungefähr 1,5 bis 2 -mal schneller. In Zahlen fanden ihre Skalierungsgesetze optimale Lösungszählungsskalen mit dem Rechenbudget als S ∝ C^0,57, während optimale Überprüfungen als V ∝ c^0,39 skalieren.

In dieser Forschung wird Praktikern einen sehr praktischen Leitfaden hinterlassen: Wenn der Computer begrenzt ist, vertrauen Sie SC und geben Sie sie für mehr Lösungen aus. Wenn der Computer reichlich vorhanden ist und vor allem, wenn Sie mit härteren Argumentationsaufgaben zu tun haben, kann es sich lohnen, Genrm mit dem richtigen Skalierungsbetrag zu verwenden – aber nur mit ernsthafter Optimierung.

Für KI-Entwickler, die mit realen Einschränkungen konfrontiert sind, ist das Imbiss fast komisch einfach: mehr Denken überprüft, es sei denn, Sie verfügen über nahezu unendliche Ressourcen. Und selbst dann muss die Überprüfung intelligent, effizient und minimal sein.

Das volle Papier “Wann zu lösen, wann zu verifizieren ist: Berechnen optimal Problemlösung und generative Überprüfung für LLM-Argumentation“Ist auf erhältlich Arxiv. Ihre Codebasis ist geöffnet bei Github.


Ausgewähltes Bildnachweis

Tags: AiLLMs

Related Posts

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

Mai 14, 2025
Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Mai 14, 2025
Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Mai 14, 2025
Forschung: Der Goldstandard für die Genai -Bewertung

Forschung: Der Goldstandard für die Genai -Bewertung

Mai 12, 2025

Recent Posts

  • Databricks -Wetten auf serverlose Postgres mit seiner Akquisition von 1 Milliarde US -Dollar
  • Alphaevolve: Wie Googles neue KI mit Selbstkorrektur auf die Wahrheit strebt
  • TIKTOK implementiert AI-generierte ALT-Texte, um eine bessere Akzierbarkeit zu erhalten
  • Trump zwingt Apple, seine indische iPhone -Strategie in Indien zu überdenken
  • Die KI von YouTube weiß jetzt, wann Sie kurz vor dem Kauf sind

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.