Großsprachige Modelle (LLMs) besser zu bringen, ist eine Sache. Sie dazu zu bringen, es zu tun, ohne absurde Berechnung zu durchbrennen, ist ein anderer. Eine neue Forschungspapierin von Tu Darmstadt, UCLA, Google DeepMind und Mila greift tief in diesen Kompromiss ein-und könnte nur die Art und Weise ändern, wie KI-Entwickler über Skalierungen zur Testzeit nachdenken.
Die Kernspannung? Ob LLMs ihre Berechnung verbringen sollten, um mehr Antworten zu generieren (was als Selbstkonsistenz oder SC bezeichnet wird) oder einige vielversprechende Antworten mit generativen Belohnungsmodellen (GENRMS) zu überprüfen. Es stellt sich heraus, dass die Auswahl von falscher Auswahl Ihr Modell bis zu 128 -mal mehr berechnet wird – für eine kaum spürbare Leistungssteigerung.
Die neue Mathematik des Argumentierens im Maßstab
LLMs wie GPT-4, LLAMA oder QWEN sind schockierend gut darin, Mathematik- und Wissenschaftsprobleme zu lösen, indem sie mehrere Gedankenketten (COTS) generieren und das häufigste Ergebnis auswählen. Das ist die Idee hinter SC – Brute Force Weisheit der Menge. Die Forscher wurden aber auch von Genrms begeistert, ein neuerer Ansatz, der LLMs wie ihren eigenen Richter handeln lässt, indem sie Antworten durch weitere Überlegungen zur Kette des Kettens überprüfen.
Frühere Vergleiche haben Genrm wild effizient aussehen: die Genauigkeit von SC mit 4 × weniger Lösungen. Aber dieses Papier nennt das aus – hart. Warum? Weil niemand die wahren Rechenkosten all dieser Überprüfungsschritte zählte.
Berechnen Budgets ändern alles
Diese Studie führt einen sauberen Rahmen für die Messung der tatsächlichen Kosten von SC- und GENRM -Ansätzen im Rahmen eines festen Rechenbudgets ein. Es funktioniert wie folgt: Sie können entweder Berechnung ausgeben, um mehr Antworten zu generieren (SC) oder dieses Budget zwischen ein paar Antworten und vielen Überprüfungen (GENRM) aufzuteilen. Ihr Modell zur Berechnung des Gesamtinferenz -Rechens ist erfrischend unkompliziert: C (s, v) = s (1 + λv), wobei S die Anzahl der Lösungen ist, v die Anzahl der Überprüfungen, und λ spiegelt die Überprüfungslänge relativ zu Lösungen wider.
Das brutale Ergebnis: SC ist immer noch König (es sei denn, Sie sind reich)
Die Experimente ließen wenig Zweifel. In Lama- und Qwen -Modellen, von 7B bis 70B -Parametern sowie über mathematische und naturwissenschaftliche Überlegungsaufgaben, wiederholte sich die Geschichte: SC übertraf Genrm bei niedrigeren Rechenbudgets. Erst wenn die Berechnung über 8 × skaliert wurde, hat Genrm aufgenommen. Und einen bescheidenen Leistungsschub von 3,8% gegenüber SC erforderte einen Augenheiliger 128 × mehr Berechnung.
Dieses Ergebnis hielt auch für fortgeschrittene „Denkmodelle“ wie QWQ-32B und für harte mathematische Datensätze wie Aime24 auf. SC gewinnt, wenn der Berechnung eng ist. Genrm ist nur sinnvoll, wenn der Computer praktisch frei ist – oder wenn die Probleme so schwierig sind, dass sich die Überprüfung dramatisch auszahlt.
Die intelligente Möglichkeit, Genrm zu verwenden (falls Sie müssen)
Trotzdem entlässt die Studie Genrm nicht vollständig. In der Tat leitet es ab Inferenz -Skalierungsgesetze Für Genrm-eine Blaupause für die rechenoptimale Problemlösung. Der Schlüssel zu finden? Wenn Sie Genrm skalieren, geben Sie Berechnung für die Erzeugung von Lösungen schneller zu als die Überprüfungen – ungefähr 1,5 bis 2 -mal schneller. In Zahlen fanden ihre Skalierungsgesetze optimale Lösungszählungsskalen mit dem Rechenbudget als S ∝ C^0,57, während optimale Überprüfungen als V ∝ c^0,39 skalieren.
In dieser Forschung wird Praktikern einen sehr praktischen Leitfaden hinterlassen: Wenn der Computer begrenzt ist, vertrauen Sie SC und geben Sie sie für mehr Lösungen aus. Wenn der Computer reichlich vorhanden ist und vor allem, wenn Sie mit härteren Argumentationsaufgaben zu tun haben, kann es sich lohnen, Genrm mit dem richtigen Skalierungsbetrag zu verwenden – aber nur mit ernsthafter Optimierung.
Für KI-Entwickler, die mit realen Einschränkungen konfrontiert sind, ist das Imbiss fast komisch einfach: mehr Denken überprüft, es sei denn, Sie verfügen über nahezu unendliche Ressourcen. Und selbst dann muss die Überprüfung intelligent, effizient und minimal sein.
Das volle Papier “Wann zu lösen, wann zu verifizieren ist: Berechnen optimal Problemlösung und generative Überprüfung für LLM-Argumentation“Ist auf erhältlich Arxiv. Ihre Codebasis ist geöffnet bei Github.