Sie tippen auf „Run“ auf einen GPT -Betroffenen und beobachten dann den Spinner. Sekunden dauern in Minuten, die Token -Meter steigen und das Messgerät auf Ihrer Openai -Rechnung kriecht höher. Latenz und Kosten sind zur unsichtbaren Steuer des großen Sprachmodellbooms geworden, insbesondere wenn eine einzige schwierige Abfrage Tausende frischer Inferenz -Token auslösen kann. Ein neuer Forschungsvorschlag heißt Schlafzeitberechnung argumentiert, dass diese Token oft in der falschen Phase des Workflows verbracht werden. Anstatt alle Argumente in den Moment zu stecken, in dem der Benutzer eintritt, lassen Sie das Modell das Modell während der Leerlaufzeiten „denken“, verwandeln Sie den rohen Kontext in wiederverwendbare Einsichten und senken Sie die Rechnung, wenn die eigentliche Frage schließlich eintrifft?
Die Idee ist jedem bekannt, der jemals vor dem Versand einen Datenbankindex oder einen kompilierten Code geplant hat: Vorverarbeitung, während niemand schaut, und reagieren Sie sofort, wenn sie es sind. Die Anwendung dieser Denkweise auf Sprachmodelle erfordert jedoch neue Benchmarks, sorgfältige Buchhaltung und den Nachweis, dass die Offline -Anstrengung auf die Online -Genauigkeit übergeht. Kevin Lin und Kollegen aus Letta und UC Berkeley liefern genau diese Beweise in “SLEEP -TIME -Rechen: Beyond Inference Scaling bei Test -Time“Und ihre Zahlen deuten darauf hin, wie GPU -Zyklen von Enterprise AI Products budgetiert werden.
Traditionelle Test -Time -Skalierung fordert ein LLM an, härter zu arbeiten, wenn die Frage schwierig ist: Probieren Sie mehrere Denkketten, erweitern die Argumentationsspur, die Reaktion oder die Gabel -Dutzende von Kandidatenantworten parallel. Diese Tricks steigern die Genauigkeit für Mathematik-, Kodierungs- und Wissensaufgaben, aber sie blasen auch Latenz und Brieftaschenabfluss auf. Benutzer warten; Anbieter zahlen. Schlimmer noch, das Paradigma geht davon aus, dass jede Abfrage ein staatenloser Ein -Off ist, der mit ihrem vollständigen Kontext in derselben Anfrage eintrifft.
In der realen Welt bestehen Kontexte. Kundenunterstützende Bots lesen die gleiche Wissensbasis weiter, Coding -Agenten navigieren im selben Repository und forschen, dass Copilots einen gemeinsam genutzten Dokumentkorpus erneut besucht. Die Autoren argumentieren, dass in diesen staatlichen Umgebungen enorme Argumentationsbrocken redundant durchgeführt werden. Sleep -time Computes nutzt diese Redundanz aus, indem das Modell den Kontext während der Leerlauffenster vorangebracht hat, eine destillierte, inferenzbereitete Darstellung erzeugen und für eine spätere Wiederverwendung speichern. Wenn der Benutzer schließlich fragt, antwortet die LLM in einem Bruchteil der Token, da ein Großteil des schweren Hebens bereits in die Eingabeaufforderung gebacken wird.
Warum Sleep -Time berechnet, schreibt die Kostenkurve um neu um
Die Forscher formalisieren den Arbeitsablauf in zwei Phasen. Während Schlafzeit Das Modell sieht nur den Kontext Cprognostiziert wahrscheinlich Interessenwinkel und erzeugt einen umgeschriebenen Kontext C‘ Das enthält Zwischenabzüge, strukturierte Zusammenfassungen oder zwischengedachte Ketten -Snippets. Während Test -Zeit Die Abfrage des Benutzers Q kommt an. Das Modell erhält jetzt C‘ anstelle des rohen Kontextes und kann die richtige Antwort mit einem weitaus kleineren Rechenbudget erreichen B. Da die Leerlaufstunden billig und parallelisierbar sind, zahlt die Organisation die Vorverarbeitung mit niedrigen Preisträgern und erhalten die Premium -Inferenzkapazität für die Reaktionsfähigkeit des Benutzers.
Um den Nutzen zu quantifizieren, teilte das Team zwei klassische Mathematik -Bewertungssuiten – GSM -Symbolic und Aime – auf, into Staatlich Varianten, bei denen jedes Problem in einen Kontextabsatz und eine separate Frage zerlegt wird. Sie bauten auch Multi -Quer -GSM -Symbolicin dem jeder Kontext mehrere verwandte Fragen hervorbringt und einen Benutzer nachahmt, der immer wieder im selben Dokument steckt. Die Evaluierungsmatrix verglichen Basis GPT -4O, GPT -4O -MINI, O1, O3 -MINI, CLAUDE SONNET und DEEPSEEK -R1 unter drei Bedingungen: Standard -Test -Time -Skalierung, Schlafzeit -Rechnungsgrad mit unterschiedlichen Offline -Budgets und Pass -@@k Parallele Probenahme.
Was die Experimente zeigen
In jedem Modell außer der kleinsten O1, der Schlafzeitstrategie schob die Genauigkeitsgrenze nach außen nach außen. An Zustandsful GSM -Symbolic Und Staatliche Aime Die Autoren berichten:
- 5 × niedriger Test -Time -Token, um die gleiche Genauigkeit zu treffen wie die aufeinanderfolgende Basiskette von den Gedanken.
- 13 Prozent Genauigkeitsgewinn bei GSM, als das Offline -Budget bis zu fünf parallele Schlafzeitgenerationen skalierte.
- 18 Prozent Genauigkeitsgewinn bei Aime mit offline -Argumentationsspuren mit höherer Belastung.
- 2,5 × Reduktion In den durchschnittlichen Kosten pro Abfrage, wenn zehn verwandte Fragen denselben vorverarbeiteten Kontext teilten.
Vielleicht auffälligere, Schlafzeitberechnung Schlagen Sie den kanonischen Pass -@k Trick bei gleichen Budgets für Test -Zeit. Passieren-@k Angenommen, ein Oracle -Verifizierer kann sofort das Beste auswählen k Probenahme Antworten, eine unrealistische Krücke in der Produktion. Der Schlaf -Time -Computer erreicht eine höhere Genauigkeit ohne diesen Luxus, da die schwere Argumentation bereits in C‘.
Die Auszahlung ist sensibel für die vorhersehbare Frage. Wenn die Forscher GSM -Elemente nach der Protokollwahrscheinlichkeit abgesetzten, die Lama -2 der Frage zugewiesen hat, die den Kontext zugewiesen haben, hat sich das Genauigkeitsdelta zwischen Schlafzeit und Grundlinie für das am meisten vorhersehbarste Quintil erweitert. In einfachem Englisch: Je offensichtlicher die Follow -up -Frage ist, desto größer ist der Sieg durch die Vorbereitung Ihrer Hausaufgaben im Voraus.
Zahlen sind eine Sache; Produktauswirkungen sind eine andere. Die Autoren führen einen echten Repository -Test mit dem Namen Swe -Features in dem ein Agent drei oder mehr Dateien ändern muss, um eine Funktion zu implementieren. Mit nur geringem Budget für Testtime, einem Sleep -Time Computing Cut -Token -Token -Nutzung um etwa 50 Prozent, während sie F1 entsprechen, was schnellere Verschmelzungen und niedrigere GPU -Rechnungen bei Bots mit kontinuierlicher Integration bedeutet. Bei sehr hohen Budgets wurde das klassische Test -Time -Argumentation in Genauigkeit wieder zu einem leichten Vorteil zurückzuführen, was auf eine Hybridpolitik hinweist: Ziehen Sie offline aggressiv zu, wenn Latenzwerte Fragen oder, wenn Kontexte wiederverwendet werden, zurück auf reiche Online -Ketten zurückgreifen, nur für Ein -OFF -Anfragen oder sehr unvorhersehbare Anfragen.
Das Framework öffnet auch Türen für die Erzeugung der synthetischen Daten. Wenn Sleep -Time -Argumentation reichhaltige, natürliche Darstellungen einer Codebasis oder eines Dokuments erzeugt, werden diese Artefakte selbst zu Trainingsdaten für zukünftige Fein -Tuning – eine tugendhafte Schleife, in der Offline -Denken die nächste Generation von Modellverbesserungen säen, ohne mehr Internettext zu kratzen.
Operativ lädt die Technik zu technischen Fragen ein. Wie oft sollte der Kontext -Cache aktualisieren? Wie groß kann C‘ Wachsen Sie, bevor es die Token -Einsparungen abbricht? Welche Leerlaufzyklen sind in einem gemeinsamen Cluster wirklich frei? Keiner dieser Hürden sieht jedoch so beeindruckend aus wie die derzeitige Realität der Zahlung von Preisen für redundante Argumentation. Unternehmen, die bereits nächtliche Builds, Such -Index -Crawls oder materialisierte Ansichten planen, haben mentale Modelle für diese Optimierung.
Wie LLMs leise die ultimativen Stadthistoriker werden
Wo offline -Denken als nächstes passt
Sleep -Time Compute ist keine Silberkugel. Abfragen, die das System oder die Kontexte aufweisen, die zu schnell mutieren, werden immer noch neue Denkketten erfordern. Das Papier selbst eröffnet die Forschung zu adaptiven Richtlinien, die vorhersagen, wann sich die Offline -Investition auszahlt, möglicherweise durch Schätzung der Kontext -Entropie oder der Verteilung der Benutzerabsichten. Trotzdem steht der Kernkerngefühl: Großsprachmodelle müssen nicht nur darüber nachdenken, wenn der Benutzer zuschaut. Indem Entwickler einen alterslosen Rechentrick ausleihen – morgen heute Abend die Arbeiten heute Abend sind, können die Latenz verringern, die Rechnungen schrumpfen und trotzdem die Genauigkeitsleiter besteigen.
Das Ende: Ihre nächste LLM -Funktion erfordert möglicherweise kein größeres Modell oder ein tieferes Argumentationsbudget. Möglicherweise muss das Modell einfach zuerst auf dem Problem schlafen lassen.