Forscher des Labors der Informatik und des Labors für Informatik und künstliche Intelligenz des MIT entwickelten PDDL-Instruct, ein Rahmen unter Verwendung des logischen Denkens und der externen Validierung, um die Art und Weise zu verbessern, wie große Sprachmodelle mehrstufige Pläne erzeugen und bis zu 94% Gültigkeit für bestimmte Benchmarks erzielen. Der Framework befasst sich mit dem gemeinsamen Versagen von großsprachigen Modellen (LLMs), logisch gültige Pläne zu erstellen, die häufig plausibel klingen, aber falsch sind. PDDL-Instruct dokumentiert dies, indem sie explizite Zustands- und Aktionssemantik in die Ground-Wahrheitsprüfung integriert. Durch „Fehlererziehung“ werden Modelle geschult, um Planversagen zu erklären, einschließlich unbefriedigter Voraussetzungen, falschen Effekte, Rahmenverletzungen oder einem nicht erreichten Ziel. Eine logische Methode für den Gedanke (COT) führt das Modell auch dazu, schrittweise Inferenz durchzuführen und detaillierte State-Action-State-Spuren zu erzeugen, die als ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basierend auf formalen Semantik formatiert sind. Um die Korrektheit zu gewährleisten, wird jeder Schritt eines erzeugten Planes vom externen Val -Plan -Validator überprüft. Das System kann entweder binäres Feedback (gültig/ungültig) oder ein detailliertes Feedback erhalten, in dem angegeben wird, welche Voraussetzungen oder der Effekt fehlgeschlagen sind. Untersuchungen zeigten, dass detaillierte Rückmeldungen die stärksten Leistungsgewinne ergaben. PDDL-Instruct verwendet auch einen zweistufigen Optimierungsprozess. Die erste Stufe optimiert die Argumentationsketten des Modells durch Bestrafung von staatlichen Übersetzungsfehlern. Die zweite Stufe optimiert dann die endgültige Genauigkeit des Endaufgabenplans und schafft ein systematisches Trainingsregime. Das System wurde auf dem PlanBench -Benchmark bewertet, der die BlocksWorld-, Mystery BlocksWorld- und Logistics Planning Domains enthält. Mystery BlocksWorld ist besonders schwierig, da es Prädikatnamen verschleiert, um Musteranpassungen zu verhindern. Frühere Modelle berichteten über eine Gültigkeit von weniger als 5% in dieser Aufgabe ohne Toolunterstützung. Mit PDDL-Instruct erreichte ein Lama-3-8B-Modell bis zu 94% gültige Pläne für BlocksWorld. Auf Mystery BlocksWorld erzeugte das Rahmenverbesserungsordnungen, die bis zu 64-mal besser als Basismodelle angegeben wurden. In der Logistikdomäne wurden auch erhebliche Erhöhungen der gültigen Pläne aufgezeichnet. In allen Domänen zeigte der Rahmen bis zu einer absoluten Verbesserung von 66% bei der Erzeugung gültiger Pläne im Vergleich zu nicht abgestimmten Baselines. Die Leistung wurde durch ein detailliertes Feedback des Validators und längere Feedback -Budgets während des Trainings weiter verbessert. Dieser neuro-symbolische Ansatz begründet die Argumentation eines LLM in formalen Semantik, die automatisch überprüft werden. Der aktuelle Umfang beschränkt sich auf die Domänen der klassischen Planungsdomänen -Definition (PDDL) und erfordert Val als externes Orakel. Die Methode zeigt den Dienstprogramm für Agentenpipelines, die einen Verifier aufnehmen können, während Erweiterungen für zeitliche, numerische und kosten sensible Planung offene Herausforderungen bleiben.





