Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Die PDDL-Instruktur des MIT verbessert die Gültigkeit von Lama-3-8B-Planen

byEmre Çıtak
September 22, 2025
in Künstliche Intelligenz
Home Nachricht Künstliche Intelligenz
Share on FacebookShare on Twitter
Google Preferred Source

Forscher des Labors der Informatik und des Labors für Informatik und künstliche Intelligenz des MIT entwickelten PDDL-Instruct, ein Rahmen unter Verwendung des logischen Denkens und der externen Validierung, um die Art und Weise zu verbessern, wie große Sprachmodelle mehrstufige Pläne erzeugen und bis zu 94% Gültigkeit für bestimmte Benchmarks erzielen. Der Framework befasst sich mit dem gemeinsamen Versagen von großsprachigen Modellen (LLMs), logisch gültige Pläne zu erstellen, die häufig plausibel klingen, aber falsch sind. PDDL-Instruct dokumentiert dies, indem sie explizite Zustands- und Aktionssemantik in die Ground-Wahrheitsprüfung integriert. Durch „Fehlererziehung“ werden Modelle geschult, um Planversagen zu erklären, einschließlich unbefriedigter Voraussetzungen, falschen Effekte, Rahmenverletzungen oder einem nicht erreichten Ziel. Eine logische Methode für den Gedanke (COT) führt das Modell auch dazu, schrittweise Inferenz durchzuführen und detaillierte State-Action-State-Spuren zu erzeugen, die als ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basierend auf formalen Semantik formatiert sind. Um die Korrektheit zu gewährleisten, wird jeder Schritt eines erzeugten Planes vom externen Val -Plan -Validator überprüft. Das System kann entweder binäres Feedback (gültig/ungültig) oder ein detailliertes Feedback erhalten, in dem angegeben wird, welche Voraussetzungen oder der Effekt fehlgeschlagen sind. Untersuchungen zeigten, dass detaillierte Rückmeldungen die stärksten Leistungsgewinne ergaben. PDDL-Instruct verwendet auch einen zweistufigen Optimierungsprozess. Die erste Stufe optimiert die Argumentationsketten des Modells durch Bestrafung von staatlichen Übersetzungsfehlern. Die zweite Stufe optimiert dann die endgültige Genauigkeit des Endaufgabenplans und schafft ein systematisches Trainingsregime. Das System wurde auf dem PlanBench -Benchmark bewertet, der die BlocksWorld-, Mystery BlocksWorld- und Logistics Planning Domains enthält. Mystery BlocksWorld ist besonders schwierig, da es Prädikatnamen verschleiert, um Musteranpassungen zu verhindern. Frühere Modelle berichteten über eine Gültigkeit von weniger als 5% in dieser Aufgabe ohne Toolunterstützung. Mit PDDL-Instruct erreichte ein Lama-3-8B-Modell bis zu 94% gültige Pläne für BlocksWorld. Auf Mystery BlocksWorld erzeugte das Rahmenverbesserungsordnungen, die bis zu 64-mal besser als Basismodelle angegeben wurden. In der Logistikdomäne wurden auch erhebliche Erhöhungen der gültigen Pläne aufgezeichnet. In allen Domänen zeigte der Rahmen bis zu einer absoluten Verbesserung von 66% bei der Erzeugung gültiger Pläne im Vergleich zu nicht abgestimmten Baselines. Die Leistung wurde durch ein detailliertes Feedback des Validators und längere Feedback -Budgets während des Trainings weiter verbessert. Dieser neuro-symbolische Ansatz begründet die Argumentation eines LLM in formalen Semantik, die automatisch überprüft werden. Der aktuelle Umfang beschränkt sich auf die Domänen der klassischen Planungsdomänen -Definition (PDDL) und erfordert Val als externes Orakel. Die Methode zeigt den Dienstprogramm für Agentenpipelines, die einen Verifier aufnehmen können, während Erweiterungen für zeitliche, numerische und kosten sensible Planung offene Herausforderungen bleiben.


Ausgewähltes Bildnachweis

Tags: Lama-3-8bMITPDDL-Instruktur

Related Posts

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Juni 3, 2026
Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Juni 3, 2026
Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Juni 3, 2026
OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

Juni 3, 2026
Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Juni 2, 2026
Das beliebte Codex-Paket wurde beim Herausfiltrieren von Authentifizierungsdaten erwischt

Das beliebte Codex-Paket wurde beim Herausfiltrieren von Authentifizierungsdaten erwischt

Juni 2, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.