Forscher bei Alibaba haben SkillWeaver entwickelt, ein Framework, das darauf abzielt, die Weiterleitung von Teilaufgaben in KI-Systemen von Unternehmen zu verbessern. SkillWeaver erstellt Ausführungsdiagramme für Aufgaben und wählt die entsprechenden Fähigkeiten für jeden Knoten aus. Das Framework beinhaltet Skill-Aware Decomposition (SAD), eine Technik, die eine Rückkopplungsschleife für die iterative Werkzeugauswahl verwendet, und unterscheidet sich dadurch von Frameworks, die Werkzeuge in einem einzigen Schritt auswählen.
SkillWeaver wurde speziell für reale KI-Anwendungen entwickelt, beispielsweise die Orchestrierung mehrerer Tools über das Model Context Protocol (MCP) für verschiedene Geschäftsvorgänge, einschließlich Datenverarbeitung und Berichterstellung. Tests zeigen, dass der Ansatz von SkillWeaver die Genauigkeit erhöht und gleichzeitig den Token-Verbrauch um über 99 % reduziert, verglichen mit der Bereitstellung einer gesamten Tool-Bibliothek für Agenten.
Die größte Herausforderung bei KI-Systemen ist die Granularität der Aufgabenzerlegung, da praktische Abfragen häufig Kompositionsanforderungen beinhalten, die mehrere Fähigkeiten erfordern. Fähigkeiten werden als modulare, wiederverwendbare Spezifikationen definiert, die eine strukturierte Dokumentation in natürlicher Sprache nutzen. Aktuelle KI-Frameworks haben oft Schwierigkeiten, weil sie die Werkzeugweiterleitung als eine Einzelkompetenz-Auswahlaufgabe behandeln, was für komplexe Arbeitsabläufe nicht ausreicht.
Der Vorgang von SkillWeaver besteht aus drei Phasen: Zerlegen, Abrufen und Zusammenstellen. In der Zerlegungsphase zerlegt ein LLM komplexe Benutzeranfragen in überschaubare Teilaufgaben. Als Nächstes wird in der Retrieve-Phase ein Einbettungsmodell verwendet, um Kandidatentools für jede Unteraufgabe aus einer Kompetenzbibliothek zu identifizieren. Schließlich bewertet die Compose-Phase die Kompatibilität dieser Tools und formuliert einen gerichteten azyklischen Graphen (DAG), der den Ausführungsplan umreißt.
SkillWeaver geht auch das Problem an, dass LLMs generische Beschreibungen generieren, indem es die SAD-Feedbackschleife implementiert. Bei diesem Mechanismus erstellt der LLM einen ersten Plan, ruft passende Fähigkeiten ab und verfeinert seine Zerlegung auf der Grundlage der abgerufenen Werkzeuge, um die Ausrichtung auf bestimmte technische Vokabulare sicherzustellen.
Um die Wirksamkeit zu bewerten, haben die Forscher CompSkillBench erstellt, einen Benchmark mit 300 mehrstufigen Abfragen basierend auf 2.209 Fertigkeiten aus der Praxis. Die Kern-Engine nutzte ein 7-Milliarden-Parameter-Modell (Qwen2.5-7B-Instruct) für den Zerlegungsprozess und einen semantischen Such-Retriever. Tests ergaben, dass die SAD-Rückkopplungsschleife die Zerlegungsgenauigkeit von 51,0 % auf 67,7 % steigerte, wobei höhere Modelle eine Genauigkeit von 92 % erreichten.
Die Ergebnisse zeigten, dass weniger Anleitung zu einer geringeren Leistung bei größeren Modellen führen kann. Ein Vanilla-Setup mit einem größeren Modell schnitt aufgrund unnötiger Aufgabenunterbrechungen schlechter ab als das kleinere Modell. Die Untersuchung hat gezeigt, dass die richtige Ausrichtung auf das Werkzeugvokabular oft wirkungsvoller ist als die einfache Verwendung eines größeren Modells.
Es wurden erhebliche Token-Einsparungen festgestellt, wobei SkillWeaver den Kontextfensterverbrauch von etwa 884.000 Token auf etwa 1.160 Token pro Abfrage reduzierte, was zu geringeren API-Kosten und schnelleren Antwortzeiten führte. Im Gegensatz dazu erreichte die LLM-Direct-Methode beim Werkzeugabruf nur eine Genauigkeit von 21,1 %, während Agenten im ReAct-Stil eine Genauigkeit von 0 % erreichten.
Obwohl der Quellcode für SkillWeaver noch nicht veröffentlicht wurde, haben die Forscher Eingabeaufforderungsvorlagen bereitgestellt, die Entwickler mithilfe bestehender Bibliotheken wie LangChain und LlamaIndex implementieren können. Das Framework erfordert eine anfängliche Vektorisierung der Werkzeugbibliothek und den Aufbau eines FAISS-Index, der in kurzer Zeit abgeschlossen werden kann und die Latenz beim Abruf minimiert.
Eine Einschränkung von SkillWeaver ist die fehlende Fehlerbehebung in mehrstufigen Toolketten. Die Studie ergab, dass das Scheitern eines Schritts die gesamte Kette gefährdet, was die Notwendigkeit von Verbesserungen bei den Fehlerbehandlungsmechanismen innerhalb des Frameworks verdeutlicht.





