Künstliche Intelligenz hat lange mit einem grundlegenden Problem zu kämpfen: Wie kann eine KI ihre Umgebung intelligent ohne explizite Anweisungen erforschen? Traditionelles Verstärkungslernen (RL) hängt davon ab Versuch und Irrtumoft viel Zeit damit verschwenden, mit seiner Umgebung zufällig zu interagieren. Während KI -Modelle geschult werden können, um bestimmte Aufgaben effizient zu lösen, Es war eine große Herausforderung gewesen.
Eine aktuelle Studie Von Cansu Sancaktar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev und Georg Martius von der Universität Tübingen, dem Max -Planck -Institut, Tu Dresden, und der University of Amsterdam stellt eine vielversprechende Lösung vor: Sensei (semantisch vernünftige Erforschung).
Im Gegensatz zu früheren Methoden, die die Erforschung behandeln ein Brute-Force-ProblemSensei verfolgt einen anderen Ansatz – einen, der nachahmt Wie Menschen, insbesondere Kinder, die Welt erforschen. Anstatt nur neue Dinge zufällig auszuprobieren, suchen Menschen sinnvolle Interaktionen– Schubladen eröffnen, anstatt nur auf Schreibtische zu schlagen und Knöpfe zu drücken, anstatt die Arme zu schlagen. Sensei bringt das menschliche Neugier zu künstlichen Agenten durch Verwendung Foundation -Modelle wie Vision Language Models (VLMs) Zu Leitfaden Erkundung mit semantischem Verständnis.
Das Problem bei der KI -Erkundung
Damit AI -Agenten neue Aufgaben lernen können, müssen sie zunächst ihre Umgebung erkunden. Traditionelle Erkundungsmethoden verlassen sich auf intrinsische Motivationwas bedeutet, dass AI eine interne Belohnung für Aktionen erhalten, die erzeugen Neuheit oder Maximieren Sie den Informationsgewinn. Dieser Ansatz führt jedoch häufig zu Niedrige, unstrukturierte Verhaltensweisen– Wie ein Roboter, der sich zufällig oder wiederholt bewegt, um Objekte zu berühren ohne ihre Relevanz zu erkennen.
Stellen Sie sich einen Roboter in einem Raum voller Objekte vor:
- Ein Standard -RL -Agent Könnte jede Aktion zufällig versuchen – den Schreibtisch aufzunehmen, sich in Kreisen zu drehen oder die Luft zu greifen -, ohne nützliche Interaktionen zu priorisieren.
- Ein menschlicher Lernerim Gegensatz dazu würde Konzentrieren Sie sich natürlich auf Objekte wie Schubladen und Knöpfesie als Quellen von erkennen sinnvolle Interaktionen.
Hier Sensei tritt ein.
AI kümmert sich jetzt um molekulare Simulationen: Dank an MDCrow
Wie Sensei KI lehrt, wie ein Mensch zu erforschen
Sensei führt a ein Neue Art der intrinsischen Motivation– Einer basierend auf Semantisches Verständnis. Anstatt blind zu erkunden, wird KI von geführt von Was für ein Fundamentmodell (eine groß angelegte KI, die auf riesigen Datenmengen ausgebildet ist) als „interessant“.
Der Prozess funktioniert in drei Hauptschritten:
1. lehren KI, was „interessant“ ist
Bevor der Agent anfängt zu erkunden, verwendet Sensei Ein Vision Language Model (VLM) wie GPT-4V Bewertung von Bildern der Umwelt. Der VLM wird Fragen gestellt wie:
„Welcher dieser beiden Bilder ist interessanter?“
Aus diesen Vergleichen destilliert Sensei a Semantische Belohnungsfunktionlehren die KI Welche Arten von Interaktionen sind wichtig.
2. Ein Weltmodell lernen
Sobald die KI versteht, was als „interessant“ angesehen wird baut ein internes Weltmodell auf– Ein prädiktives System, mit dem es vorherseht, wie die Umwelt auf ihre Handlungen reagieren wird.
- Anstatt zu brauchen zu müssen Fragen Sie das Stiftungsmodell ständig abdie KI lernt, Interessante vorherzusagen allein.
- Dies verringert die Abhängigkeit von externen Modellen und ermöglicht es schneller, selbst geführte Erkundung.
3.. Erforschen intelligenter, nicht härter
Mit diesem Verständnis ist die KI jetzt Führt von zwei konkurrierenden Motivationen:
- Finde interessante Dinge (Maximieren Sie die semantische Belohnung).
- Schieben Sie die Grenzen dessen, was es weiß (Erhöhen Sie die Unsicherheit, indem Sie neue Bereiche untersuchen).
Das Ergebnis? KI -Agenten Verriegelte Verhaltensweisen, die sowohl neuartig als auch sinnvoll sind-genau wie menschliche Neugierdexploration.
Was Sensei kann: KI, das reale Interaktionen freischaltet
Die Forscher testeten Sensei in zwei verschiedene Umgebungen:
1. Videospielsimulationen (Minihack)
- In einem Spiel, in dem eine KI musste Finden Sie einen Schlüssel, um eine verschlossene Tür zu öffnenSensei Priorisierte Interaktionen mit dem Schlüssel und der Tür– wie ein Mensch würde es tun.
- Traditionelle KI -Erkundungsmethoden blieben oft stecken, ohne das zu verstehen, ohne das zu verstehen Bedeutung von Objekten in der Szene.
- Sensei löste die Rätsel des Spiels schneller und mit weniger verschwendeten Aktionen als andere KI -Methoden.
2. Roboter -Simulationen (Robodesk)
- In a RoboterarmumgebungSensei konzentriert sich auf die Manipulation von Objekten wie Schubladen und Tastennatürliche Aufgaben lernen.
- Konkurrierende KI -Systeme auch zufällig geschlagen oder wiederholte Aktionen ohne wirklichen Zweck.
In beiden Fällen tat Sensei nicht nur mehr Boden abdecken-Es konzentrierte sich auf Interaktionen, die wichtig warenführen zu reicher und effizienteres Lernen.
Warum dies zählt: Die Zukunft der KI -Erkundung
Senseis Fähigkeit zu Priorisieren Sie sinnvolle Interaktionen könnte Robotik revolutionieren und Robotern zu ermöglichen Selbstlarn nützliches Verhalten ohne explizite Programmierung. Vorstellen:
- Ein Hausassistent, der Ermittelt heraus, wie neue Geräte verwendet werden ohne Schritt-für-Schritt-Anweisungen.
- Industrieboter das sich an neue Aufgaben anpassen in Fabriken ohne menschliche Intervention.
Durch Konzentration auf Semantisch relevante ExplorationAi kann Reduzieren Sie verschwendete Berechnungführen zu schnelleres und energieeffizienteres Lernen.
Eine der größten Herausforderungen in der KI ist es, Systeme zu schaffen, die Lerne flexibel wie Menschen. Sensei repräsentiert Ein Schritt in Richtung KI -Agenten, die neue Umgebungen intelligent erforschen können– ohne mich auf handgefertigte Trainingsdaten oder vordefinierte Ziele.
Einschränkungen
Während Sensei ist ein großer Sprung nach vorneEs hat immer noch einige Einschränkungen:
- Es basiert auf hochwertigen visuellen Eingaben. Wenn die Kamera der KI blockiert oder verzerrt ist, kann ihr Verständnis beeinflusst werden.
- Es ist noch nicht multimodal. Während es gut mit Bildern funktioniert, können zukünftige Versionen Ton, Text und andere sensorische Eingaben für eine reichhaltigere Erkundung enthalten.
- Es geht davon aus, dass allgemeine menschliche Neugier immer von Vorteil ist. In einigen speziellen Anwendungen sind bestimmte Interaktionen möglicherweise nicht nützlich.
Ausgewähltes Bildnachweis: Kerem Gülen/Midjourney