Selbstfahrende Autos sollen die Zukunft sein. KI soll das Rad nehmen, makellos navigieren und menschliches Fehler beseitigen. Doch hier sind wir hier immer noch unsere Lenkräder, während die KI durch Simulationen stolpert und Fehler macht, die von unglaublich schlecht bis geradezu gefährlich reichen.
Warum? Weil KI durch lernt Versuch und Irrtum– Das digitale Äquivalent, um Darts in die Dunkelheit zu werfen, bis es schließlich auf den Bullseye trifft. Das ist in Ordnung, wenn die Einsätze niedrig sind, wie Schachspiele oder Optimierung von Anzeigen. Aber wenn es um reale Anwendungen geht-wo ein Fehler in einen Fußgänger gepflügt wird, fällt dieser Ansatz auseinander.
Nach einer Studie von durchgeführt von Zhenghao Peng, Wenjie MO, Chenda Duan und Bolei Zhou von der Universität von Kalifornien, Los Angeles (UCLA)zusammen mit Quanyi li von der Universität von EdinburghKI -Training kann dramatisch verbessert werden Proxywertverbreitung (PVP). Ihre Forschung mit dem Titel Das Lernen aus einer aktiven menschlichen Beteiligung durch Proxy -Wert -Ausbreitungfordert das traditionelle Verstärkungslernen heraus, indem er beweist, dass dies beweist Aktive menschliche Intervention führt zu einem schnelleren, sichereren und effizienteren KI -Training.
Traditionell Verstärkungslernen (RL)Der Standardweg lernt, Entscheidungen zu treffen, und ist schmerzlich langsam. Es erfordert Millionen von Versuchen Vor einer KI findet heraus, was funktioniert. Schlimmer noch, es wird angenommen, dass KI die menschliche Absicht verstehen kann, indem sie nur einem Belohnungssystem folgt – wenn in Wirklichkeit Belohnungssysteme oft zu bizarren, unbeabsichtigten Verhaltensweisen führen. Denken Sie an eine KI, die für ein Rennen geschult wurde, das herausgefunden hat, dass es nur in Kreisen an der Startlinie fahren kann, um „Distanz zurückgelegte“ Punkte zu sammeln, ohne den Kurs zu beenden.
KI braucht eindeutig einen besseren Lehrer. Und dieser Lehrer? Du.
Lassen Sie Menschen in Echtzeit eingreifen
Proxywertverbreitung (PVP) ist eine neue Methode, die das KI -Training in etwas viel menschlicheres verwandelt. Anstatt die KI -Fehler monatelang durch seine Fehler zu lassen, lässt PVP Menschen eingreifen, eingreifen und AI zeigen, was zu tun ist in Echtzeit.
- Stellen Sie sich vor, die KI lernt, in einer Simulation zu fahren, sagen wir, Grand Theft Auto V (GTA V).
- Die KI trifft eine schreckliche Entscheidung – sagen, ein rotes Licht direkt in den Verkehr zu führen.
- Anstatt zu beobachten, wie sich das Chaos entfaltet, übernimmt ein Mensch in diesem Moment die Kontrolle und korrigiert die Aktion der KI.
- Das System bezeichnet dann die Entscheidung des Menschen als „Gute“ Bewegung und der frühere Fehler der KI als „Schlechte“ Bewegung.
- Mit einer Technik genannt WertvermehrungKI verbreitet diese Korrektur über ähnliche Situationen und lernt, schlechte Entscheidungen zu vermeiden ohne Millionen von Versuchen zu benötigen.
Das Ergebnis ist überraschend. Ai lernt viel Schnellermit Weniger Fehlerund – vor allem – es eigentlich übereinstimmen auf die menschlichen Erwartungen Anstatt blindende Belohnungspunkte zu verfolgen.
KI kämpft mit Strategie: Studie zeigt, dass LLMs in sozialen Abzugsspielen zu viel enthüllen
Die Zahlen lügen nicht: PVP funktioniert
Das Team hinter PVP hat es auf die Probe gestellt GTA V, Carla (ein Fahrsimulator) und Minigrid (eine virtuelle Labyrinth -Navigationsaufgabe). Die Ergebnisse waren atemberaubend:
- KI mit PVP trainiert gelernt 10 -mal schneller als traditionelle Methoden.
- Es war nur erforderlich 1.200 menschliche Interventionen– vergleichbar mit dem 300.000 Versuche KI benötigen normalerweise in RL.
- Die Erfolgsrate von PVP-ausgebildeter KI bei sicherer Erreichung von Zielen war 85%im Vergleich zu Just 20-50% Für frühere Methoden.
- KI gemacht 75% weniger kritische Fehler beim Ausbildung mit PVP gegen traditionelles Verstärkungslernen.
Mit anderen Worten, KI fing tatsächlich an zu fahren wie ein Mensch– Nicht nur ein Roboter programmiert, um abstrakte Belohnungen zu maximieren.
Ein Sieg für KI – und für den Menschen
PVP ist für AI nicht nur besser. Es erleichtert auch das Leben für die Menschen, die es trainieren. Das traditionelle KI -Training erfordert ständige menschliche Aufsicht, Stunden des Feedbacks und viel Geduld. Mit PVP brauchte AI 50% weniger menschlicher Anstrengung trainieren. Tester bewertet PVP-ausgebildete KI 4,8 von 5 für die Genauigkeitim Vergleich zu Just 3.0 für ältere Methoden. KI, die dem PVP -Training folgten, verursacht deutlich weniger Stress Für menschliche Trainer – weil es nicht ständig Korrekturen erfordern. Für eine Technologie, die unser Leben erleichtern soll, ist das ein großer Schritt nach vorne.
Von GTA bis zur Straße
PVP hat sich bereits in virtuellen Fahrtests erwiesen. Die eigentliche Frage ist: Kann es in arbeiten? Anwendungen in der Praxis?
Das Potenzial ist massiv. Anstatt sich ausschließlich auf vorprogrammierte Regeln zu verlassen, könnte KI direkt aus menschlicher Intervention lernen-es sicherer, schneller. KI-betriebene Roboter in Lagern, Krankenhäusern oder sogar Häusern könnten in Echtzeit anstelle von Versuch und Irrtum geschult werden. Menschliche Ärzte könnten während der AI-unterstützten Operationen oder Diagnosen eingreifen und das System direkt beibringen, was richtig oder falsch ist.
Manchmal ist das Ziel nur, KI zu machen Mensch genug– Wir erwarten auf eine Weise, um sich an unseren Werten zu übereinstimmen und Fehler zu vermeiden, die uns gefährdet.
Ausgewähltes Bildnachweis: Kerem Gülen/Midjourney