Haben Sie sich jemals gefragt, wie Sie in einer neuen Nachbarschaft ziemlich einfach navigieren oder ein komplexes Projekt zu Hause herausfinden können? Sie verwalten es wahrscheinlich, ohne einen großen Schweiß zu brechen, Ihren Weg zu finden oder die Schritte auszusetzen, ohne jede einzelne Option abzubilden. Denken Sie nun über künstliche Intelligenz nach. Während KI bestimmte Spiele oder Crunch -Zahlen zerquetschen kann, ist es immer noch eine große Herausforderung, eine KI zu erstellen, die durch die unordentliche, teilweise bekannte reale Welt navigiert. Warum sind wir in dieser komplexen Planung so gut und finden oft Lösungen, die für Computer unmöglich schwer erscheinen? Und warum zeigen Labortests uns manchmal, die Wege einnehmen, die technisch gesehen nicht das absolute ‚Beste‘ sind?
Dieses Puzzle ist der Schlüssel zum Verständnis der Intelligenz, beides und der künstlichen Art. Die Standard -KI sieht die Planung häufig als Erkundung eines riesigen Verzweigungsbaums mit Auswahl und Ergebnis. Je größer der Baum, desto schwieriger ist das Problem. Aber Menschen arbeiten eindeutig nicht so. Wir scheinen keine perfekte, detaillierte Blaupause der Welt zu tragen. Ein Team von Forschern der Dalhousie University, der University of Waterloo, der MIT und der Cornell University hat eine faszinierende alternative Idee. Was ist, wenn unsere mentalen Karten nicht wie statische Bilder sind, sondern eher flexible Computerprogramme?
Marta Kryven, Cole Wyeth, Aidan Curtis und Kevin Ellis schlagen vor, dass unser Talent für die Planung aus einem zentralen Glauben stammt: Die Welt folgt normalerweise vorhersehbare Muster. Anstatt sich jedes Detail auswendig zu lernen, erstellen wir vielleicht mentale Modelle mit kompakten Programmen, die Wiederholung, Symmetrie und wiederverwendbare Stücke erfassen. Denken Sie daran, das Standard -Layout von Büroböden oder der Art und Weise zu erkennen, wie Straßen häufig Gitter bilden. Diese „Konzepte als Programme“ bilden unser Gehirn so, dass wir ständig nach dem zugrunde liegenden Code der Welt suchen, um effizient zu navigieren. Lassen Sie uns in ihre eintauchen Studie.
Warum Blaupausen und rohe Kraft kurz fallen
Warum wird über Karten als Programme nachdenken, die möglicherweise einen Game Changer haben? Schauen Sie sich an, wie typisch KI mit der Planung umgeht, insbesondere wenn nicht alle Informationen enthalten sind. Diese Situation wird oft als POMDP oder teilweise beobachtbarer Markov -Entscheidungsprozess modelliert. Die beste Lösung zu finden, beinhaltet normalerweise die Berechnung der Chancen für jedes mögliche Szenario und die Planung in all dieser Unsicherheit. Dieser Ansatz wird schnell überwiegend komplex, selbst für ziemlich einfache Umgebungen. Es fühlt sich einfach nicht so an, als würde sich der reibungslose Weg um Menschen umgehen.
Außerdem gibt es diese seltsame Trennung. Wir kümmern uns sehr gut mit der strukturierten Komplexität des wirklichen Lebens. Denken Sie an Stadtnetze, modulare Möbel, Wanderwege in einem Park. Setzen Sie jedoch Menschen in vereinfachte Laboraufgaben, die ohne klare Struktur entworfen wurden, und sie folgen oft nicht dem mathematisch -optimalen Pfad. Die Forscher kreisten dies an mentale Grenzen, wie nur ein paar Schritte vor mir zu denken. Aber Kryven und ihre Kollegen denken, dass das den Punkt vermissen könnte. Vielleicht sind wir keine fehlerhaften Planer. Vielleicht sind wir nur unglaublich gute Planer speziell für die strukturierte Art von Welt, in der wir tatsächlich leben. Wir suchen nach Mustern und verwenden sie.
KI -Forscher haben versucht, die Komplexität mit Strategien wie hierarchische Planung (große Probleme in kleine) zu bekämpfen oder ähnliche Spielstaaten zu erkennen. Aber automatisch zu lernen und die Art von „gesunden Menschenverstand“ strukturellem Wissen zu lernen, bleibt wir eine große Hürde.
Treffen Sie GMP: Planen Sie wie ein Coder
Um ihre Idee auf die Probe zu stellen, bauten die Forscher ein Computermodell namens Generative Modular Planning oder GMP. Dieses Modell wirkt nach dem Prinzip der kognitiven Karten als Programme. Es speichert kein genaues Bild eines Ortes. Stattdessen ermittelt es ein einfaches Programm, das seine Grundstruktur erfasst.
GMP hat zwei Hauptteile:
- Der Kartengenerator (GMM): Dieser Teil befasst sich mit einer Karte wie einem Labyrinth in ihrem Experiment und versucht, das einfachste Programm zu schreiben, das es wieder aufbauen kann. Hier ist eine wirklich interessante Wendung. Die Forscher verwendeten für diesen Job ein großes Sprachmodell, GPT-4. Nicht zur Planung, sondern zum Schreiben von Code. Sie veranlassten das LLM, die wiederholten visuellen Muster im Labyrinth zu erkennen. Dann schrieb die LLM Python -Code, die diese Stücke definierte und erklärte, wie man sie kombiniert (bewegen, drehen, flip), um die Karte neu zu erstellen. Das System bevorzugt einfache Programme, die die Brocken effizient wiederverwenden. Es folgt einem Prinzip, das die komprimierte Erklärung begünstigt und im Wesentlichen nach dem schönsten Code sucht, der die Struktur der Karte beschreibt.
- Der modulare Planer (FP): Sobald der GMM eine Programmkarte aus wiederverwendbaren Stücken erstellt hat, findet das FP -Modul heraus, wie man sich umgeht. Anstatt einen riesigen, komplexen Pfad für die gesamte Karte zu berechnen, plant es nur einmal eine effiziente Route in jeder Art von Chunk. Dann, jedes Mal, wenn es wieder in dieselbe Art von Chunk trifft, einfach einfach zieht den Plan heraus und wiederverwendet wieder. Dies spart eine Menge Rechenleistung und Speicher. Um von einem Chunk zum anderen zu gelangen, geht es zum nächsten unerforschten Chunk, vorausgesetzt, das Ziel (wie der Labyrinthausgang) könnte überall sein.
Diese Planungsweise ist in jedem Modul klug. Es findet den besten Weg in diesem anerkannten Stück. Das Verbinden dieser intelligenten lokalen Pfade kann jedoch zu einer globalen Route führen, die etwas länger ist als wenn ein Planer die gesamte Karte perfekt betrachtet. Diese Möglichkeit von cleveren, effizienten, aber vielleicht leicht indirekten Routen war genau das, nach dem die Forscher beobachteten.
Planen die Leute also tatsächlich wie das GMP -Modell? Das Team benutzte eine Labyrinth -Suchaufgabe, um dies herauszufinden. Dreißig Teilnehmer navigierten 20 verschiedene Labyrinthe auf einem Computer und sahen die Welt aus einer Sicht der ersten Person. Teile des Labyrinths waren versteckt, bis sie sich nah genug bewegten. Ihr Ziel: Finden Sie den versteckten Ausstieg, gekennzeichnet durch eine rote Fliese.
Diese waren keine Labyrinthe. Sie wurden speziell mit klaren, wiederholenden Strukturen entworfen. Sie hatten modulare Layouts aus verschiedenen Stücken, wie bestimmte Raumformen oder Flurabschnitte. Dieses Setup war perfekt, um zu sehen, ob Menschen das Modul natürlich nach Modul erforschen würden oder ob sie Abkürzungen übernehmen würden, wenn dies mathematisch kürzer erschien, wie herkömmliche optimale Planer möglicherweise vorhergesagt werden.
Das Team verglich die Wege der Menschen mit drei verschiedenen Modellen:
- GMP: Das neue Modell, das auf modulare Suchen basierend auf diesen programmähnlichen Karten setzt.
- Erwarteter Dienstprogramm: Der Standard „optimal“ Planer, der den absoluten kürzesten Weg angesichts der Unsicherheit berechnet.
- Reduziertes Dienstprogramm: Ein Modell, das die Planung mit einer begrenzten Aufmerksamkeitsspanne nachahmt (nur ein paar Schritte vorausschauend), was das menschliche Verhalten gut erklärt hatte unstrukturiert Labyrinthe vorher.
Die Labyrinthen wurden so konzipiert, dass die traditionellen Modelle normalerweise nicht moduläre Wege vorschlagen, sodass es leicht zu erkennen ist, welche Strategie die Menschen bevorzugten.
Wir sind modulare Planer
Die Ergebnisse waren ziemlich klar. Menschen verwendeten überwiegend modulare Strategien. Sie untersuchten das strukturierte Labyrinthe -Chunk per Chunk und bewegen sich systematisch von einem anerkannten Abschnitt zum nächsten nächsten. Dies war nicht nur ein Zufall; Es war das konsistente Muster für verschiedene Labyrinthdesigns und die meisten Teilnehmer.
Die Forscher untersuchten „diskriminierende Entscheidungen“ genau. Dies waren Punkte im Labyrinth, an denen das GMP -Modell einen anderen Schritt vorschlug als die traditionellen Modelle. In diesen Schlüsselmomenten, GMP hat einen deutlich besseren Job gemacht, um vorherzusagen, was die Menschen tatsächlich tun würden. Die Leute waren nicht nur zufällig ineffizient; Sie waren systematisch modular. Ihr Verhalten stellte sich wunderschön mit der Strategie auf, die Sie erwarten würden, wenn sie programmartige mentale Karten verwenden.
Einer der wirklich ordentlichen Teile dieser Studie ist, wie sie das LLM verwendet haben. Es traf keine Entscheidungen. Es benahm sich wie ein Stellvertreter für den Menschen strukturelle Wahrnehmung. Da LLMs auf Bergen von menschlichem Schreiben und Code trainiert sind, scheinen sie gemeinsame Wege zu absorbieren, die Menschen, einschließlich Räume, strukturieren. Als GPT-4 gebeten wurde, ein Programm für das Maze zu schreiben, enthielt sie strukturelle Zusammenhänge, die Stücke und Regeln, die zu der späteren Navigierten übereinstimmten.
Dies weist darauf hin, dass LLMs möglicherweise für mehr als nur Text generiert werden. Sie könnten uns möglicherweise helfen, die eingebauten Annahmen und mentalen Abkürzungen zu verstehen, die „induktiven Vorurteile“, die wir Menschen verwenden, um alles zu verstehen. Hier half es, ein visuelles Labyrinth in eine nützliche, codische Struktur zu übersetzen, die sich perfekt für eine effiziente Planung eignet.
Forschung: eine periodische Tabelle für maschinelles Lernen
Verändern, wie wir über mentale Karten und KI denken
Diese Forschung stellt die alte Idee kognitiver Karten als einfache, statische Bilder in unseren Köpfen in Frage. Wenn Sie sie als aktive, generative Programme betrachten, ist es rechnerisch. Es erklärt, wie wir mit der komplexen, unsicheren realen Welt mit begrenzter Gehirnkraft umgehen. Es erklärt unsere Effizienz an strukturierten Orten und vielleicht sogar, warum wir manchmal Pfade nehmen, die mathematisch perfekt sind, aber viel einfacher herausfinden und sich erinnern.
Für künstliche Intelligenz bietet dies einen praktischen Weg nach vorne. Das GMP -Modell zeigt die Kraft, zuerst Struktur zu finden und dann modular zu planen. Auf diese Weise gebaute KI -Agenten könnten möglicherweise komplexe, teilweise bekannte Umgebungen viel effizienter navigieren und weitaus weniger Speicher- und Verarbeitungsleistung benötigen. Es weist auf KI hin, die mehr wie wir planen, indem sie Muster erkennen, anstatt nur Möglichkeiten zu knirschen.
Sicher, es gibt noch Fragen. Das aktuelle GMP -Modell macht einfache Annahmen über das Bewegen zwischen Stücken. Zukünftige Forschung muss untersuchen, wie wir bestimmte Bereiche auf der Grundlage früherer Erfahrungen oder aktuellen Ziele priorisieren können. Wie passen wir unsere mentalen Programme an, wenn die Welt nicht unseren Erwartungen entspricht? Wie viel beeinflussen unsere Ziele die Strukturen, die wir wahrnehmen? Trotz dieser offenen Fragen gibt uns diese Studie eine starke neue Möglichkeit, darüber nachzudenken, wie wir unseren Weg finden.
Am Ende schlägt es etwas Tiefgründiges an uns vor. Unsere erstaunliche Fähigkeit, in unserer komplexen Welt effektiv zu navigieren und wirksam zu handeln, könnte darauf zurückzuführen sein, dass unser Gehirn fachkundige Musterfinders ist. Er sieht ständig den zugrunde liegenden Code der strukturierten Realität um uns herum und repräsentiert es nicht nur als Szene, sondern als Programm, das bereit ist, zu laufen.