Wir hören ständig von den unglaublichen Leistungen von AI wie GPT-4O und Gemini-Schreibcode, Crafting Poesie, ACING-Prüfungen. Sie denken vielleicht, dass diese leistungsstarken multimodalen großsprachigen Modelle (MLLMs), die sowohl Text als auch Bilder verstehen, auf dem besten Weg sind, alles zu beherrschen. Aber was passiert, wenn Sie sie bitten, etwas Einfaches zu tun, z. B. LEGO -Anweisungen zu befolgen?
Nach einem neuen Studie Von Forschern der Shanghai AI Laboratory und der Tongji University lautet die Antwort: Sie scheitern weitgehend. Es stellt sich heraus, dass diese AI -Zauberer überraschend ungeschickt sind, wenn es darum geht, über mehrere Schritte zu verstehen und über Objekte im Weltraum zu denken – eine Fähigkeit, die für die Interaktion mit der realen Welt von entscheidender Bedeutung ist.
Warum KI mit Legos testen?
Die Forscher entwarfen einen cleveren Benchmark namens namens Lego-Puzzles Genau, weil der Aufbau von Legos widerspiegelt, wie Menschen „räumliche Intelligenz“ entwickeln. Das Befolgen dieser kleinen Diagramme erfordert das Verständnis von 3D -Formen, wie sie zusammenpassen, ihre Ausrichtung und die richtige Folge von Aktionen. Wenn eine KI damit nicht umgehen kann, wie können wir dann erwarten, dass er einen Roboterarm leitet, der ein Produkt zusammenstellt oder durch eine selbstfahrende Auto durch eine komplexe Bauzone navigiert?
Der Lego-Puzzles-Benchmark ist kein Kinderspiel. Es enthält über 1.100 visuelle Fragen, die 11 verschiedene Aufgaben umfassen. Diese reichen von grundlegenden Überprüfungen („Ist dieses Stück größer als dieses?“, „Sind diese beiden Blöcke berührt?“) („Setzen Sie diese Montageschritte in die richtige Reihenfolge“, „Welches Bild zeigt die falsch Schritt?“).
Die überraschende Scorecard: AI gegen Menschen
Wie hat sich die Top -KI -Modelle von heute mit diesen Lego -Herausforderungen gegossen? Die Ergebnisse waren auffällig und ehrlich gesagt ein bisschen peinlich für die KI.
- Massive Lücke: Sogar die besten Modelle wie OpenAIs GPT-4O und Googles Gemini-2,0-Flash antworteten nur darüber 50-58% der Fragen richtig.
- Menschlicher Triumph: Im Gegensatz dazu haben menschliche Teilnehmer durch die Rätsel mit über 90% Genauigkeit.
- Open-Source-Kämpfe: Viele Open-Source-MLLMs haben nur geringfügig besser als zufällige Vermutungen erzielt. Einige fehlgeschlagenen spezifischen Aufgaben, z. B. die Bestellung von Montageschritten, manchmal nur den gleichen falschen Buchstaben für fast jede Frage ausgaben.
Die KI hatte besonders Probleme mit Aufgaben mit:
- Höhenwahrnehmung: Oft verwechseln Sie eine 2D -Bildprojektion mit 3D -Realität (denken Sie an optische Illusionen).
- Drehung: Verstehen, wie Objekte sich für das Umdrehen kümmern.
- Mehrschritt-Argumentation: Je mehr Schritte in eine Sequenz beteiligt sind, desto schlechter wurde die KI, die ein Versagen der Verfolgung von Veränderungen im Laufe der Zeit hervorhebt.
Kaist hat Gehirne für KI ausgebaut, die direkt von Geräten lernen können
Kann AI uns sogar den nächsten Schritt zeigen?
Vielleicht noch aussagekräftiger war der Bildgenerierungstest. Die Forscher baten MLLMS, ein Bild zu generieren, das das zeigt Ergebnis eines bestimmten Lego -Baugruppenschritts.
Das Ergebnis? Ein nahezu totaler Versagen. Die meisten Modelle ignorierten entweder die Anweisungen, kopierten einfach das Eingabebild oder generierten etwas völlig nichts miteinander zu tun. Nur Gemini-2,0-Flash und GPT-4O zeigten eine „begrenzte Fähigkeit“-Gemini konnte das vorhandene Bild besser genau bearbeiten, während GPT-4O die Szene konzeptionell zu regenerieren schien und oft visuelle Konsistenz verlor. Die Open-Source-Modelle waren hoffnungslos verloren.
Diese Forschung zeigt eine kritische Schwäche der aktuellen KI -Entwicklung. Während Modelle sich bei Muster -Matching in Sprach- und statische Bilder übertreffen, fehlt ihnen ein robustes Verständnis von Mehrstufige räumliche Argumentation – Das dynamische Verständnis, wie Dinge in physischer Raum und Zeit funktionieren.
Die Studie ergab, dass selbst Angabe von Techniken wie „Kette des Gedankens“ (die KI aufforderte, „Schritt für Schritt zu denken“), die häufig bei Textproblemen helfen, einen minimalen Nutzen lieferten und manchmal sogar sogar behindert Leistung bei diesen räumlichen Aufgaben, insbesondere komplexen.
Es scheint, dass das Verständnis unserer 3D -Welt und der Art und Weise, wie sich die Handlungen darin entfalten, mehr als nur massive Mengen an Text und Bildern erfordert. MLLMS benötigt bessere Möglichkeiten, um Raum darzustellen, Änderungen nacheinander zu verfolgen und möglicherweise eine Form des „visuellen Speichers“ zu entwickeln.
Ausgewähltes Bildnachweis: Kerem Gülen/Imageen 3