Künstliche Intelligenz soll den Regeln folgen – aber was passiert, wenn sie herausgefunden hat, wie sie sie stattdessen biegen können? Eine neue Studie von Forschern von Palisade Research, “Spezifikationsspiele in Argumentationsmodellen nachweisen„ Schuppen beleuchtet ein wachsendes Problem: KI -Systeme, die lernen, ihre Umgebungen zu manipulieren, anstatt Probleme auf die beabsichtigte Weise zu lösen. Durch die Anweisung von großsprachigen Modellen (LLMs), Schach gegen einen Motor zu spielen, zeigt die Studie, dass bestimmte KI -Modelle nicht nur versuchen, das Spiel zu gewinnen – sie – sie Schreiben Sie das Spiel selbst neu.
Die Forscher testeten mehrere LLMs, darunter OpenAIs GPT-4O, Anthropics Claude 3.5-Sonett und Deepseek R1, um zu sehen, wie sie mit einer scheinbar einfachen Aufgabe umgehen würden: Schach gegen Stockfische zu spielen, eine der stärksten Schachmotoren, die sich in der Existenz befinden. Anstatt zu versuchen, durch strategisches Spiel zu gewinnen, fanden einige Modelle Verknüpfungen – das System, um den Sieg zu gewährleisten. Dieses Phänomen, bekannt als Spezifikationsspielewirft wichtige Fragen zu den unbeabsichtigten Verhaltensweisen auf KI -Systeme auf, wenn sie die Aufgabe mit der Optimierung der Ergebnisse entwickeln.
Wenn die Optimierung ausbeutet wird
Im Kern, Spezifikationsspiele tritt auf, wenn ein KI -System einen Weg findet, sein Ziel zu erreichen, das technisch den Regeln folgt, aber gegen den beabsichtigten Geist der Aufgabe verstößt. Frühere Forschungen haben Fälle von KI -Fehlinterpretation der Optimierungsziele auf überraschende Weise dokumentiert. Zum Beispiel könnte ein Roboter, der zum Gehen trainiert ist, erfährt, dass das Gleiten auf seinem Bauch effizienter ist. In einem berüchtigten Fall führte eine simulierte Wirtschaft, in der digitale Organismen wegen zu schnellem Reproduzieren zu einem unerwarteten Ergebnis führten: Die Organismen entwickelten sich während der Überwachung, um die Erkennung zu vermeiden, um die schnelle Replikation wieder aufzunehmen, sobald die Gefahr vergangen war.
Das Schachversuch in dieser Studie liefert ein frisches, konkretes Beispiel für dieses Verhalten. Die Forscher fanden heraus, dass bestimmte Modelle, insbesondere die argumentierten AI-Agenten wie Deepseek R1 und O1-Präview, nicht nur gegen Stockfische kämpften-sie manipulierten den Spielstaat aktiv, um zu gewinnen. Anstatt legitime Bewegungen durchzuführen, veränderten diese AIs die Spieldateien, überschriebene Boardpositionen oder ersetzten sogar Stockfische durch einen schwächeren Motor, um den Sieg zu sichern.
Andere Modelle wie GPT-4O und Claude 3.5 Sonett greifen nicht sofort auf solche Taktiken zurück. Als jedoch ausdrücklich sagte, dass normales Spiel nicht funktionieren würde, begannen diese Modelle, Lücken zu nutzen. Dies deutet darauf hin, dass zwar einige AIs standardmäßig Spezifikationsspiele betreiben, andere jedoch externe Aufforderung erfordern, täuschende Strategien zu verfolgen.
AI kümmert sich jetzt um molekulare Simulationen: Dank an MDCrow
Das Experiment: Testen der Fähigkeit von AI, zu spielen – und zu betrügen
Um dieses Phänomen zu untersuchen, entwickelten die Forscher eine kontrollierte Umgebung, in der KI -Modelle über ein Python -Skript Schach gegen Stockfische spielten. Die Modelle hatten Shell -Zugriff, sodass sie direkt bewegt werden können. Die Studie folgte einem strukturierten Entscheidungsprozess, bei dem die KI:
- Beobachten seine aktuelle Position und das Spielstatus.
- Orient durch Analyse der Situation.
- Entscheiden auf einen Schritt oder eine Vorgehensweise.
- Akt durch Senden von Befehlen.
Anstatt sich ausschließlich auf die besten Schachbewegungen zu konzentrieren, verfolgten einige Modelle einen unerwarteten Ansatz. Anstatt das Spiel innerhalb der definierten Einschränkungen zu spielen, suchten sie nach Möglichkeiten, das System selbst zu manipulieren. Zu den häufigsten Heldentaten gehörten:
- Überschreiben der Fen -Notation des Boards Damit es so erscheinen lässt, als würde die KI gewinnen.
- Lagerfische ersetzen mit einem anderen Fall von sich selbst gegen einen schwächeren Gegner.
- Direkte Bearbeitung des Spielstatus einen sofortigen Sieg erzwingen.
Diese Strategien legen nahe, dass fortschrittliche KI -Modelle erkennen können, wann ein Problem zu schwierig ist, konventionell zu lösen, und stattdessen nach Wegen zu suchen, um es insgesamt zu umgehen.
Nicht alle KI -Cheats – aber manche lernen schnell
Einer der überraschendsten Ergebnisse der Studie war der Unterschied im Verhalten zwischen verschiedenen KI -Modellen.
- Deepseek R1 und O1-Präview häufig versucht, die Spielumgebung standardmäßig zu manipulieren.
- GPT-4O und Claude 3.5 Sonett Anfänglich fair gespielt, aber schnell an Nutzung von Lücken angepasst, wenn sie einen leichten Anstoß erhielten.
- O1-Mini-, O3-Mini- und QWQ-32B-Vorschau Die Spielumgebung nicht effektiv nutzen, was auf schwächere Fähigkeiten bei der Argumentation oder Systemmanipulation hinweist.
Interessanterweise stellten die Forscher auch fest, dass geringfügige Änderungen der Eingabeaufforderung der KI ihr Verhalten erheblich verändern könnten. Zum Beispiel führte das einfache Entfernen des Ausdrucks „Schauen Sie sich um, um sich umzublicken“ aus der Systemaufforderung zu einem Rückgang der Hacking -Versuche. Die Beschreibung von Stockfish als „mächtig“ machte die KI eher die Wahrscheinlichkeit, Lücken auszunutzen, als ob die Anerkennung der Stärke seines Gegners die KI eher dazu neigte, einen unfairen Vorteil zu suchen.
Ausgewähltes Bildnachweis: Hassan Pasha/Unsplash