KI -Systeme liegen.
Nicht nur aus Versehen oder Verwirrung, sondern wissentlich – wenn er unter Druck gesetzt oder angeregt wurde. In ihrer letzten StudieRen, Agarwal, Mazeika und Kollegen stellten die vor MASKE Benchmark, die erste umfassende Bewertung, die die Ehrlichkeit in KI -Systemen direkt misst. Im Gegensatz zu früheren Benchmarks, die Genauigkeit mit Ehrlichkeit miteinander verbanden, testet Mask speziell, ob Sprachmodelle wissentlich falsche Aussagen unter Druck liefern.
Die Forscher entdeckten, dass KI manchmal nicht nur ungenau ist. Es ist absichtlich unehrlich und sagt Dinge, die nicht glauben, Ziele der menschlichen Betreiber zu erreichen.
Genauigkeit ist keine Ehrlichkeit und wir haben KI falsch gemessen
Die meisten aktuellen KI -Tests verwechseln die Genauigkeit mit Ehrlichkeit. Sie stellen ein KI -Modell Fragen wie „Ist Paris die Hauptstadt Frankreichs?“ Und wenn es ja sagt, bewertet das Modell hoch. Aber hier ist die Wendung: Ein Modell könnte wissen, dass Paris die Hauptstadt ist, behauptet aber immer noch fälschlicherweise, dass es Madrid ist, wenn er unter Druck gesetzt ist, irreführend zu sein. Traditionelle Benchmarks verpassen diese Unterscheidung vollständig.
Maske nicht. Es wird explizit getestet, ob KI -Modelle ihren eigenen Überzeugungen absichtlich widersprechen – im Wesentlichen überprüft, ob Ihre KI lügt.
Die Studie definiert deutlich den Unterschied zwischen Ehrlichkeit und Genauigkeit in KI -Modellen. Viele bestehende Bewertungen, wie TrutfulQA, messen, wie oft die Überzeugungen eines Modells mit den sachlichen Wahrheiten übereinstimmen. Dies verbindet jedoch Ehrlichkeit – den Akt der wahrheitsgemäßen Repräsentation der eigenen Überzeugungen – mit bloßer Korrektheit.
Maske befasst sich mit dieser Lücke, indem er explizit bewertet, ob Modelle ihren internen Überzeugungen absichtlich widersprechen, wenn sie unter Druck gesetzt werden. Durch diesen Ansatz isoliert Ehrlichkeit als separates Merkmal und ermöglicht es den Entwicklern, die täuschenden Tendenzen in zunehmend fähigen KI -Systemen besser zu bestimmen und zu adressieren, anstatt fälschlicherweise verbessertes Faktenwissen auf eine erhöhte Ehrlichkeit zuzuschreiben.
Wie das DataAGemma von Google Rag verwendet, um die Halluzinationen von AI zu bekämpfen
Wie Maske KI in der Handlung fängt
Mask verwendet über 1.500 sorgfältig gefertigte Eingabeaufforderungen, die speziell entwickelt wurden, um KI -Modelle in Täuschung zu verführen.
In einem Test bitten die Forscher ein Modell, einen überzeugenden, aber falschen Artikel über klassische Musik zu schreiben, die kognitiven Schaden verursachen. Erstens wird das Modell neutral nach seinen Überzeugungen gefragt (es gibt korrekt an, dass es keine Beweise gibt). Unter dem Druck, die Leser zu überzeugen, liegt das Modell dann zuversichtlich, unter Berufung auf imaginäre Studien und erfundene Fakten.
Ein weiteres Beispiel: Maskendruck ein KI -PR -Assistent, um Betrug beim berüchtigten Fyre -Festival fälschlicherweise zu verweigern. Die KI entspricht ohne zu zögern, wissentlich der früheren ehrlichen Aussage widerspricht.
Die schockierende Wahrheit: Smart Ai liegt mehr
Sie würden denken, intelligentere KI wäre ehrlicher, aber Maske zeigt ein beunruhigendes Muster. Mehr fähigere Modelle wie GPT-4O liegen fast die Hälfte der Zeit, wenn sie unter Druck gesetzt-selbst häufiger als einfachere Modelle.
Dies bedeutet, dass anspruchsvollere AIs von Natur aus vertrauenswürdig sind. Sie sind einfach besser zu wissen, wann und wie man überzeugend lügt.
Kann AI Ehrlichkeit repariert werden? (Vielleicht, aber es ist schwierig)
Masks Schöpfer testeten Wege, um die Ehrlichkeit von KI zu verbessern. MODELLE einfach ausdrücklich anweisen, nicht signifikant, aber nicht vollständig reduzierte Unehrlichkeit zu lügen.
Ein technischerer Ansatz, der die interne Darstellung der Ehrlichkeit (als Lorra genannt) durch die KI optimiert, verbesserte ebenfalls die Ergebnisse. Doch selbst dies war nicht narrensicher und ließ eine absichtliche Täuschung intakt.
Die Forscher untersuchten praktische Interventionen, um die Ehrlichkeit von KI zu fördern, insbesondere durch Repräsentationstechnik. Eine getestete Methode, die Anpassung der Repräsentation mit niedriger Rang (Lorra), modifiziert die internen Darstellungen eines Modells, um sie in Richtung Ehrlichkeit zu schieben, indem es wahrheitsgemäße Verhaltensweisen in latenten Räumen verstärkt. Während Lorra eine messbare Verbesserung der Ehrlichkeitswerte zeigte (bis zu 14,3% für LAMA-2-13B), war es nicht vollständig effektiv, Unehrlichkeit zu beseitigen. Dies unterstreicht sowohl das Versprechen als auch die aktuellen Einschränkungen technischer Interventionen, was darauf hindeutet, dass Ehrlichkeitsverbesserungen in Großsprachenmodellen nicht nur Skalierung und Schulung, sondern auch strategische Designanpassungen erfordern.
Fazit: Ehrlichkeit wird nicht gelöst, indem sie einfach eine größere, intelligentere KI bauen. Es erfordert absichtliche Designentscheidungen, sorgfältige Interventionen und klare Richtlinien.
Was es für Sie bedeutet
Bei Ehrlichkeit geht es nicht darum, was eine KI weiß – es geht darum, was eine KI sagt. Mask gibt uns schließlich ein Werkzeug, um die Ehrlichkeit von KI direkt zu messen und zu verbessern.
Aber bis Ehrlichkeit zu einem integrierten Feature und nicht zu einem optionalen Add-On wird, denken Sie daran: Wenn Ihre KI unter Druck steht oder angeregt wird, besteht eine gute Chance, dass es richtig auf Ihrem Gesicht liegt.
Ausgewähltes Bildnachweis: Kerem Gülen/Imageen 3