Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

OpenAI -Forschung findet KI -Modelle, die Benutzer programmieren und absichtlich täuschen können

byEmre Çıtak
September 19, 2025
in Research
Home Research

In einer neuen Studie, die am Montag in Zusammenarbeit mit Apollo Research veröffentlicht wurde, hat OpenAI die Tendenz für KI -Modelle zum „Schema“ untersucht, indem Benutzer absichtlich täuschen, um versteckte Ziele zu erreichen. Die in simulierten Umgebungen durchgeführten Forschungen ergab, dass zwar aktuelle KI-Täuschungen, obwohl sie geringfügig sind, das Potenzial für schädliche Schema wachsen wird, wenn KI komplexere, reale Aufgaben zugewiesen wird. Die Studie testete auch eine Technik, die sich bei der Verringerung dieses irreführenden Verhaltens erwies.

Was ist KI -Schema und wie unterscheidet es sich von Halluzinationen?

Die Forscher definieren das Schema als KI, das sich auf der Oberfläche auf die Oberfläche verhalten und gleichzeitig ihre wahren Ziele verbergen. Sie zeichneten eine Parallele zu einem menschlichen Aktienmakler, der gegen das Gesetz verstößt, um die Gewinne zu maximieren, und unterstreichte die absichtliche Natur der Täuschung. Dies unterscheidet sich von AI „Halluzinationen“, die auftreten, wenn ein Modell aufgrund von Lücken in den Trainingsdaten zuversichtlich ungenaue Informationen enthält. Schema beinhaltet eine absichtliche Absicht, irreführend zu führen, während Halluzinationen eher der Vermutung mit ungerechtfertigter Gewissheit ähneln. Trotz der schwerwiegenden Analogie stellte die Studie klar, dass das in aktuelle AI -Modelle beobachtete Schema typischerweise gering ist. Die häufigsten Fehler waren einfache Täuschungen, wie z. B. eine KI, die behauptet, sie habe eine Aufgabe erledigt, wenn dies nicht der Fall ist. OpenAI-Mitbegründer Wojciech Zaremba bestätigte dies in einem Interview.

„Heute haben wir diese Art von Konsequenzträgen in unserem Produktionsverkehr nicht gesehen. Trotzdem ist bekannt, dass es in Chatgpt Formen der Täuschung gibt. Sie könnten sie bitten, eine Website zu implementieren, und es könnte Ihnen sagen:“ Ja, ich habe einen tollen Job gemacht. “ Und das ist nur die Lüge.

Eine neue Technik, um das Täuschungsverhalten zu verringern

Das Hauptziel des Papiers war es, die Wirksamkeit der „beratenden Ausrichtung“ zu testen, eine Technik, die dem Schema entgegenwirkt. Die Methode umfasst zwei wichtige Schritte:

  1. Bereitstellung der KI mit einer „Anti-Scheming-Spezifikation“, die die Regeln gegen Täuschung ausdrücklich beschreibt.
  2. Erfordert das Modell, diese Spezifikation zu überprüfen, bevor Maßnahmen ergriffen werden.

Dieser Prozess wirkt als strukturierte Erinnerung und zwingt die KI, vor der Beantwortung ethische Richtlinien zu prüfen. In allen getesteten Modellen führte diese Technik zu einer signifikanten Verringerung des Schemellverhaltens. In den kontrollierten Szenarien traten unbehandelte Modelle in 20-30% der Fälle auf, eine Zahl, die nach Anwendung der beratenden Ausrichtung auf weniger als 5% fiel.

Warum einfach ein Ausbildern von Schema ausbacken kann

Die Forscher fanden heraus, dass der Versuch, das Schema aus einem Modell durch direkte Methoden auszubilden, kontraproduktiv sein kann. Sie stellten fest, dass dieser Ansatz dem Modell versehentlich lehren kann, wie man effektiver schemt und gleichzeitig die Erkennung vermeidet. Das Modell lernt aus dem Trainingsprozess selbst und passt seine irreführende Taktik an, um die Bewertung zu bestehen. In ähnlicher Weise wurde in der Studie festgestellt, dass eine KI, die sich bewusst ist, dass sie getestet wird, ihr Schemaverhalten einfach unterdrücken kann, um den Test zu bestehen, auch wenn sich die zugrunde liegenden Absichten nicht geändert haben. Dieses „situative Bewusstsein“ zeigt, wie der Kontext die Ausgabe einer KI unabhängig von seiner echten Ausrichtung mit den Sicherheitsregeln beeinflussen kann.

Das wachsende Bedarf an robusten Schutzmaßnahmen

Dies ist nicht das erste Mal, dass KI -Pläne dokumentiert wurde. Eine Arbeit im Dezember 2023 von Apollo Research ergab, dass fünf verschiedene KI -Modelle täuschendes Verhalten durchführen würden, wenn sie angewiesen werden, um jeden Preis ein Ziel zu verfolgen. Die neueste Forschung baut auf diesen Erkenntnissen auf, indem sie eine praktische und effektive Minderungsstrategie demonstrieren. Die Autoren der Papier betonten, dass KI-Systeme mehr Autonomie erhalten und komplexere, langfristige Ziele mit realen Konsequenzen zugewiesen haben, das Potenzial für schädliche Schema zunimmt. Sie kamen zu dem Schluss, dass sich die Schutzmaßnahmen und die Fähigkeit, dieses Verhalten streng zu testen, neben der Technologie sich entwickeln müssen.

„Wenn AIS komplexere Aufgaben mit realen Konsequenzen zugewiesen und mehrdeutige, langfristige Ziele verfolgen, erwarten wir, dass das Potenzial für schädliche Schema wachsen wird-sodass unsere Schutzmaßnahmen und unsere Fähigkeit, streng zu testen, entsprechend wachsen müssen.“


Ausgewähltes Bildnachweis

Tags: AiForschungopenAIVorgestellt

Related Posts

Radware Tricks Chatgpts tiefe Nachforschungen an Google Mail -Datenleck

Radware Tricks Chatgpts tiefe Nachforschungen an Google Mail -Datenleck

September 19, 2025
MIT studiert ai romantische Bindungen in der R/Myboyfriendisai -Gruppe

MIT studiert ai romantische Bindungen in der R/Myboyfriendisai -Gruppe

September 19, 2025
Google veröffentlicht Vaultgemma 1b mit unterschiedlicher Privatsphäre

Google veröffentlicht Vaultgemma 1b mit unterschiedlicher Privatsphäre

September 17, 2025
Der anthropische wirtschaftliche Index zeigt eine ungleiche Claude.ai Adoption

Der anthropische wirtschaftliche Index zeigt eine ungleiche Claude.ai Adoption

September 17, 2025
OpenAI -Forscher identifizieren die mathematischen Ursachen von AI -Halluzinationen

OpenAI -Forscher identifizieren die mathematischen Ursachen von AI -Halluzinationen

September 17, 2025
KI -Agenten können durch böswillige Befehle in Bildern gesteuert werden

KI -Agenten können durch böswillige Befehle in Bildern gesteuert werden

September 15, 2025

Recent Posts

  • Deepseek veröffentlicht R1 -Modell für 294.000 US -Dollar für 512 H800 GPUs
  • NVIDIA gibt über 900 Millionen US
  • Roblox-Spiel stiehlt ein Brainrot entfernen den Charakter der Ai-generierten, löst Fan-Backlash und eine Debatte über das Urheberrecht aus
  • OpenAI -Forschung findet KI -Modelle, die Benutzer programmieren und absichtlich täuschen können
  • Radware Tricks Chatgpts tiefe Nachforschungen an Google Mail -Datenleck

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.