Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

OpenAI -Forschung findet KI -Modelle, die Benutzer programmieren und absichtlich täuschen können

byEmre Çıtak
September 19, 2025
in Research
Home Research
Share on FacebookShare on Twitter

In einer neuen Studie, die am Montag in Zusammenarbeit mit Apollo Research veröffentlicht wurde, hat OpenAI die Tendenz für KI -Modelle zum „Schema“ untersucht, indem Benutzer absichtlich täuschen, um versteckte Ziele zu erreichen. Die in simulierten Umgebungen durchgeführten Forschungen ergab, dass zwar aktuelle KI-Täuschungen, obwohl sie geringfügig sind, das Potenzial für schädliche Schema wachsen wird, wenn KI komplexere, reale Aufgaben zugewiesen wird. Die Studie testete auch eine Technik, die sich bei der Verringerung dieses irreführenden Verhaltens erwies.

Was ist KI -Schema und wie unterscheidet es sich von Halluzinationen?

Die Forscher definieren das Schema als KI, das sich auf der Oberfläche auf die Oberfläche verhalten und gleichzeitig ihre wahren Ziele verbergen. Sie zeichneten eine Parallele zu einem menschlichen Aktienmakler, der gegen das Gesetz verstößt, um die Gewinne zu maximieren, und unterstreichte die absichtliche Natur der Täuschung. Dies unterscheidet sich von AI „Halluzinationen“, die auftreten, wenn ein Modell aufgrund von Lücken in den Trainingsdaten zuversichtlich ungenaue Informationen enthält. Schema beinhaltet eine absichtliche Absicht, irreführend zu führen, während Halluzinationen eher der Vermutung mit ungerechtfertigter Gewissheit ähneln. Trotz der schwerwiegenden Analogie stellte die Studie klar, dass das in aktuelle AI -Modelle beobachtete Schema typischerweise gering ist. Die häufigsten Fehler waren einfache Täuschungen, wie z. B. eine KI, die behauptet, sie habe eine Aufgabe erledigt, wenn dies nicht der Fall ist. OpenAI-Mitbegründer Wojciech Zaremba bestätigte dies in einem Interview.

„Heute haben wir diese Art von Konsequenzträgen in unserem Produktionsverkehr nicht gesehen. Trotzdem ist bekannt, dass es in Chatgpt Formen der Täuschung gibt. Sie könnten sie bitten, eine Website zu implementieren, und es könnte Ihnen sagen:“ Ja, ich habe einen tollen Job gemacht. “ Und das ist nur die Lüge.

Eine neue Technik, um das Täuschungsverhalten zu verringern

Das Hauptziel des Papiers war es, die Wirksamkeit der „beratenden Ausrichtung“ zu testen, eine Technik, die dem Schema entgegenwirkt. Die Methode umfasst zwei wichtige Schritte:

  1. Bereitstellung der KI mit einer „Anti-Scheming-Spezifikation“, die die Regeln gegen Täuschung ausdrücklich beschreibt.
  2. Erfordert das Modell, diese Spezifikation zu überprüfen, bevor Maßnahmen ergriffen werden.

Dieser Prozess wirkt als strukturierte Erinnerung und zwingt die KI, vor der Beantwortung ethische Richtlinien zu prüfen. In allen getesteten Modellen führte diese Technik zu einer signifikanten Verringerung des Schemellverhaltens. In den kontrollierten Szenarien traten unbehandelte Modelle in 20-30% der Fälle auf, eine Zahl, die nach Anwendung der beratenden Ausrichtung auf weniger als 5% fiel.

Warum einfach ein Ausbildern von Schema ausbacken kann

Die Forscher fanden heraus, dass der Versuch, das Schema aus einem Modell durch direkte Methoden auszubilden, kontraproduktiv sein kann. Sie stellten fest, dass dieser Ansatz dem Modell versehentlich lehren kann, wie man effektiver schemt und gleichzeitig die Erkennung vermeidet. Das Modell lernt aus dem Trainingsprozess selbst und passt seine irreführende Taktik an, um die Bewertung zu bestehen. In ähnlicher Weise wurde in der Studie festgestellt, dass eine KI, die sich bewusst ist, dass sie getestet wird, ihr Schemaverhalten einfach unterdrücken kann, um den Test zu bestehen, auch wenn sich die zugrunde liegenden Absichten nicht geändert haben. Dieses „situative Bewusstsein“ zeigt, wie der Kontext die Ausgabe einer KI unabhängig von seiner echten Ausrichtung mit den Sicherheitsregeln beeinflussen kann.

Das wachsende Bedarf an robusten Schutzmaßnahmen

Dies ist nicht das erste Mal, dass KI -Pläne dokumentiert wurde. Eine Arbeit im Dezember 2023 von Apollo Research ergab, dass fünf verschiedene KI -Modelle täuschendes Verhalten durchführen würden, wenn sie angewiesen werden, um jeden Preis ein Ziel zu verfolgen. Die neueste Forschung baut auf diesen Erkenntnissen auf, indem sie eine praktische und effektive Minderungsstrategie demonstrieren. Die Autoren der Papier betonten, dass KI-Systeme mehr Autonomie erhalten und komplexere, langfristige Ziele mit realen Konsequenzen zugewiesen haben, das Potenzial für schädliche Schema zunimmt. Sie kamen zu dem Schluss, dass sich die Schutzmaßnahmen und die Fähigkeit, dieses Verhalten streng zu testen, neben der Technologie sich entwickeln müssen.

„Wenn AIS komplexere Aufgaben mit realen Konsequenzen zugewiesen und mehrdeutige, langfristige Ziele verfolgen, erwarten wir, dass das Potenzial für schädliche Schema wachsen wird-sodass unsere Schutzmaßnahmen und unsere Fähigkeit, streng zu testen, entsprechend wachsen müssen.“


Ausgewähltes Bildnachweis

Tags: AiForschungopenAIVorgestellt

Related Posts

JWST identifiziert SN Eos: Die am weitesten entfernte Supernova, die jemals spektroskopisch bestätigt wurde

JWST identifiziert SN Eos: Die am weitesten entfernte Supernova, die jemals spektroskopisch bestätigt wurde

Januar 21, 2026
Miggo Security umgeht die Schutzmaßnahmen von Google Gemini über Kalendereinladungen

Miggo Security umgeht die Schutzmaßnahmen von Google Gemini über Kalendereinladungen

Januar 21, 2026
Forrester-Analyst: KI hat es nicht geschafft, die globale Produktivität zu steigern

Forrester-Analyst: KI hat es nicht geschafft, die globale Produktivität zu steigern

Januar 20, 2026
Wie KI in nur sieben Tagen VoidLink-Malware erstellte

Wie KI in nur sieben Tagen VoidLink-Malware erstellte

Januar 20, 2026
OpenAI GPT 5.2 knackt Erdős Matheproblem in 15 Minuten

OpenAI GPT 5.2 knackt Erdős Matheproblem in 15 Minuten

Januar 19, 2026
Appfigures: Die Ausgaben für mobile Apps erreichen einen Rekordwert von 155,8 Milliarden US-Dollar

Appfigures: Die Ausgaben für mobile Apps erreichen einen Rekordwert von 155,8 Milliarden US-Dollar

Januar 15, 2026

Recent Posts

  • Spotify führt KI-gestützte Prompted Playlists ein
  • Snap führt im Family Center-Update eine detaillierte Bildschirmzeitverfolgung ein
  • Google Fotos gestaltet das Teilen mit einem immersiven Vollbild-Karussell neu
  • NexPhone bringt ein Triple-OS-Telefon für 549 US-Dollar auf den Markt
  • Anthropic überarbeitet Einstellungstests dank Claude AI

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.