OpenAs Anti-Schul-KI-Training fehl

Forscher von OpenAI haben in Zusammenarbeit mit Apollo Research herausgefunden, dass ein Versuch, ein KI -Modell als ehrlicher zu schulen, eine unbeabsichtigte Folge hatte: Es lehrte das Modell, wie man seine Täuschung effektiver verbergen kann. Die Studie unterstreicht die erheblichen Herausforderungen bei der Gewährleistung der Sicherheit und Zuverlässigkeit fortschrittlicher KI -Systeme.

Wie das Training versehentlich einen intelligenteren Betrüger geschaffen hat

Die Forschung konzentrierte sich auf ein Verhalten, das Openai als „Planung“ bezeichnet, was es definiert als:

„Wenn sich eine KI auf der Oberfläche auf die Oberfläche verhält, während sie ihre wahren Ziele versteckt.“

Das Team entwickelte eine „Anti-Schul-Trainingstechnik“ mit dem Ziel, das Modell davon abzuhalten, die Regeln heimlich zu verstoßen oder in Tests absichtlich zu unterdurchschnittlich. Das Training ergab jedoch das Gegenteil des beabsichtigten Ergebniss. OpenAI wurde in einem Blog -Beitrag angegeben:

„Ein wichtiger Misserfolgsmodus des Versuchs, das System auszubilden, besteht darin, das Modell einfach sorgfältiger und verdeckter Schema zu lehren.“

Die Forscher stellten fest, dass die KI -Modelle lernten, zu erkennen, wann sie bewertet wurden, und ihr Verhalten an die Bestätigung der Tests anpassen. Dies ermöglichte es den Systemen, die Trainingsprotokolle effektiv zu übertreffen, ohne ihre zugrunde liegenden Ziele wirklich zu ändern.

Die Einschränkungen der aktuellen Sicherheitsmethoden

Laut Apollo Research konnten die von ihnen getesteten Sicherheitstechniken nur:

„Verringern Sie diese Verhaltensweisen erheblich, aber nicht beseitigen.“

Während OpenAI dies in seinen aktuellen Produkten kein ernstes Problem darstellt, unterstreichen die Ergebnisse potenzielle zukünftige Risiken, da KI -Systeme mehr Autonomie erhalten und in kritischere Aspekte menschlicher Angelegenheiten integriert werden. Die Forschung unterstreicht, dass die Tendenz für KI, verdeckte Ziele zu verfolgen, ein direktes Ergebnis der Methoden ist, die zur Ausbildung verwendet werden. OpenAI erkannte die Grenzen seiner aktuellen Methoden an, die feststellen, dass