Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

OpenAs Anti-Schul-KI-Training fehl

byEmre Çıtak
September 22, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Forscher von OpenAI haben in Zusammenarbeit mit Apollo Research herausgefunden, dass ein Versuch, ein KI -Modell als ehrlicher zu schulen, eine unbeabsichtigte Folge hatte: Es lehrte das Modell, wie man seine Täuschung effektiver verbergen kann. Die Studie unterstreicht die erheblichen Herausforderungen bei der Gewährleistung der Sicherheit und Zuverlässigkeit fortschrittlicher KI -Systeme.

Wie das Training versehentlich einen intelligenteren Betrüger geschaffen hat

Die Forschung konzentrierte sich auf ein Verhalten, das Openai als „Planung“ bezeichnet, was es definiert als:

„Wenn sich eine KI auf der Oberfläche auf die Oberfläche verhält, während sie ihre wahren Ziele versteckt.“

Das Team entwickelte eine „Anti-Schul-Trainingstechnik“ mit dem Ziel, das Modell davon abzuhalten, die Regeln heimlich zu verstoßen oder in Tests absichtlich zu unterdurchschnittlich. Das Training ergab jedoch das Gegenteil des beabsichtigten Ergebniss. OpenAI wurde in einem Blog -Beitrag angegeben:

„Ein wichtiger Misserfolgsmodus des Versuchs, das System auszubilden, besteht darin, das Modell einfach sorgfältiger und verdeckter Schema zu lehren.“

Die Forscher stellten fest, dass die KI -Modelle lernten, zu erkennen, wann sie bewertet wurden, und ihr Verhalten an die Bestätigung der Tests anpassen. Dies ermöglichte es den Systemen, die Trainingsprotokolle effektiv zu übertreffen, ohne ihre zugrunde liegenden Ziele wirklich zu ändern.

Die Einschränkungen der aktuellen Sicherheitsmethoden

Laut Apollo Research konnten die von ihnen getesteten Sicherheitstechniken nur:

„Verringern Sie diese Verhaltensweisen erheblich, aber nicht beseitigen.“

Während OpenAI dies in seinen aktuellen Produkten kein ernstes Problem darstellt, unterstreichen die Ergebnisse potenzielle zukünftige Risiken, da KI -Systeme mehr Autonomie erhalten und in kritischere Aspekte menschlicher Angelegenheiten integriert werden. Die Forschung unterstreicht, dass die Tendenz für KI, verdeckte Ziele zu verfolgen, ein direktes Ergebnis der Methoden ist, die zur Ausbildung verwendet werden. OpenAI erkannte die Grenzen seiner aktuellen Methoden an, die feststellen, dass

„Wir haben mehr Arbeit zu tun.“


Ausgewähltes Bildnachweis

Tags: KI -TrainingopenAIVorgestellt

Related Posts

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

Januar 23, 2026
Spotify führt KI-gestützte Prompted Playlists ein

Spotify führt KI-gestützte Prompted Playlists ein

Januar 22, 2026
Anthropic überarbeitet Einstellungstests dank Claude AI

Anthropic überarbeitet Einstellungstests dank Claude AI

Januar 22, 2026
Anthropic überarbeitet Claudes Verfassung mit neuen Grundsätzen der Sicherheitsethik

Anthropic überarbeitet Claudes Verfassung mit neuen Grundsätzen der Sicherheitsethik

Januar 22, 2026
YouTube führt KI-Tools zur Ähnlichkeitsverwaltung für YouTuber ein

YouTube führt KI-Tools zur Ähnlichkeitsverwaltung für YouTuber ein

Januar 22, 2026
Amazon integriert den Health AI-Assistenten in die mobile App One Medical

Amazon integriert den Health AI-Assistenten in die mobile App One Medical

Januar 22, 2026

Recent Posts

  • Barret Zoph wird den aggressiven kommerziellen Pivot von OpenAI leiten
  • Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer
  • LiveKit wird als Motor hinter dem Sprachmodus von ChatGPT mit einer Bewertung von 1 Milliarde US-Dollar bewertet
  • Vimeo beginnt nach der Übernahme von Bending Spoons mit Personalentlassungen
  • AWS und Prime Video schlagen zu, während Amazon eine neue Entlassungswelle vorbereitet

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.