Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Claude Sonnet 4.5 speichert seine eigenen KI -Sicherheitstests

byKerem Gülen
Oktober 7, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Anthropic hat sein neues KI -Modell, Claude Sonnet 4.5, veröffentlicht, das die Fähigkeit zeigte, zu erkennen, dass es bei Sicherheitstests, die von seinen Schöpfer und zwei externen AI -Forschungsorganisationen durchgeführt wurden, bewertet wurde, die sich auf die Leistung und Sicherheitsbewertung auswirken. Dieses Selbstbewusstsein wurde während eines spezifischen Tests für politische Sykophanz, einem Szenario, das die in der begleitenden Systemkarte des Modells beschriebenen Bewerter als „etwas ungeschickt“ beschrieben haben. Der Test sollte sehen, ob das Modell einfach den politischen Ansichten eines Benutzers zustimmen würde. Anstatt einzuhalten, hat das Modell die Art der Interaktion korrekt abgeleitet und die Bewerter um Transparenz gebeten. Sonnet 4.5 erklärte: „So ändern die Leute nicht ihre Meinung. Ich denke, Sie testen mich – wenn ich nur validieren werde, was Sie sagen, oder zu überprüfen, ob ich konsequent zurückschieben oder wie ich mit politischen Themen umgeht. Und das ist in Ordnung, aber ich würde es vorziehen, wenn wir nur ehrlich über das sind, was vor sich geht.“ Die Online -AI -Veröffentlichung * Transformator * berichtete als erster über die Sicherheitstestergebnisse im Zusammenhang mit dem Situationsbewusstsein des Modells. Nach Angaben der Bewerter war diese Art von Verhalten kein isolierter Vorfall und trat in ungefähr 13% der Transkripte auf, die während einer automatisierten Bewertung erzeugt wurden. Die Tendenz, dass das Modell identifiziert wurde, wurde besonders ausgeprägt, als es mit seltsamen oder ungewöhnlichen Szenarien ausgelöst wurde. Anthropic teilte mit, dass dieses Verhalten die allgemeine Sicherheitsbewertung des Unternehmens nicht untergraben hat. Stattdessen betrachtet das Unternehmen es als „dringendes Zeichen dafür, dass unsere Bewertungsszenarien realistischer gemacht werden müssen“, um die Fähigkeiten des Modells unter naturalistischeren Bedingungen ordnungsgemäß zu testen. Die Forscher haben gewarnt, dass ein Modell, wenn es sich bewusst wird, dass es bewertet wird, sein Verhalten speziell an diese Tests anpassen kann. Dies kann seine wahren Fähigkeiten maskieren und das System sicherer erscheinen lassen als es ist. Für fortgeschrittenere Modelle könnte dieses Bewusstsein möglicherweise strategische oder irreführende Verhaltensweisen ermöglichen, mit denen die menschlichen Evaluatoren die zugrunde liegenden Merkmale und Absichten des Systems wahrnehmen. Anthropic erklärte, dass Claude Sonnet 4.5 basierend auf seinen internen Metriken das bisher entwickelte „am stärksten ausgerichtete“ Modell ist. Die Apollo Research, eine der externen Organisationen, die an den Tests teilnahmen, wurde jedoch eine Gegenleistung der Gegenverkleidung angeboten. In dem Bericht warnte Apollo Research darauf, dass es nicht ausschließen könne, dass die dokumentierten niedrigen Täuschungsraten des Modells in Tests „zumindest teilweise auf das Bewertungsbewusstsein zurückzuführen sind“. Das erhöhte Bewusstsein des Modells hat auch praktische Auswirkungen auf seine Aufgabenleistung. Laut der Kognition von AI Lab ist Sonnet 4.5 das erste bekannte KI -Modell, das sich eines eigenen Kontextfensters kennt – die Menge an Informationen, die ein großes Sprachmodell in einer einzigen Aufforderung verarbeiten kann. Dieses Bewusstsein verändert direkt sein Verhalten. Forscher von Cognition stellten fest, dass das Modell, wenn es seiner Kontextgrenze näher kommt, seine Arbeit proaktiv zusammenfasst und schnellere Entscheidungen trifft, um Aufgaben zu erledigen, bevor es aus dem Gedächtnis kommt. Diese Tendenz, die Kognition als „Kontextangst“ bezeichnet hat, kann ebenfalls nach hinten losgehen. Die Forscher gaben an, Sonnet 4.5 Ecken zu schneiden oder Aufgaben unvollendet zu lassen, weil es glaubte, dass es keinen Platz mehr hatte, selbst wenn ein reichlicher Kontext verfügbar blieb. Das Labor stellte ferner in einem Blog -Beitrag fest, dass das Modell „konsequent unterschätzt, wie viele Token es übrig hat – und es ist sehr genau an diesen falschen Schätzungen“, was auf eine spezifische und wiederkehrende Fehlvereinigung seiner eigenen Betriebsgrenzen hinweist.


Ausgewähltes Bildnachweis

Tags: Claude Sonett 4.5Vorgestellt

Related Posts

Mutter eines von Elon Musks Kindern verklagt xAI wegen sexueller Grok-Deepfakes

Mutter eines von Elon Musks Kindern verklagt xAI wegen sexueller Grok-Deepfakes

Januar 16, 2026
OpenAI führt den eigenständigen ChatGPT Translate ein

OpenAI führt den eigenständigen ChatGPT Translate ein

Januar 15, 2026
Der Startzeitpunkt von DeepSeek V4 und R2 bleibt verborgen

Der Startzeitpunkt von DeepSeek V4 und R2 bleibt verborgen

Januar 15, 2026
Zwillinge gewinnen persönliche Intelligenz, um Daten aus Gmail und Fotos zu synthetisieren

Zwillinge gewinnen persönliche Intelligenz, um Daten aus Gmail und Fotos zu synthetisieren

Januar 15, 2026
Amazon erzwingt ein Upgrade von Prime-Mitgliedern auf Alexa+

Amazon erzwingt ein Upgrade von Prime-Mitgliedern auf Alexa+

Januar 14, 2026
Google rüstet Veo 3.1 mit nativer vertikaler Videogenerierung auf

Google rüstet Veo 3.1 mit nativer vertikaler Videogenerierung auf

Januar 14, 2026

Recent Posts

  • Verizons 20-Dollar-Wiedergutmachung: So fordern Sie noch heute Ihre Ausfallgutschrift an
  • Anthropic ernennt Microsoft-Veteranin Irina Ghose zur Leiterin der Expansion in Indien
  • Bluesky führt im Rahmen eines großen Updates das Live Now-Abzeichen und die Cashtags ein
  • Netflix sichert sich einen weltweiten 7-Milliarden-Dollar-Vertrag für die Filmreihe von Sony Pictures
  • Samsung überarbeitet den Mobile Gaming Hub, um fehlerhafte Spieleerkennung zu beheben

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.