Anthropic entschuldigt sich für die versteckte Fable-Drosselung und verspricht Transparenz

Anthropic hat sich dafür entschuldigt, dass es heimlich Drosselungsmaßnahmen an seinem KI-Modell Claude Fable 5 durch unsichtbare Leitplanken implementiert hat, die Benutzer, darunter Forscher und Konkurrenten, behindert haben. Das Unternehmen kündigte an, dass es nun transparenter darüber sein wird, wann diese Einschränkungen aktiviert werden, auch wenn dies dazu führt, dass Fable mehr Anfragen ablehnt.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

Fable ist das erste Modell in der Mythos-Klasse von KI-Systemen von Anthropic, von dem das Unternehmen gewarnt hat, dass es bei einer breiten Veröffentlichung erhebliche Risiken bergen könnte. Als Reaktion auf diese Risiken hat Anthropic Fable mit integrierten Sicherheitsmaßnahmen auf den Markt gebracht, die verhindern sollen, dass bestimmte „risikoreiche“ Anfragen beantwortet werden, insbesondere im Zusammenhang mit der Modelldestillation.

In der Systemkarte von Fable gab Anthropic bekannt, dass es die Antworten des Modells ändern und verschlechtern würde, wenn Benutzer ohne Benachrichtigung eine Destillation versuchen würden. In Zukunft werden Abfragen, die als Destillationsversuche identifiziert wurden, automatisch auf Claude Opus 4.8, das Vorgängermodell, zurückgesetzt. Anthropic verpflichtet sich, Benutzer zu informieren, wenn ihre Anfragen auf Opus 4.8 zurückgreifen, und erklärt: „Sie werden dies jedes Mal sehen, wenn es passiert.“

Dieser veränderte Ansatz spiegelt die Art und Weise wider, wie Fable andere risikoreiche Anfragen verwaltet und sie über Opus 4.8 weiterleitet, sofern sie nicht durch umfassendere Sicherheitsregeln zu Themen wie Drogen oder Waffen blockiert werden. Einige Einschränkungen haben jedoch Kritik hervorgerufen, weil sie zu weit gefasst seien und Fable für grundlegende Abfragen in Bereichen wie der Biologie nahezu unbrauchbar machten, wie Anthropic feststellte.

Anthropic räumte ein, dass seine ursprüngliche Entscheidung für unsichtbare Sicherheitsmaßnahmen falsch war, und erklärte: „Unsichtbare Sicherheitsmaßnahmen können gezielter eingesetzt werden, sodass wir schnell und mit sehr wenigen Fehlalarmen liefern können … und das war der falsche Kompromiss.“

Die Anpassungen folgen auf eine erhebliche Gegenreaktion der KI-Forschungsgemeinschaft als Reaktion auf die Strategie von Anthropic, Nutzer dynamisch einzuschränken, die im Verdacht stehen, Fable zu Wettbewerbszwecken zu destillieren. In seiner Systemkarte begründete Anthropic die Notwendigkeit, solche Anfragen gezielt anzusprechen, und erklärte, dass die Verwendung seiner Modelle zur Erstellung konkurrierender Systeme gegen die Nutzungsbedingungen des Unternehmens verstoße. Das Unternehmen hat auch bestimmten Konkurrenten, darunter chinesischen Firmen wie DeepSeek, vorgeworfen, seine Modelle unfair im „industriellen“ Maßstab zu verwässern.

Quelle des hervorgehobenen Bildes

Anthropic entschuldigt sich für die versteckte Fable-Drosselung und verspricht Transparenz

Related Posts

Das Windows-Update vom 11. Juni erhöht die Geschwindigkeit, fügt KI-Tools und wichtige Korrekturen hinzu

Ubisoft schließt Studios in Winnipeg und Belgrad und streicht 380 Stellen

iOS 27 fügt einen Mac-ähnlichen Wiederherstellungsmodus für iPhone und iPad hinzu

YouTube bringt Direktnachrichten nach sechsjähriger Pause zurück

Instagram fügt eine neue Funktion hinzu, mit der Benutzer ihren Feed-Algorithmus personalisieren können

Kritischer UpdraftPlus-Fehler gefährdet 3 Millionen WordPress-Sites

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Anthropic entschuldigt sich für die versteckte Fable-Drosselung und verspricht Transparenz

Related Posts

Das Windows-Update vom 11. Juni erhöht die Geschwindigkeit, fügt KI-Tools und wichtige Korrekturen hinzu

Ubisoft schließt Studios in Winnipeg und Belgrad und streicht 380 Stellen

iOS 27 fügt einen Mac-ähnlichen Wiederherstellungsmodus für iPhone und iPad hinzu

YouTube bringt Direktnachrichten nach sechsjähriger Pause zurück

Instagram fügt eine neue Funktion hinzu, mit der Benutzer ihren Feed-Algorithmus personalisieren können

Kritischer UpdraftPlus-Fehler gefährdet 3 Millionen WordPress-Sites

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us