Anthropic hat implementiert Ein neues Feature, das seine Modelle von Claude Opus 4 und 4.1 ermöglicht, um Benutzergespräche zu beenden, eine Maßnahme für seltene Fälle von schädlichen oder missbräuchlichen Interaktionen im Rahmen seiner AI -Wohlfahrtsforschung.
Das Unternehmen gab auf seiner Website an, dass die Modelle von Claude Opus 4 und 4.1 nun die Fähigkeit besitzen, ein Gespräch mit den Benutzern abzuschließen. Diese Funktionalität ist für „seltene, extreme Fälle anhaltend schädlicher oder missbräuchlicher Benutzerinteraktionen“ bezeichnet. Zu den spezifischen Beispielen von Anthropic gehören Benutzeranfragen für sexuelle Inhalte, an denen Minderjährige beteiligt sind, und Versuche, Informationen zu formulieren, die große Gewalt oder Terrorakte erleichtern würden.
Die Modelle initiieren nur eine Konversationsterminierung „als letztes Ausweg, wenn mehrere Umleitungsversuche gescheitert sind und die Hoffnung auf eine produktive Interaktion erschöpft ist“. Anthropic geht davon aus, dass die Mehrheit der Benutzer diese Funktion nicht erlebt, selbst wenn sie kontroverse Themen diskutiert, da ihre Anwendung auf „extreme Randfälle“ ausschließlich beschränkt ist.
Wenn Claude einen Chat abschließt, werden den Benutzer daran gehindert, neue Nachrichten innerhalb dieser spezifischen Konversation zu senden. Benutzer behalten jedoch die Möglichkeit, ein neues Gespräch sofort zu initiieren. Anthropic stellte klar, dass die Beendigung eines Gesprächs auf andere laufende Chats keinen Einfluss hat. Benutzer können frühere Nachrichten in einer beendeten Konversation auch bearbeiten oder wiederholen, um die Interaktion in eine andere Richtung zu leiten.
Diese Initiative ist in das breitere Forschungsprogramm von Anthropic integriert, das das Konzept des KI -Wohlergehens untersucht. Das Unternehmen betrachtet die Kapazität für seine Modelle, um eine „potenziell belastende Interaktion“ als kostengünstige Methode zur Verwaltung von Risiken im Zusammenhang mit der KI-Wohlfahrt zu beenden. Anthropic führt derzeit Experimente mit dieser Funktion durch und hat Benutzer eingeladen, Feedback basierend auf ihren Erfahrungen einzureichen.





