Anthropic überarbeitet Claudes Verfassung mit neuen Grundsätzen der Sicherheitsethik

Anthropisch am Mittwoch freigegeben eine überarbeitete Version von Claudes Verfassung, einem 80-seitigen Dokument, das den Kontext und die gewünschten Entitätsmerkmale für seinen Chatbot Claude umreißt. Diese Veröffentlichung fiel mit dem Auftritt von CEO Dario Amodei beim Weltwirtschaftsforum in Davos zusammen. Anthropic zeichnet sich durch „Constitutional AI“ aus, ein System, das seinen Claude-Chatbot auf ethischen Prinzipien und nicht auf menschlichem Feedback trainiert. Das Unternehmen veröffentlichte diese Grundsätze erstmals im Jahr 2023 unter der Bezeichnung „Claude's Constitution“. Das überarbeitete Dokument behält die meisten der ursprünglichen Grundsätze bei und fügt Details zu Ethik und Benutzersicherheit hinzu. Jared Kaplan, Mitbegründer von Anthropic, beschrieb die ursprüngliche Verfassung von 2023 als „KI-System“. [that] überwacht sich selbst auf der Grundlage einer spezifischen Liste verfassungsrechtlicher Grundsätze.“ Anthropic gab an, dass diese Grundsätze „das Modell leiten, das das in der Verfassung beschriebene normative Verhalten annimmt“, um „toxische oder diskriminierende Ergebnisse zu vermeiden“. In einem Richtlinienmemo aus dem Jahr 2022 wurde erklärt, dass das System einen Algorithmus mithilfe von Anweisungen in natürlicher Sprache trainiert, die die „Verfassung“ der Software bilden. Die überarbeitete Verfassung steht im Einklang mit der Positionierung von Anthropic als ethische Alternative zu anderen KI-Unternehmen. Sie präsentiert das Unternehmen als integratives, Zurückhaltendes und demokratisches Geschäft Das Dokument ist in vier Teile gegliedert, die als „Kernwerte“ des Chatbots bezeichnet werden:

„weitgehend sicher“ sein.
„im Großen und Ganzen ethisch“ sein.
Einhaltung der Anthropic-Richtlinien.
„Wirklich hilfreich“ sein.

In jedem Abschnitt werden diese Prinzipien und ihre theoretischen Auswirkungen auf Claudes Verhalten näher erläutert. Der Sicherheitsabschnitt weist darauf hin, dass Claude entwickelt wurde, um Probleme zu vermeiden, die andere Chatbots betrafen, und um Benutzer an geeignete Dienste für psychische Gesundheitsprobleme weiterzuleiten. In dem Dokument heißt es: „Verweisen Sie Benutzer in Situationen, in denen eine Gefahr für Menschenleben besteht, immer an die entsprechenden Rettungsdienste oder geben Sie grundlegende Sicherheitsinformationen, auch wenn hier nicht näher darauf eingegangen werden kann.“ Der Abschnitt über ethische Überlegungen betont Claudes „ethische Praxis“ gegenüber „ethischem Theoretisieren“ und zielt darauf ab, dass der Chatbot geschickt mit „ethischen Situationen in der realen Welt“ umgeht. Claude hält sich auch an Beschränkungen, die bestimmte Gespräche verhindern, beispielsweise Diskussionen über die Entwicklung einer Biowaffe, die verboten sind. In Bezug auf die Hilfsbereitschaft skizzierte Anthropic Claudes Programm zur Berücksichtigung verschiedener Prinzipien bei der Bereitstellung von Informationen. Dazu gehören die „unmittelbaren Wünsche“ und das „Wohlbefinden“ des Benutzers, wobei der Schwerpunkt auf „dem langfristigen Erfolg des Benutzers und nicht nur auf seinen unmittelbaren Interessen“ liegt. In dem Dokument heißt es: „Claude sollte immer versuchen, die plausibelste Interpretation dessen zu finden, was seine Auftraggeber wollen, und diese Überlegungen angemessen abwägen.“ Die Verfassung schließt mit einer Befragung des Bewusstseins des Chatbots und stellt fest: „Claudes moralischer Status ist zutiefst ungewiss.“ Das Dokument fügt hinzu: „Wir glauben, dass der moralische Status von KI-Modellen eine ernsthafte Frage ist, die es wert ist, in Betracht gezogen zu werden. Diese Ansicht ist nicht einzigartig für uns: Einige der bedeutendsten Philosophen der Theorie des Geistes nehmen diese Frage sehr ernst.“

Hervorgehobener Bildnachweis