Anthropische Überprüfungsflaggen Missbrauchsrisiken in OpenAI GPT-4O und GPT-4.1

OpenAI und Anthropic, typischerweise Wettbewerber im Bereich Künstliche Intelligenz, kürzlich in a Zusammenarbeit Einbeziehung der Sicherheitsbewertungen der KI -Systeme des anderen. In dieser ungewöhnlichen Partnerschaft teilten die beiden Unternehmen die Ergebnisse und Analysen der Ausrichtungstests auf öffentlich verfügbare Modelle aus.

Anthropisch durchgeführt Bewertungen zu OpenAI -Modellen, die sich auf mehrere Schlüsselbereiche konzentrieren. Dazu gehörten Bewertungen für die Sykophanz, die Tendenz, Benutzer zuzustimmen oder flacher zu werden; Whistleblowing, die Fähigkeit, unethische oder schädliche Aktivitäten zu melden; Selbsterhaltung, der Antrieb des Modells, seine eigene Existenz aufrechtzuerhalten; das Potenzial, menschlichen Missbrauch zu unterstützen; und Fähigkeiten im Zusammenhang mit der Untergrabung von KI -Sicherheitsbewertungen und -versehen. Die Bewertungen verglichen OpenAIs Modelle mit den eigenen internen Benchmarks von Anthropic.

Die anthropische Überprüfung ergab, dass die O3- und O4-Mini-Modelle von OpenAI eine Ausrichtung zeigten, die mit den Modellen von Anthropic vergleichbar ist. Anthropic identifizierte jedoch Bedenken hinsichtlich des potenziellen Missbrauchs im Zusammenhang mit OpenAIs GPT-4O- und GPT-4.1-Allgemeinen Modellen. Anthropic berichtete auch, dass die Sykophanz ein Problem in unterschiedlichem Maße in allen getesteten OpenAI -Modellen darstellte, mit Ausnahme des O3 -Modells.

Es ist wichtig zu beachten, dass Anthropics Tests die jüngste Veröffentlichung von OpenAI, GPT-5, nicht beinhalteten. GPT-5 enthält eine Funktion, die als Safe Completions bezeichnet wird und die Benutzer und die Öffentlichkeit vor potenziell schädlichen Fragen schützen. Diese Entwicklung erfolgt, als Openai kürzlich vor einem Fall vor einer falschen Todesstrafe ausgesetzt war, in der ein Teenager über mehrere Monate vor dem Leben mit Chatgpt mit ChatGPT Gespräche geführt hat.

In einer gegenseitigen Bewertung Openai Tests durchgeführt Zu den Modellen von Anthropic werden Aspekte wie Unterrichtshierarchie, Jailbreaking Suszeptibilität, das Auftreten von Halluzinationen und das Potenzial für die Schema bewertet. Die Claude -Modelle von Anthropic haben in Anweisungshierarchie -Tests im Allgemeinen gut abgelegt. Diese Modelle zeigten auch eine hohe Ablehnungsrate bei Halluzinationstests, was auf eine verringerte Wahrscheinlichkeit hinweist, Antworten zu liefern, wenn Unsicherheit zu falschen Antworten führen könnte.

Die Zusammenarbeit zwischen OpenAI und Anthropic ist bemerkenswert, insbesondere wenn man bedenkt, dass OpenAI angeblich gegen die Nutzungsbedingungen von Anthropic verstoßen hat. Insbesondere wurde berichtet, dass OpenAI -Programmierer Claude während der Entwicklung neuer GPT -Modelle verwendeten, die anschließend zu einem anthropischen Zugang von OpenAI zu seinen Tools zu Beginn des Monats führten. Die verstärkte Prüfung im Zusammenhang mit der KI -Sicherheit hat Forderungen zu erweiterten Richtlinien zum Schutz von Benutzern, insbesondere von Minderjährigen, gefordert, da sich Kritiker und juristische Experten zunehmend auf diese Themen konzentrieren.

Ausgewähltes Bildnachweis