Anthropic -CEO Dario Amodei veröffentlicht Ein Aufsatz am Donnerstag, das das begrenzte Verständnis der inneren Funktionsweise führender KI -Modelle hervorhebt und ein Ziel für anthropisch festgelegt hat, um bis 2027 die meisten Probleme der KI -Modellprobleme zuverlässig zu erkennen.
Amodei erkennt die bevorstehende Herausforderung an und erklärt, dass Anthropic zwar frühe Durchbrüche erzielt hat, um festzustellen, wie Modelle zu ihren Antworten gelangen, aber mehr Forschung erforderlich ist, um diese Systeme zu dekodieren, wenn sie stärker werden. „Ich bin sehr besorgt darüber, solche Systeme ohne bessere Interpretierbarkeit einzustellen“, schrieb Amodei und betonte ihre zentrale Rolle in der Wirtschaft, Technologie und nationaler Sicherheit.
Anthropic ist ein Pionier in der mechanistischen Interpretierbarkeit, das darauf abzielt, zu verstehen, warum KI -Modelle bestimmte Entscheidungen treffen. Trotz schneller Leistungsverbesserungen hat die Branche immer noch nur begrenzte Einblicke in die Art und Weise, wie diese Systeme zu Entscheidungen kommen. Zum Beispiel, Openais neue Argumentation AI -Modelle, O3 und O4-MiniMelden Sie sich bei einigen Aufgaben besser aus, aber halluzinieren Sie mehr als andere Modelle, wobei das Unternehmen nicht sicher ist, warum.
Amodei merkt an, dass KI -Forscher die Modellinformationen verbessert haben, aber nicht vollständig verstehen, warum diese Verbesserungen funktionieren. Laut Chris Olah, Mitbegründer von Anthropic, sind KI-Modelle „mehr als sie gebaut“. Amodei warnt davor, AGI zu erreichen, ohne zu verstehen, wie Modelle funktionieren, gefährlich sein könnten, und ist der Ansicht, dass wir weiterhin das vollständige Verständnis von KI -Modellen als das Erreichen von AGI bis 2026 oder 2027 nicht verstehen.
Anthropische Ziele, „Gehirnscans“ oder „MRTs“ hochmoderner KI-Modelle durchzuführen, um Probleme zu identifizieren, einschließlich der Tendenzen, zu lügen oder Macht zu suchen. Dies könnte fünf bis zehn Jahre dauern, wird jedoch zum Testen und Bereitstellen zukünftiger Modelle erforderlich sein. Das Unternehmen hat Durchbrüche in der Verfolgung von KI -Modelldachtwege durch „Schaltkreise“ erzielt und einen Schaltkreis ermittelt, der den Modellen hilft, die Standorte der US -Stadt in den Staaten zu verstehen.
Anthropisch hat in Interpretabilitätsforschung investiert und kürzlich seine ersten Investitionen in ein Startup getätigt, das auf dem Feld arbeitet. Amodei glaubt, dass die Erklärung, wie KI -Modelle zu Antworten kommen, einen kommerziellen Vorteil bieten könnten. Er forderte OpenAI und Google DeepMind auf, ihre Forschungsbemühungen zu erhöhen, und bat die Regierungen, Vorschriften für „leichte“ Vorschriften aufzuerlegen, um die Interpretierbarkeitsforschung zu fördern.
Amodei schlug auch vor, dass die USA China Chips Exportkontrollen auferlegen sollten, um die Wahrscheinlichkeit eines globalen KI-Rennens außerhalb der Kontrolle zu begrenzen. Anthropic hat sich auf die Sicherheit konzentriert und bescheidene Unterstützung für die kalifornische KI -Sicherheitsrechnung SB 1047 erteilt, die Sicherheitsberichterstattungsstandards für Frontier -KI -Modellentwickler festgelegt hätte.
Anthropic drängt auf eine branchenweite Anstrengung, KI-Modelle besser zu verstehen und ihre Fähigkeiten nicht nur zu erhöhen. Die Bemühungen und Empfehlungen des Unternehmens unterstreichen die Notwendigkeit eines kollaborativen Ansatzes für die Sicherheit und Interpretierbarkeit von KI.