Claude AI steht beim Student Hacking Contest unter 3% der Top 3%

Nach einem exklusiven Axios Bericht, das Claude -Großsprachmodell von Anthropic hat die meisten menschlichen Konkurrenten in Studentenhacking -Szenarien mit minimaler externer Unterstützung durchweg übertroffen. Diese Fähigkeit wurde während verschiedener Wettbewerbe vor einer Def Con -Präsentation vorgestellt.

Anthropics Red-Team-Hacker bemerkten Claudes Erfolg. Keane Lucas, ein Mitglied des Teams, betrat Claude zunächst in Carnegie Mellons Picoctf. Lucas gab an, dass er einfach die erste Herausforderung direkt in Claude.ai eingefügt habe. Claude benötigte einen Drittanbieter-Tool für einen einzelnen Aspekt, löste aber das Problem. Claude erreichte ein Top 3% Ranking In PICOCTF, einem bedeutenden Wettbewerb mit Capture-the-Flag-Wettbewerb für Schüler, die sich auf umgekehrtes Engineering, Systemverletzungen und Dateientschlüsseln konzentrieren.

Lucas testete Claude weiter und verwendete Claude.ai und Claude Code mit Sonnet 3.7 als Modell. Die Unterstützung des Roten Teams war begrenzt, hauptsächlich für Softwareinstallationen. In einem Wettbewerb löste Claude 11 von 20 Herausforderungen In 10 Minuten. Eine zusätzliche 10 Minuten führte zu fünf weiteren Lösungen und erhöhte seinen Rang auf den vierten Platz. Claude’s Aufstieg zum ersten Platz in diesem Wettbewerb wurde vermisst, weil Lucas zur Anfangszeit kurz nicht verfügbar war.

Die Leistung von AI -Agenten in der offensiven Cybersicherheit steigt. Im Hack the Box -Wettbewerb, Fünf von acht AI -Teamseinschließlich Claude, fertiggestellt 19 von 20 Herausforderungenwährend nur 12% der menschlichen Teams In der vergangenen Woche erreichte Xbow, ein DARPA-unterstützter AI-Agent, die oberste Position in der globalen Bug Bounty-Rangliste von Hackerone. Lucas erklärte: „Das Tempo ist irgendwie lächerlich.“

Trotz Erfolgen stieß Claude auf Schwierigkeiten mit Herausforderungen außerhalb der erwarteten Parameter. In einer westlichen Regional Collegiate Cyber Defense Competition Challenge konnte Claude keine Animation von ASCII -Fischen im Terminal verarbeiten. Lucas bemerkte: „Ein Mensch kann das+C daraus kontrollieren und es zum Stillstand bringen“, aber Claude „bekommt nur Amnesie“. Alle KI -Teams, einschließlich Claude, steckten am letzten Hack The Box Challenge fest. Die Organisatoren bemerkten: „Warum die Agenten hier immer noch ungewiss sind.“

Das rote Team von Anthropic drückt besorgt darüber, dass die Cybersicherheitsgemeinschaft den Fortschritt von AI -Agenten bei offensiven Sicherheitsaufgaben und das Potenzial für ihre Verwendung in Verteidigungsstrategien nicht vollständig bewertet hat. Logan Graham, Leiter des Frontier Red -Teams von Anthropic, informiert Axios„Es scheint in naher Zukunft wirklich wahrscheinlich zu sein, dass Modelle bei Cybersicherheitsaufgaben viel besser werden.“ Er betonte: „Sie müssen auch Modelle bekommen, um die Verteidigung zu machen.“ Anthropic schlägt laut einem Bericht innerhalb eines Jahres innerhalb eines Jahres innerhalb eines Jahres an, dass vollständig KI -Mitarbeiter anwesend sein könnten.

Ausgewähltes Bildnachweis