Anthropisch freigegeben Opus 4.5 am Montag, das letzte Modell seiner 4.5-Serie, mit der Einführung von Chrome- und Excel-Integrationen. Opus 4.5 zeigt in verschiedenen Benchmarks Spitzenleistung. Dazu gehören Codierungs-Benchmarks wie SWE-Bench und Terminal-Bench, Tool-Nutzungs-Benchmarks wie Tau2-Bench und MCP Atlas sowie allgemeine Problemlösungsbewertungen wie ARC-AGI 2 und GPQA Diamond. Das Modell erreichte bei der SWE-Bench-Verifizierung insbesondere über 80 %, ein bedeutendes Ergebnis für einen Codierungs-Benchmark. Anthropic hob die Fähigkeiten von Opus im Bereich Computernutzung und Tabellenkalkulation hervor. Neben Opus 4.5 hat Anthropic seine Produkte Claude für Chrome und Claude für Excel, die sich zuvor in der Pilotphase befanden, breiter zugänglich gemacht. Die Chrome-Erweiterung steht allen Max-Benutzern zur Verfügung, während das auf Excel ausgerichtete Modell für Max-, Team- und Enterprise-Benutzer zugänglich ist.
Bild: AnthropischOpus 4.5 enthält Speicherverbesserungen für Operationen mit langem Kontext. Dianne Na Penn, Leiterin des Produktmanagements für Forschung bei Anthropic, sagte dazu TechCrunch„Wir haben im Training mit Opus 4.5 Verbesserungen an der allgemeinen Qualität langer Kontexte vorgenommen, aber Kontextfenster allein werden nicht ausreichen. Die richtigen Details zu kennen, die man sich merken muss, ist wirklich wichtig, zusätzlich zu einem längeren Kontextfenster.“ Diese Speichererweiterungen ermöglichten eine „Endlos-Chat“-Funktion für zahlende Claude-Benutzer. Diese Funktion ermöglicht einen kontinuierlichen Chat ohne Unterbrechung, wenn das Modell sein Kontextfensterlimit erreicht. Das Modell komprimiert seinen Kontextspeicher ohne Benutzerbenachrichtigung. Viele Upgrades zielen auf Agenten-Anwendungsfälle ab, insbesondere auf Szenarien, in denen Opus als Hauptagent fungiert und von Haiku unterstützte Unteragenten überwacht. Die Bewältigung solcher Aufgaben erfordert ein leistungsfähiges Arbeitsgedächtnis. Penn bemerkte: „Hier werden Grundlagen wie das Gedächtnis wirklich wichtig, denn Claude muss in der Lage sein, Codebasen und große Dokumente zu erkunden und auch wissen, wann er etwas zurückverfolgen und erneut überprüfen muss.“ Opus 4.5 betritt einen wettbewerbsintensiven Markt. OpenAI veröffentlichte GPT 5.1 am 12. November und Google veröffentlichte Gemini 3 am 18. November, beides neue Grenzmodelle.





