GPT-4.1 hat offiziell gelandet In der OpenAI-API wird ein Trio von Modellen eingeführt-GPT-4,1, GPT-4,1 Mini und GPT-4.1-Nano-, die ihre Vorgänger in nahezu jeder Dimension übertreffen. Diese Modelle sind für Entwickler konzipiert, die bessere Codierungsfähigkeiten, stärkere Unterricht und ein massives, lang Kontextverständnis benötigen und gleichzeitig die Latenz und Kosten senken. Das Flaggschiff -Modell unterstützt nun bis zu 1 Million Token Kontext und verfügt über einen neuen Wissensausschnitt vom Juni 2024.
Was ist neu mit GPT-4.1?
Die GPT-4.1-Familie ist ein direktes Upgrade gegenüber GPT-4O und GPT-4,5, das eine verbesserte Leistung über Benchmarks hinweg bietet und gleichzeitig den Einsatz realer Entwickler optimiert. GPT-4,1 bewertet 54,6% auf sWe Bench verifiziertdamit es zu einem der Topmodelle für die Codierung von Aufgaben ist. Auf Skala Multichalenge -BenchmarkIn der Anweisung folgt eine absolute Verbesserung von 10,5% gegenüber GPT-4O. Für lange Kontextaufgaben setzt es eine neue hochmoderne Punktzahl von 72% auf dem Video-Mme-Benchmark.
Die Modelle sind auch über die Latenzkurve optimiert. GPT-4,1 Mini liefert fast die gleiche Leistung wie GPT-4O, während die Latenz in zwei Hälften abschneidet und die Kosten um 83%senken. GPT-4.1 Nano ist das bisher am schnellsten und erschwinglichste Modell von OpenAI, das für die Klassifizierung und automatische Aufgaben erstellt wurde und gleichzeitig 1 Million Token-Kontextfenster unterstützt.
Codierungsfunktionen machen einen Sprung
Von der Erzeugung sauberer Frontend-Schnittstellen bis hin zu verfolgteren Diff-Formaten erwiesen sich GPT-4.1 als äußerst fähigen Codierungsassistenten. Auf der SWE-Bench verifizierten Benchmark über die Hälfte der Aufgaben ordnungsgemäß-UP von 33,2% mit GPT-4O. Es übertrifft auch GPT-4O und sogar GPT-4,5 auf dem Polyglot-Diff-Benchmark von Aider und bietet Entwicklern genaue Änderungen in mehreren Programmiersprachen, ohne ganze Dateien neu zu schreiben. Für Umschreiber auf Dateiebene wurden die Ausgangs-Token-Grenzen auf 32.768 Token erweitert.
In internen Vergleiche wurden GPT-4,1-Websites 80% der Zeit gegenüber den Ausgaben von GPT-4O bevorzugt. Fremdverträge im Code gingen von 9% auf nur 2% zurück, was ein besseres Kontextverständnis und die Verwendung von Werkzeugen widerspiegelt.
Early Adopters heben die realen Siege hervor
Windsurf berichtete über eine Verbesserung der internen Benchmarks um 60%, während Qodo feststellte, dass GPT-4,1 bei 55% der Github-Pull-Anfragen bessere Vorschläge lieferte. Diese Verbesserungen führen direkt in eine bessere Genauigkeit der Codeüberprüfung, weniger unnötige Vorschläge und schnellere Iterationszyklen für Teams.
Schärfere Anweisungen nach Szenarien nach
GPT-4.1 führt bei der Zuverlässigkeit der Anweisungen erheblich besser ab. Es entspricht 87,4% für IFEVAL und 38% für den Multichallenge -Benchmark, wobei Gewinne bei den Umgang mit Komplexformaten vorgestellt, verbotene Anweisungen abgelehnt und die Ausgaben sortiert oder rangieren. Die eigene Bewertung von OpenAI zeigte, dass GPT-4.1 bei harten Eingabeaufforderungen genauer und bei der Verfolgung von Multiturn-Anweisungen besser ist.
Blue J und Hex testeten beide GPT-4.1 gegen domänenspezifische Aufgaben. Blue J verzeichnete eine Genauigkeit von 53% in komplexen Steuerszenarien, während HEX die Leistung bei SQL-Aufgaben fast doppelt so hoch wiet, dass sie das Debugging-Overhead reduzierte und die Produktionsdesauigkeit verbesserte.
1 Million Token -Kontextfenster legt eine neue Balken fest
Alle drei Modelle in der GPT-4,1-Familie unterstützen jetzt bis zu 1 Million Kontext-über das 8-fache der React-Codebasis. Dies ermöglicht leistungsstarke neue Anwendungsfälle in Rechtsdokumentenanalysen, Finanzforschung und Langform-Software-Workflows. In OpenAs „Nadel in einem Heuheustack“ hat GPT-4.1 relevante Inhalte zuverlässig abgerufen, unabhängig davon, wo er in der Eingabe erschien.
Der OpenAI-MRCR-Benchmark bestätigte dies ferner, indem er die Fähigkeit des Modells testete, zwischen nahezu identischen Eingaben zu unterscheiden, die über ein massives Kontextfenster verstreut sind. Auf dem GraphWalks-Benchmark, bei dem die Argumentation über Knoten in einem synthetischen Diagramm über die Argumentation hinweg betrifft, erzielte GPT-4,1 62%, signifikant vor den 42%von GPT-4O.
Thomson Reuters berichtete über eine Genauigkeit der juristischen Dokumentenüberprüfung mit GPT-4,1 in seinem Cocounsel-System, während Carlyle eine Verbesserung der Extraktion von detaillierten Finanzdaten aus komplexen Dateien um 50% verbesserte.
GPT-4,5-Out-Humans-Menschen im neuen Test
Schneller Inferenz und besseres Bildverständnis
OpenAI hat die Zeit reduziert, um das erste Token mit Verbesserungen des Inferenzstapels zu verwenden. GPT-4.1-Nano antwortet in weniger als fünf Sekunden auf 128.000-geklärte Eingaben. Bei multimodalen Aufgaben zeigt GPT-4.1 Mini ein stärkeres Bildverständnis als GPT-4O über Benchmarks wie MMMU und Mathvista.
Bei visuellen Benchmarks wie Charxiv-Reasoning und Video-Mme führt GPT-4,1 konsequent und erzielte 72% auf letzterem ohne Untertitel. Dies macht es zu einer Top -Wahl für Videoverständnisse und wissenschaftliche Diagramminterpretation.
Preissenkungen und Übergangspläne
Alle drei GPT-4.1-Modelle sind jetzt in der API mit einem erheblichen Preisabfall erhältlich. GPT-4,1 ist im Vergleich zu GPT-4O 26% billiger für mediane Abfragen. Sofortige Caching-Rabatte haben sich auf 75%erhöht, und es gibt keine zusätzlichen Gebühren für Langzeiteingänge. Die GPT-4,5-Vorschau wird bis zum 14. Juli 2025 zugunsten der effizienteren GPT-4,1-Familie veraltet.
Die Preisgestaltung pro 1-m-Token für GPT-4,1 ist auf 2 USD für Input, 0,50 USD für zwischengespeicherte Input und 8 USD für die Ausgabe. GPT-4,1-Nano senkt diese auf 0,10 USD, 0,025 USD bzw. 0,40 USD-was die bisher erschwinglichste Option macht.