OpenAI hat einen neuen Bewertungsrahmen, das GDPVAL, angekündigt, um künstliche Intelligenzleistung bei wirtschaftlich wertvollen Aufgaben zu messen. Das System testet Modelle auf 1.320 realen Stellenaufgaben, um die Lücke zwischen akademischen Benchmarks und praktischer Anwendung zu überbrücken. Das GDPVAL -Framework bewertet, wie KI -Modelle 1.320 verschiedene Aufgaben behandeln, die mit 44 verschiedenen Berufen verbunden sind. Diese Arbeitsplätze sind in erster Linie Wissensarbeitspositionen in Branchen, die jeweils mehr als 5% zum Bruttoinlandsprodukt (BIP) der Vereinigten Staaten beitragen. Um diese Liste der relevanten Berufe zu erstellen, verwendete OpenAI Daten aus dem US -amerikanischen Büro für Arbeitsstatistik (BLS) und der O*Net -Datenbank der Abteilung für Arbeitsministerium. Die daraus resultierende Auswahl an Berufen umfasst Berufe, die häufig mit der KI -Integration verbunden sind, wie Software -Ingenieure, Anwälte und Videoredakteure. Der Rahmen erstreckt sich auch auf Berufe, die im Kontext von KI, einschließlich Detectives, Apothekern und Sozialarbeitern, weniger häufig diskutiert werden und eine umfassendere Bewertung der möglichen wirtschaftlichen Auswirkungen bieten. Nach Angaben des Unternehmens wurden die Aufgaben innerhalb der Bewertung von Fachleuten erstellt, die durchschnittlich 14 Jahre Erfahrung in ihren jeweiligen Bereichen verfügen. Diese Maßnahme sollte sicherstellen, dass die Aufgaben genau „echte Arbeitsprodukte wie einen legalen Auftrag, einen Ingenieurblaupause, ein Kundensupportgespräch oder einen Pflegeplan“ widerspiegeln. OpenAI spezifizierte, dass das GDPVAL -Umfang über zahlreiche Aufgaben und Berufe von anderen Bewertungen unterscheidet, die sich auf den wirtschaftlichen Wert konzentrieren, was sich möglicherweise auf eine einzelne Domäne wie Software -Engineering konzentrieren kann. Das Design der Bewertung verzichtet auf einfache Textaufforderungen. Stattdessen liefert es den KI -Modellen mit Dateien zur Referenz und erfordert die Erstellung multimodaler Erstellungen, wie z. B. Präsentationsfolien und formatierte Dokumente. Dieser Ansatz soll simulieren, wie ein Benutzer in einem professionellen Arbeitsumfeld mit der Technologie interagieren würde. OpenAI erklärte: „Dieser Realismus macht das GDPVAL zu einem realistischeren Test, wie Modelle Fachleute unterstützen könnten.“ In seiner Studie verwendete OpenAI das GDPVAL-Rahmen, um die Ausgaben mehrerer seiner eigenen Modelle zu bewerten, darunter GPT-4O, GPT-4O-Mini, GPT-3 und die neuere GPT-5. Die Bewertung umfasste auch Modelle anderer Unternehmen: Claude Opus 4.1 von Anthropic, Google, Gemini 2.5 Pro von Google, und Xai’s Grok 4. Der Kern des Einstufungsprozesses umfasste erfahrene Fachkräfte, die blinde Bewertungen der Ausgaben der Modelle durchführten. Diese menschlichen Graden verglichen unwissentlich die Arbeiten mit AI-generierten Arbeiten mit den von menschlichen Experten produzierten Outputs und lieferten einen direkten Qualitätsmaßstab ohne Kenntnis der Herkunft der Arbeit. Um diesen von Menschen geführten Prozess zu ergänzen, entwickelte Openai ein „Autograder“ -KI-System. Dieses System soll vorhersagen, wie ein menschlicher Bewerter eine bestimmte Lieferfähigkeit erzielen würde. Das Unternehmen kündigte seine Absicht an, diesen Autograder als experimentelles Forschungsinstrument für andere zu veröffentlichen. OpenAI gab jedoch eine Vorsicht auf und erklärte, dass der Autograder nicht so zuverlässig ist wie Menschenklässler. Es bestätigte, dass das Tool in naher Zukunft nicht die menschliche Bewertung ersetzen soll, was das differenzierte Urteil widerspiegelt, das für die Beurteilung hochwertiger beruflicher Arbeit erforderlich ist. Die ersten Ergebnisse der GDPVAL -Tests zeigen, dass die aktuelle fortschrittliche KI den Qualitätsstandards von Humanfachleuten nähert. „Wir haben festgestellt, dass die besten Grenzmodelle von heute bereits der Qualität der von Branchenexperten produzierten Arbeiten nähern“, schrieb Openai. Unter den getesteten Modellen wurde das Claude Opus 4.1 von Anthropic als der beste Gesamtkünstler identifiziert. Seine besonderen Stärken wurden bei Aufgaben im Zusammenhang mit der Ästhetik beobachtet, die Elemente wie die Formatierung des professionellen Dokuments und das klare und effektive Layout von Präsentationsfolien umfassen. Diese Qualitäten sind häufig für Kunden von Kunden und eine effektive Kommunikation in einem geschäftlichen Kontext von entscheidender Bedeutung. Während Claude Opus 4.1 in der Präsentation hervorragend war, zeigte das GPT-5-Modell von OpenAI eine überlegene Leistung in der Genauigkeit. Dies zeigte sich besonders bei Aufgaben, die das Auffinden und die korrekte Anwendung von domänenspezifischem Wissen erforderten. Die Forschung hob auch das schnelle Tempo der Modellverbesserung hervor. Die Ergebnisse zeigten, dass die Leistung bei GDPVAL-Aufgaben „von GPT-4O (veröffentlicht Frühling 2024) auf GPT-5 (veröffentlicht Sommer 2025) mehr als verdoppelt wurde“. Diese erhebliche Erhöhung der Fähigkeit über einen relativ kurzen Zeitraum weist auf eine signifikante Beschleunigung der Entwicklung der zugrunde liegenden KI -Technologien hin. Die Bewertung umfasste auch eine Effizienzanalyse. „Wir haben festgestellt, dass Frontier -Modelle GDPVAL -Aufgaben ungefähr 100 × schneller und 100 × billiger erledigen können als Branchenexperten“, berichtete Openai. Das Unternehmen qualifizierte diesen Befund sofort mit einer kritischen Einschränkung. „Diese Zahlen spiegeln jedoch die reine Modellinferenzzeit und die API -Abrechnungsraten wider und erfassen daher nicht die in realen Arbeitsplatzumgebungen erforderlichen menschlichen Aufsichts-, Iterations- und Integrationsschritte, um unsere Modelle zu verwenden.“ In diesem Kontext wird klargestellt, dass die Berechnung die beträchtliche Zeit und Kosten ausschließt, die mit der Verwaltung, Verfeinerung und Implementierung von Arbeiten in einem praktischen Geschäftsablauf verbunden sind. OpenAI erkannte signifikante Einschränkungen in der aktuellen Version des GDPVAL -Frameworks an und bezeichnete es als „einen frühen Schritt, der die volle Nuance vieler wirtschaftlicher Aufgaben nicht widerspiegelt“. Eine große Einschränkung ist die Verwendung einmaliger Bewertungen. Dies bedeutet, dass das Framework die Fähigkeit eines Modells nicht messen kann, iterative Arbeiten zu erledigen, z. B. das Abschluss mehrerer Entwürfe eines Projekts oder seine Fähigkeit, den Kontext für eine laufende Aufgabe über die Zeit zu absorbieren. Beispielsweise kann der aktuelle Test nicht beurteilen, ob ein Modell einen rechtlichen Auftrag basierend auf dem Kundenfeedback erfolgreich bearbeiten oder eine Datenanalyse wiederholen könnte, um eine neu entdeckte Anomalie zu berücksichtigen. Eine weitere Einschränkung des Unternehmens ist, dass professionelle Arbeiten nicht immer ein einfacher Prozess mit organisierten Dateien und einer klaren Richtlinie sind. Das aktuelle Rahmen kann nicht die komplexeren und weniger strukturierten Aspekte vieler Arbeitsplätze erfassen. Dies schließt das „menschliche – und zutiefst kontextbezogene – die Arbeit ein, ein Problem durch Gespräch zu erforschen und mit Mehrdeutigkeiten oder Verschiebungsumständen umzugehen“. Diese Elemente sind häufig für berufliche Rollen von zentraler Bedeutung, sind jedoch in einer standardisierten Testumgebung schwer zu replizieren. „Die meisten Jobs sind mehr als nur eine Sammlung von Aufgaben, die niedergeschrieben werden können“, fügte Openai hinzu. Das Unternehmen erklärte seine Absicht, diese Einschränkungen bei zukünftigen Iterationen des Rahmens anzugehen. Zu den Plänen zählen die Erweiterung seines Geltungsbereichs auf mehr Branchen und die Einbeziehung von schwierigeren Aufgaben. Insbesondere wird OpenAI versuchen, Bewertungen für Aufgaben zu entwickeln, die interaktive Workflows beinhalten, bei denen ein Modell einen Hin- und Her-Prozess durchführen muss, oder für diejenigen, die ein umfassender vorheriger Kontext verstehen müssen, was für viele KI-Systeme eine Herausforderung bleibt. Im Rahmen dieser Expansion wird OpenAI eine Untergruppe der GDPVAL -Aufgaben veröffentlichen, damit Forscher ihre eigene Arbeit verwenden können. Aus diesen Ergebnissen wird die angegebene Schlussfolgerung von OpenAI, dass KI den Arbeitsmarkt weiterhin weiter stören wird. Das Unternehmen stellt fest, dass KI routinemäßige „geschäftige Arbeiten“ übernehmen kann, wodurch menschliche Arbeitnehmer sich auf komplexere und strategischere Aufgaben konzentrieren können. Diese Perspektive formuliert KI als Instrument zur Steigerung der menschlichen Produktivität und nicht nur für den Austausch. „Besonders in der Teilmenge der Aufgaben, bei denen Modelle besonders stark sind, erwarten wir, dass es Zeit und Geld sparen würde, eine Aufgabe an ein Modell zu geben, bevor sie es mit einem Menschen ausprobieren“, schrieb Openai. Gleichzeitig mit diesen Erkenntnissen bekräftigte das Unternehmen sein erklärtes Engagement für seine breitere Mission. Dies beinhaltet Pläne, den Zugang zu KI -Tools zu demokratisieren, die Bemühungen, „Arbeitnehmer durch Veränderungen zu unterstützen, und Systeme, die einen breiten Beitrag belohnen“. „Unser Ziel ist es, alle auf dem ‚Aufzug‘ von AI zu halten“, schloss das Unternehmen.