Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Der O3 von OpenAI beanspruchte 25%, in unabhängiger Test heißt es: „Probieren Sie 10“.

byKerem Gülen
April 21, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

OpenAIs O3 -AI -Modell erzielte laut unabhängigen Tests von den FrontierMath -Benchmark als das Unternehmen, das ursprünglich impliziert war Epoch aidas Forschungsinstitut hinter Frontiermath. Als Openai im Dezember O3 enthüllte, behauptete das Modell, 25% der Frontiermath -Fragen zu beantworten und andere Modelle erheblich zu übertreffen.

Die Tests von Epoch Ai fanden das fest O3 erzielte bei frontiermath rund 10%. Die Diskrepanz kann auf Unterschiede bei den Testaufnahmen oder auf die Version der verwendeten O3 zurückzuführen sein. OpenAs Chief Research Officer, Mark Chen, hatte erklärte das O3 erzielte in „aggressiven Testzeit-Recheneinstellungen“ über 25%. Epoch stellte fest, dass die veröffentlichten Benchmark-Ergebnisse von OpenAI einen Punktzahl mit niedrigerem Gebrauch zeigten, der mit der beobachteten Epoche von 10% entspricht.

Das öffentliche O3-Modell ist „eingestellt für Chat/Produktgebrauch“ und verfügt laut der ARC-Prize-Stiftung, die eine Pre-Release-Version von O3 getestet hat. Openais Wenda Zhou erklärt Dass das Produktions-O3-Modell „für Anwendungsfälle in realer Welt“ optimiert ist, was zu Maßstäben führen kann.

OpenAIS-O3-Claimed-25-prozent-unabhängige Test-Says-10-10
Bild: Epoch ai

Openai’s O3-Mini-High- und O4-Mini-Modelle übertreffen O3 auf Frontiermath. Das Unternehmen plant, in den kommenden Wochen eine leistungsstarke O3-Variante O3-Pro zu veröffentlichen. Dieser Vorfall unterstreicht die Notwendigkeit von Vorsicht bei der Interpretation von AI -Benchmarks, insbesondere wenn sie zur Förderung von kommerziellen Produkten verwendet werden.

In der KI -Industrie hat in letzter Zeit mehrere Benchmarking -Kontroversen festgestellt. Im Januar wurde Epoch dafür kritisiert XAI wurde beschuldigt, irreführende Benchmark -Diagramme für sein GROK 3 -Modell veröffentlicht zu haben, und Meta gab zu, Benchmark -Scores für eine andere Version eines Modells als das für Entwickler zur Verfügung zu stellen.


Ausgewähltes Bildnachweis

Tags: chatgptO3openAIVorgestellt

Related Posts

WhatsApp veröffentlicht 2026 ein Stickerpaket und ein Videoanruf-Feuerwerk

WhatsApp veröffentlicht 2026 ein Stickerpaket und ein Videoanruf-Feuerwerk

Dezember 30, 2025
Neues Xiaomi-Flaggschiff mit eSIM geht nächstes Jahr in die Massenproduktion

Neues Xiaomi-Flaggschiff mit eSIM geht nächstes Jahr in die Massenproduktion

Dezember 30, 2025
Gallery TV ergänzt das Lifestyle-Angebot von LG mit exklusivem Kunstservice

Gallery TV ergänzt das Lifestyle-Angebot von LG mit exklusivem Kunstservice

Dezember 30, 2025
HP stellt OMEN OLED-Gaming-Monitore vor der CES 2026 vor

HP stellt OMEN OLED-Gaming-Monitore vor der CES 2026 vor

Dezember 30, 2025
Das Spiel des Zoomrings beim Xiaomi 17 Ultra ist normal

Das Spiel des Zoomrings beim Xiaomi 17 Ultra ist normal

Dezember 30, 2025
CachyOS fordert Ubuntu in neuen Server-Benchmarks heraus

CachyOS fordert Ubuntu in neuen Server-Benchmarks heraus

Dezember 30, 2025

Recent Posts

  • CES 2026: So sehen Sie sich die Präsentation von Hyundai an
  • CES 2026: So sehen Sie sich die Präsentation von Samsung an
  • CES 2026: So sehen Sie sich die Präsentation von Bosch an
  • CMU-Forscher entwickeln sich selbst bewegende Objekte mithilfe von KI
  • Das Work AI Institute von Glean identifiziert fünf zentrale KI-Spannungen

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.