Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

GPT-5.2 übertrifft mit 92 % der wissenschaftlichen Bewertung die Baseline der Experten-Doktorarbeit

byKerem Gülen
Dezember 24, 2025
in Research
Home Research
Share on FacebookShare on Twitter

GPT-5.2 gepunktet 92 % bei einem „Google-Proof“-Wissenschafts-Benchmark, was deutlich über dem Experten-Basiswert von 70 % liegt. Das fortschrittliche Modell erzielte auch bei großen internationalen Wettbewerben Medaillengewinne und demonstrierte damit seine sich weiterentwickelnden Fähigkeiten im wissenschaftlichen Denken. Wissenschaftler nutzen diese Systeme häufig für Aufgaben wie die Literatursuche in verschiedenen Disziplinen und Sprachen sowie für die Navigation in komplexen mathematischen Beweisen. Diese Entwicklung reduziert die Arbeit, die normalerweise Tage oder Wochen dauert, oft auf nur wenige Stunden. Das Papier, Frühe wissenschaftliche Beschleunigungsexperimente mit GPT-5veröffentlicht im November 2025, liefert erste Hinweise darauf, dass GPT-5 wissenschaftliche Arbeitsabläufe deutlich beschleunigen kann. Um die Fähigkeit von KI-Modellen, die wissenschaftliche Forschung zu beschleunigen, weiter zu messen und vorherzusagen, führten die Entwickler FrontierScience ein, einen neuen Benchmark zur Bewertung der wissenschaftlichen Fähigkeiten auf Expertenebene. Der Benchmark enthält Fragen, die von Experten aus Physik, Chemie und Biologie geschrieben und überprüft wurden, wobei der Schwerpunkt auf Originalität und Schwierigkeit liegt. FrontierScience bietet zwei unterschiedliche Tracks:

  • Olympiade: Misst die Fähigkeiten zum wissenschaftlichen Denken im Stil internationaler Olympiaden.
  • Forschung: Bewertet reale wissenschaftliche Forschungskapazitäten.

In ersten Bewertungen erwies sich GPT-5.2 als das leistungsstärkste Modell sowohl bei FrontierScience-Olympiad mit 77 % als auch bei Research mit 25 %. Mit dieser Leistung liegt es vor anderen Spitzenmodellen, darunter Claude Opus 4.5 und Gemini 3 Pro. Die Ergebnisse deuten darauf hin, dass aktuelle Modelle Aspekte des strukturierten Denkens in der Forschung unterstützen können, obwohl noch erhebliche Anstrengungen unternommen werden müssen, um ihre Fähigkeiten zum ergebnisoffenen Denken zu verbessern. FrontierScience umfasst über 700 Textfragen, davon 160 im Gold-Set, und deckt Teilgebiete der Physik, Chemie und Biologie ab. FrontierScience-Olympiad bietet 100 Fragen, die von 42 internationalen Olympia-Medaillengewinnern und Nationalmannschaftstrainern gemeinsam entworfen wurden. FrontierScience-Research umfasst 60 originelle Forschungsteilaufgaben, die von 45 promovierten Wissenschaftlern entwickelt wurden, darunter Doktoranden, Professoren und Postdoktoranden. Für den Olympiad-Satz erfolgt die Benotung durch eine kurze Antwortüberprüfung. Für den Forschungsbereich bewertet eine auf Rubriken basierende Architektur mit einem 10-Punkte-Bewertungssystem offene Aufgaben. In dieser Rubrik werden sowohl die endgültige Antwort als auch die Zwischenschritte der Argumentation bewertet. Ein modellbasierter Grader, GPT-5, bewertet die Antworten anhand dieser Kriterien. Die Erstellung jeder Aufgabe erforderte die Auswahl anhand interner Modelle, was zu einer Verzerrung der Bewertungen anhand spezifischer Modelle führen kann. Zu den wichtigsten Leistungsergebnissen gehören:

  • FrontierScience-Olympiad-Genauigkeit:
    • GPT-5.2: 77,1 %
    • Gemini 3 Pro: 76,1 %
    • Claude Opus 4,5: 71,4 %
  • FrontierScience-Research-Genauigkeit:
    • GPT-5.2: 25,2 %
    • Claude Opus 4,5: 17,5 %
    • Gruppe 4: 15,9 %

Längere Verarbeitungszeiten oder höherer Argumentationsaufwand korrelierten mit einer verbesserten Genauigkeit sowohl für GPT-5.2 als auch für OpenAI o3. Beispielsweise stieg die Genauigkeit von GPT-5.2 bei FrontierScience-Olympiad von 67,5 % bei „Niedrigem“ Argumentationsaufwand auf 77,1 % bei „XHoch“-Anstrengung. In ähnlicher Weise stieg bei FrontierScience-Research die Genauigkeit von GPT-5.2 von 18,2 % bei „Niedrig“ auf 25,2 % bei „XHoch“. FrontierScience konzentriert sich derzeit auf eingeschränkte Problemstellungen und bewertet nicht die Generierung neuer Hypothesen oder Interaktionen mit multimodalen Daten. Entwickler planen, den Benchmark zu iterieren, ihn auf neue Bereiche auszudehnen und mehr reale Bewertungen zu integrieren, wenn sich die Modelle verbessern.


Hervorgehobener Bildnachweis

Tags: gpt-5.2GrenzwissenschaftopenAI

Related Posts

Wissenschaftler entdecken mehr als 17.000 neue Arten

Wissenschaftler entdecken mehr als 17.000 neue Arten

Dezember 26, 2025
Warum DIG AI die gefährlichste bösartige KI des Jahres 2025 ist

Warum DIG AI die gefährlichste bösartige KI des Jahres 2025 ist

Dezember 23, 2025
Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Natrium-Ionen-Batterien nähern sich dem Schnellladen, da Forscher Ionenengpässe überwinden

Dezember 19, 2025
Den 2-Billionen-Dollar-Gespenst einfangen: KI schreibt die Regeln der Finanzkriminalität neu

Den 2-Billionen-Dollar-Gespenst einfangen: KI schreibt die Regeln der Finanzkriminalität neu

Dezember 15, 2025
LLMs zeigen deutliche kulturelle Vorurteile bei englischen und chinesischen Eingabeaufforderungen

LLMs zeigen deutliche kulturelle Vorurteile bei englischen und chinesischen Eingabeaufforderungen

Dezember 15, 2025
USENIX-Studie zeigt, dass KI-Erweiterungen medizinische Daten und Bankdaten sammeln

USENIX-Studie zeigt, dass KI-Erweiterungen medizinische Daten und Bankdaten sammeln

Dezember 15, 2025

Recent Posts

  • Google entlässt leitendes Beschaffungsteam "unmöglich" Lieferengpass bei HBM
  • 5 unverzichtbare Mac-Apps, um Ihre Produktivität im Jahr 2026 zu steigern
  • OnePlus Turbo mit 9000-mAh-Akku entdeckt
  • Porsche-Weihnachtswerbung 2025 geht viral, weil überhaupt keine KI zum Einsatz kommt
  • Xbox Cloud Gaming kommt auf Amazon Fire TV-Modelle

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.