Eine Studie zum ChatGPT-5-Modell von OpenAI ergab, dass es in ungefähr 25% der Fälle falsche Antworten generiert. Die Forschung führt diese Ungenauigkeiten auf inhärente Einschränkungen in den Trainingsdaten des Modells und der probabilistischen Architektur des Modells zu, wie in einem Tom -Leitfadenbericht beschrieben. Das Modell zeigt eine bemerkenswerte Verringerung der Fehler im Vergleich zu seinem Vorgänger GPT-4 und registriert 45% weniger sachliche Fehler und sechsmal weniger Fälle von „halluzinierten“ oder vollständig hergestellten Antworten. Trotz dieser Fortschritte bestätigt die Studie, dass ChatGPT-5 immer noch ein Überbewusstsein aufweisen kann, ein Phänomen, bei dem es sachlich falsche Informationen mit einem hohen Maß an Sicherheit darstellt. Diese Beharrlichkeit der Halluzination bleibt zwar verringert, aber ein zentrales Problem, das sich auf die Zuverlässigkeit auswirkt. Die Leistungsgenauigkeit variiert je nach spezifischer Domäne der Aufgabe erheblich. Zum Beispiel erzielte das Modell einen Genauigkeitswert von 94,6% für den Aime-Mathematik-Test 2025 und eine Erfolgsrate von 74,9% bei einer Reihe von Codierungszuweisungen in der realen Welt. Die Forschung zeigt, dass bei Aufgaben, die allgemeines Wissen beinhalten oder komplexe, mehrstufige Argumentation erfordern, bei denen die Leistung des Modells weniger konsistent ist. Bei der Bewertung des MMLU Pro-Benchmarks, einem strengen akademischen Test, der eine breite Palette von Themen wie Naturwissenschaften, Mathematik und Geschichte abdeckt, erzielte Chatgpt-5 eine Genauigkeit von ungefähr 87%. Die Studie identifiziert mehrere zugrunde liegende Ursachen für die verbleibenden Fehler. Dazu gehören die Unfähigkeit, nuancierte Fragen vollständig zu verstehen, sich auf Schulungsdaten zu verlassen, die möglicherweise veraltet oder unvollständig sind, sowie das grundlegende Design des Modells als probabilistische Mustervorhersagemechanismus, der Antworten erzeugen kann, die plausibel, aber nicht sachlich korrekt sind. Basierend auf diesen Ergebnissen empfiehlt der Bericht den Benutzern, alle von ChatGPT-5 erstellten kritischen Informationen unabhängig zu überprüfen. Diese Empfehlung ist besonders für professionelle, akademische oder gesundheitsbezogene Anfragen relevant, bei denen Präzision unerlässlich ist. Die konsistente Fehlerrate unterstreicht auch bei deutlichen Verbesserungen die Notwendigkeit vorsichtiger Verwendung und externe Validierung der Ausgaben des Modells.