Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

OpenAI -Forscher identifizieren die mathematischen Ursachen von AI -Halluzinationen

byAytun Çelebi
September 17, 2025
in Forschung, Künstliche Intelligenz
Home Forschung
Share on FacebookShare on Twitter
Google Preferred Source

Forscher von OpenAI haben ein Papier veröffentlicht, in dem es darum ging, dass Großsprachenmodelle wie Chatgpt Halluzinat halluzinieren oder zuversichtlich falsche Informationen generieren.

Die Studie Verwendet die mathematische Analyse, um zu erklären, dass Halluzinationen ein unvermeidliches Ergebnis dafür sind, wie diese Modelle Vorhersagen machen, selbst wenn sie auf perfekten Daten trainiert werden. Die primären Ursachen sind Fehlerakkumulation und fehlerhafte Bewertungsbenchmarks.

Wie sequentielle Vorhersagen zu Fehlern führen

Das Papier erklärt, dass LLMs durch einen autoregressiven Prozess arbeiten und das nächste Wort in einer Sequenz prognostizieren, basierend auf den vor denkamen gekommener Wörtern. Dadurch wird eine Kette erstellt, in der sich ein einzelner früher Fehler ausbreiten und verstärken kann, was zu einer völlig falschen Anweisung führt. Der mathematische Beweis der Forscher zeigt, dass die Fehlerrate für die Generierung eines vollständigen Satzes mindestens doppelt so hoch ist wie die Fehlerrate einer einfachen Ja/NO -Frage, einfach aufgrund dieses Compounding -Effekts. Diese strukturelle Einschränkung bedeutet, dass Halluzinationen durch Skalieren von Rechenleistung oder Verbesserung der Trainingsdaten nicht vollständig beseitigt werden können, da das Problem der prädiktiven Architektur inhärent ist. Das Problem ist schlechter für Fakten, die in den Trainingsdaten selten erscheinen. Die Studie ergab, dass etwa 20% der Geburtstage bemerkenswerter Zahlen nur einmal im Trainingssatz auftraten, was zu einer Basisfehlerrate von mindestens 20% für diese Abfragen führte. Als praktisches Beispiel fragte die Forscher hochmoderne Modelle zum Geburtstag von Adam Kalai, einem der Autoren des Papiers. Die Modelle lieferten zuversichtlich mehrere verschiedene falsche Daten und demonstrierten ein Muster der Herstellung plausible Details, um Wissenslücken zu schließen.

Bewertungsbenchmarks bestrafen Ehrlichkeit und ermutigen Sie das Vermutung

Die Studie kritisiert auch die Benchmarks, die zur Bewertung von KI -Modellen verwendet werden. Die Forscher untersuchten zehn prominente KI -Benchmarks und stellten fest, dass neun von ihnen ein Binär -Bewertungssystem verwenden: Eine Antwort ist entweder 100% korrekt oder 100% falsch. Unter diesem System erhält eine Antwort von „Ich weiß nicht“ die gleiche Punktzahl wie eine völlig falsche Antwort – Null. Diese Bewertungsmethode schafft das, was das Papier als „Epidemie“ der Bestrafung der Ehrlichkeit bezeichnet. Ein in der Studie einbezogener mathematischer Beweis zeigt, dass dieses System Modelle dazu anregt, immer eine Antwort zu erraten, da jede Vermutung eine Wahrscheinlichkeit von mehr als Null des korrekten Seins hat und somit eine höhere Punktzahl als die Enthaltung erhalten. Dies erklärt, warum selbst fortgeschrittene Modelle standardmäßig zu selbstbewussten Erfindungen als Unsicherheiten zuzugeben.

Vorgeschlagene Lösungen und der Kompromiss zwischen Genauigkeit und Benutzererfahrung

Um dies anzugehen, schlagen die OpenAI -Forscher einen neuen Ansatz vor, der die Vertrauensschätzung sowohl in das Verhalten des Modells als auch in den Bewertungsprozess integriert. Modelle würden geschult, um ihre eigene Gewissheit zu beurteilen, und würden mit einem Bewertungssystem bewertet, das falsche Antworten stärker bestraft als die korrekten Belohnungen. Beispielsweise könnte eine Eingabeaufforderung das Modell anweisen, „nur zu antworten, wenn Sie mehr als 75 Prozent zuversichtlich sind, da Fehler 3 Punkte bestraft werden, während die korrekten Antworten 1 Punkt erhalten“. Die Implementierung dies würde die Halluzinationen erheblich verringern, aber es ist mit Kosten verbunden. Das Papier schätzt, dass Modelle unter einem solchen System mit „Ich weiß nicht“ auf etwa 30% der Benutzeranfragen reagieren würden. Dies könnte frustrierend für Benutzer sein, die es gewohnt sind, eine sofortige Antwort für alles zu erhalten und sie möglicherweise zu weniger vorsichtigen Konkurrentenmodellen zu führen. Die hohen Rechenkosten für die genaue Messung der Unsicherheit machen diesen Ansatz auch für Hochvolumien-Verbraucherdienste unpraktisch. In dem Papier stellt jedoch fest, dass für professionelle Anwendungen in hohen Einsätzen in Bereichen wie Finanzen, Medizin oder Chip-Design die Kosten für einen Fehler weitaus größer sind als die Kosten für die Berechnung, was unsicherheitsbewusste Systeme nicht nur tragfähig, sondern wesentlich ist. Die Studie kommt zu dem Schluss, dass die Kernanreize bei der KI der Verbraucher, die das Engagement und die Geschwindigkeit des Benutzers priorisieren, sicherstellen, dass die Halluzinationen bis zum Verschieben dieser Prioritäten ein anhaltendes Problem bleiben.


Ausgewähltes Bildnachweis

Tags: AiForschungopenAIVorgestellt

Related Posts

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Juni 3, 2026
Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Juni 3, 2026
Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Juni 3, 2026
Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Juni 3, 2026
OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

Juni 3, 2026
Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Juni 2, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.