Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

OpenAI -Forscher identifizieren die mathematischen Ursachen von AI -Halluzinationen

byAytun Çelebi
September 17, 2025
in Artificial Intelligence, Research
Home Artificial Intelligence
Share on FacebookShare on Twitter

Forscher von OpenAI haben ein Papier veröffentlicht, in dem es darum ging, dass Großsprachenmodelle wie Chatgpt Halluzinat halluzinieren oder zuversichtlich falsche Informationen generieren.

Die Studie Verwendet die mathematische Analyse, um zu erklären, dass Halluzinationen ein unvermeidliches Ergebnis dafür sind, wie diese Modelle Vorhersagen machen, selbst wenn sie auf perfekten Daten trainiert werden. Die primären Ursachen sind Fehlerakkumulation und fehlerhafte Bewertungsbenchmarks.

Wie sequentielle Vorhersagen zu Fehlern führen

Das Papier erklärt, dass LLMs durch einen autoregressiven Prozess arbeiten und das nächste Wort in einer Sequenz prognostizieren, basierend auf den vor denkamen gekommener Wörtern. Dadurch wird eine Kette erstellt, in der sich ein einzelner früher Fehler ausbreiten und verstärken kann, was zu einer völlig falschen Anweisung führt. Der mathematische Beweis der Forscher zeigt, dass die Fehlerrate für die Generierung eines vollständigen Satzes mindestens doppelt so hoch ist wie die Fehlerrate einer einfachen Ja/NO -Frage, einfach aufgrund dieses Compounding -Effekts. Diese strukturelle Einschränkung bedeutet, dass Halluzinationen durch Skalieren von Rechenleistung oder Verbesserung der Trainingsdaten nicht vollständig beseitigt werden können, da das Problem der prädiktiven Architektur inhärent ist. Das Problem ist schlechter für Fakten, die in den Trainingsdaten selten erscheinen. Die Studie ergab, dass etwa 20% der Geburtstage bemerkenswerter Zahlen nur einmal im Trainingssatz auftraten, was zu einer Basisfehlerrate von mindestens 20% für diese Abfragen führte. Als praktisches Beispiel fragte die Forscher hochmoderne Modelle zum Geburtstag von Adam Kalai, einem der Autoren des Papiers. Die Modelle lieferten zuversichtlich mehrere verschiedene falsche Daten und demonstrierten ein Muster der Herstellung plausible Details, um Wissenslücken zu schließen.

Bewertungsbenchmarks bestrafen Ehrlichkeit und ermutigen Sie das Vermutung

Die Studie kritisiert auch die Benchmarks, die zur Bewertung von KI -Modellen verwendet werden. Die Forscher untersuchten zehn prominente KI -Benchmarks und stellten fest, dass neun von ihnen ein Binär -Bewertungssystem verwenden: Eine Antwort ist entweder 100% korrekt oder 100% falsch. Unter diesem System erhält eine Antwort von „Ich weiß nicht“ die gleiche Punktzahl wie eine völlig falsche Antwort – Null. Diese Bewertungsmethode schafft das, was das Papier als „Epidemie“ der Bestrafung der Ehrlichkeit bezeichnet. Ein in der Studie einbezogener mathematischer Beweis zeigt, dass dieses System Modelle dazu anregt, immer eine Antwort zu erraten, da jede Vermutung eine Wahrscheinlichkeit von mehr als Null des korrekten Seins hat und somit eine höhere Punktzahl als die Enthaltung erhalten. Dies erklärt, warum selbst fortgeschrittene Modelle standardmäßig zu selbstbewussten Erfindungen als Unsicherheiten zuzugeben.

Vorgeschlagene Lösungen und der Kompromiss zwischen Genauigkeit und Benutzererfahrung

Um dies anzugehen, schlagen die OpenAI -Forscher einen neuen Ansatz vor, der die Vertrauensschätzung sowohl in das Verhalten des Modells als auch in den Bewertungsprozess integriert. Modelle würden geschult, um ihre eigene Gewissheit zu beurteilen, und würden mit einem Bewertungssystem bewertet, das falsche Antworten stärker bestraft als die korrekten Belohnungen. Beispielsweise könnte eine Eingabeaufforderung das Modell anweisen, „nur zu antworten, wenn Sie mehr als 75 Prozent zuversichtlich sind, da Fehler 3 Punkte bestraft werden, während die korrekten Antworten 1 Punkt erhalten“. Die Implementierung dies würde die Halluzinationen erheblich verringern, aber es ist mit Kosten verbunden. Das Papier schätzt, dass Modelle unter einem solchen System mit „Ich weiß nicht“ auf etwa 30% der Benutzeranfragen reagieren würden. Dies könnte frustrierend für Benutzer sein, die es gewohnt sind, eine sofortige Antwort für alles zu erhalten und sie möglicherweise zu weniger vorsichtigen Konkurrentenmodellen zu führen. Die hohen Rechenkosten für die genaue Messung der Unsicherheit machen diesen Ansatz auch für Hochvolumien-Verbraucherdienste unpraktisch. In dem Papier stellt jedoch fest, dass für professionelle Anwendungen in hohen Einsätzen in Bereichen wie Finanzen, Medizin oder Chip-Design die Kosten für einen Fehler weitaus größer sind als die Kosten für die Berechnung, was unsicherheitsbewusste Systeme nicht nur tragfähig, sondern wesentlich ist. Die Studie kommt zu dem Schluss, dass die Kernanreize bei der KI der Verbraucher, die das Engagement und die Geschwindigkeit des Benutzers priorisieren, sicherstellen, dass die Halluzinationen bis zum Verschieben dieser Prioritäten ein anhaltendes Problem bleiben.


Ausgewähltes Bildnachweis

Tags: AiForschungopenAIVorgestellt

Related Posts

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

Januar 23, 2026
Spotify führt KI-gestützte Prompted Playlists ein

Spotify führt KI-gestützte Prompted Playlists ein

Januar 22, 2026
Anthropic überarbeitet Einstellungstests dank Claude AI

Anthropic überarbeitet Einstellungstests dank Claude AI

Januar 22, 2026
Anthropic überarbeitet Claudes Verfassung mit neuen Grundsätzen der Sicherheitsethik

Anthropic überarbeitet Claudes Verfassung mit neuen Grundsätzen der Sicherheitsethik

Januar 22, 2026
YouTube führt KI-Tools zur Ähnlichkeitsverwaltung für YouTuber ein

YouTube führt KI-Tools zur Ähnlichkeitsverwaltung für YouTuber ein

Januar 22, 2026
Amazon integriert den Health AI-Assistenten in die mobile App One Medical

Amazon integriert den Health AI-Assistenten in die mobile App One Medical

Januar 22, 2026

Recent Posts

  • Barret Zoph wird den aggressiven kommerziellen Pivot von OpenAI leiten
  • Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer
  • LiveKit wird als Motor hinter dem Sprachmodus von ChatGPT mit einer Bewertung von 1 Milliarde US-Dollar bewertet
  • Vimeo beginnt nach der Übernahme von Bending Spoons mit Personalentlassungen
  • AWS und Prime Video schlagen zu, während Amazon eine neue Entlassungswelle vorbereitet

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.