Forscher von OpenAI haben ein Papier veröffentlicht, in dem es darum ging, dass Großsprachenmodelle wie Chatgpt Halluzinat halluzinieren oder zuversichtlich falsche Informationen generieren.
Die Studie Verwendet die mathematische Analyse, um zu erklären, dass Halluzinationen ein unvermeidliches Ergebnis dafür sind, wie diese Modelle Vorhersagen machen, selbst wenn sie auf perfekten Daten trainiert werden. Die primären Ursachen sind Fehlerakkumulation und fehlerhafte Bewertungsbenchmarks.
Wie sequentielle Vorhersagen zu Fehlern führen
Das Papier erklärt, dass LLMs durch einen autoregressiven Prozess arbeiten und das nächste Wort in einer Sequenz prognostizieren, basierend auf den vor denkamen gekommener Wörtern. Dadurch wird eine Kette erstellt, in der sich ein einzelner früher Fehler ausbreiten und verstärken kann, was zu einer völlig falschen Anweisung führt. Der mathematische Beweis der Forscher zeigt, dass die Fehlerrate für die Generierung eines vollständigen Satzes mindestens doppelt so hoch ist wie die Fehlerrate einer einfachen Ja/NO -Frage, einfach aufgrund dieses Compounding -Effekts. Diese strukturelle Einschränkung bedeutet, dass Halluzinationen durch Skalieren von Rechenleistung oder Verbesserung der Trainingsdaten nicht vollständig beseitigt werden können, da das Problem der prädiktiven Architektur inhärent ist. Das Problem ist schlechter für Fakten, die in den Trainingsdaten selten erscheinen. Die Studie ergab, dass etwa 20% der Geburtstage bemerkenswerter Zahlen nur einmal im Trainingssatz auftraten, was zu einer Basisfehlerrate von mindestens 20% für diese Abfragen führte. Als praktisches Beispiel fragte die Forscher hochmoderne Modelle zum Geburtstag von Adam Kalai, einem der Autoren des Papiers. Die Modelle lieferten zuversichtlich mehrere verschiedene falsche Daten und demonstrierten ein Muster der Herstellung plausible Details, um Wissenslücken zu schließen.
Bewertungsbenchmarks bestrafen Ehrlichkeit und ermutigen Sie das Vermutung
Die Studie kritisiert auch die Benchmarks, die zur Bewertung von KI -Modellen verwendet werden. Die Forscher untersuchten zehn prominente KI -Benchmarks und stellten fest, dass neun von ihnen ein Binär -Bewertungssystem verwenden: Eine Antwort ist entweder 100% korrekt oder 100% falsch. Unter diesem System erhält eine Antwort von „Ich weiß nicht“ die gleiche Punktzahl wie eine völlig falsche Antwort – Null. Diese Bewertungsmethode schafft das, was das Papier als „Epidemie“ der Bestrafung der Ehrlichkeit bezeichnet. Ein in der Studie einbezogener mathematischer Beweis zeigt, dass dieses System Modelle dazu anregt, immer eine Antwort zu erraten, da jede Vermutung eine Wahrscheinlichkeit von mehr als Null des korrekten Seins hat und somit eine höhere Punktzahl als die Enthaltung erhalten. Dies erklärt, warum selbst fortgeschrittene Modelle standardmäßig zu selbstbewussten Erfindungen als Unsicherheiten zuzugeben.
Vorgeschlagene Lösungen und der Kompromiss zwischen Genauigkeit und Benutzererfahrung
Um dies anzugehen, schlagen die OpenAI -Forscher einen neuen Ansatz vor, der die Vertrauensschätzung sowohl in das Verhalten des Modells als auch in den Bewertungsprozess integriert. Modelle würden geschult, um ihre eigene Gewissheit zu beurteilen, und würden mit einem Bewertungssystem bewertet, das falsche Antworten stärker bestraft als die korrekten Belohnungen. Beispielsweise könnte eine Eingabeaufforderung das Modell anweisen, „nur zu antworten, wenn Sie mehr als 75 Prozent zuversichtlich sind, da Fehler 3 Punkte bestraft werden, während die korrekten Antworten 1 Punkt erhalten“. Die Implementierung dies würde die Halluzinationen erheblich verringern, aber es ist mit Kosten verbunden. Das Papier schätzt, dass Modelle unter einem solchen System mit „Ich weiß nicht“ auf etwa 30% der Benutzeranfragen reagieren würden. Dies könnte frustrierend für Benutzer sein, die es gewohnt sind, eine sofortige Antwort für alles zu erhalten und sie möglicherweise zu weniger vorsichtigen Konkurrentenmodellen zu führen. Die hohen Rechenkosten für die genaue Messung der Unsicherheit machen diesen Ansatz auch für Hochvolumien-Verbraucherdienste unpraktisch. In dem Papier stellt jedoch fest, dass für professionelle Anwendungen in hohen Einsätzen in Bereichen wie Finanzen, Medizin oder Chip-Design die Kosten für einen Fehler weitaus größer sind als die Kosten für die Berechnung, was unsicherheitsbewusste Systeme nicht nur tragfähig, sondern wesentlich ist. Die Studie kommt zu dem Schluss, dass die Kernanreize bei der KI der Verbraucher, die das Engagement und die Geschwindigkeit des Benutzers priorisieren, sicherstellen, dass die Halluzinationen bis zum Verschieben dieser Prioritäten ein anhaltendes Problem bleiben.




