Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Neues Stress-Test-Framework zeigt Fehler im fortschrittlichen KI-Argumentation

byKerem Gülen
Juli 29, 2025
in Forschung
Home Forschung
Share on FacebookShare on Twitter
Google Preferred Source

Während fortschrittliche KI -Systeme als als bekannt als als große Argumentationsmodelle (LRMs) haben eine beeindruckende Leistung bei komplexen Problemlösungs-Benchmarks gezeigt, ihre wahren Argumentationsfunktionen können durch aktuelle Bewertungsmethoden überschätzt werden. Laut einem kürzlichen Artikel von Sajjad Ansari zeigt ein neuartiger Rahmen für den Stresstesting mit mehreren Problemen, dass selbst hochmoderne Modelle unter realistischeren Bedingungen kämpfen.

Der in dem Artikel beschriebene Rahmen, der detailliert ist Ruhe: Ein Rahmen für Stresstests zur Bewertung von Multi-Problem-Argumentation in großen Argumentationsmodellenwurde von Forschern der Tsinghua University, Opendatalab, Shanghai AI Laboratory und Renmin University entwickelt, um kritische Lücken in der getesteten fortgeschrittenen Modelle zu begehen.

Warum Einfragestests veraltet werden

Die meisten aktuellen Benchmarks, die zur Bewertung von LRMs verwendet wurden, wie GSM8K und Mathematik, bewerten Modelle, indem sie jeweils eine Frage stellen. Dieser Ansatz hat zwei wesentliche Nachteile, die seine Wirksamkeit für die Messung der wahren Argumentationsfähigkeit einschränken. Erstens nimmt die diskriminative Kraft dieser Benchmarks ab, da Topmodelle nahezu perfekte Bewertungen erzielen, was es schwierig macht, sinnvolle Verbesserungen zwischen ihnen zu unterscheiden. Zum Beispiel erreichen einige Modelle jetzt jetzt 97% Genauigkeit auf Benchmarks wie Math500, eine Sättigung, die die teure Erstellung von immer küfenden Datensätzen erzwingt.

Zweitens reflektieren Ein-Frage-Tests keine realen Szenarien, in denen KI-Systeme in mehreren und möglicherweise gleichzeitig störenden Problemen in Bezug auf mehrere potenziell störende Probleme behaupten müssen. Anwendungen wie technische Support-, Bildungsunterrichts- oder Multitasking -AI -Assistenten erfordern ein dynamisches kognitives Lastmanagement, eine Fähigkeit, die isolierte Tests nicht messen können. Um dies zu beheben, entwickelten die Forscher Ruhe (Argumentation Evaluation durch gleichzeitige Tests), eine Methode, die mehrere Fragen von vorhandenen Benchmarks in eine einzelne Eingabeaufforderung bündelt, um die realen Anforderungen besser zu simulieren.


Das große Paradox des AI -Vertrauens fällt, wenn sein Wert steigt


Schlüsselergebnisse aus Multi-Problem-Stresstests

Durch Anwenden des Rest -Frameworks auf 34 Fortgeschrittene LRMs enthüllten einige bahnbrechende Erkenntnisse in ihre wahren Fähigkeiten. Die Bewertung, durchgeführt auf 7 Verschiedene Benchmarks zeigten, dass sich die Leistung erheblich verschlechtert, wenn Modelle gezwungen sind, mehrere Probleme gleichzeitig zu bewältigen.

  • Signifikante Leistungsverschlechterung: Selbst Top-Performing-Modelle wie Deepseek-R1 zeigten einen bemerkenswerten Rückgang der Genauigkeit, wenn sie mit Ruhe getestet wurden. Bei herausfordernden Benchmarks wie Aime24 sank die Genauigkeit des Modells um fast 30% im Vergleich zu seiner Leistung in isolierten Fragestests.
  • Verbesserte diskriminative Kraft: REST hat die Leistungsunterschiede zwischen Modellen, die in Einzelfragestests ähnlich erschienen, dramatisch verstärkt. Auf dem Math500 -Benchmark zwei Modelle mit engen ersten Punktzahlen von 93% Und 94,6% zeigte eine massive 22% Leistungslücke unter Ruhe, mit ihren Genauigkeiten auf 66,75% Und 88,97%jeweils.
  • Trainingsmethode Erkenntnisse: Die Studie ergab, dass Modelle, die mit gemeinsamen Methoden wie Verstärkungslernen bei Einzelproblemaufgaben fein abgestimmt sind, ihren Vorteil in einem Multi-Problem-Umfeld häufig nicht beibehalten. Modelle, die mit „Long2Short“ -Techniken ausgebildet wurden, die prägnante und effizientere Argumentation fördern, hielten unter Stress eine höhere Genauigkeit auf, was auf eine vielversprechende Richtung für die zukünftige Entwicklung hinweist.

Das Rest -Framework simuliert ein hohes Hoch Kognitive BelastungErzwingen Sie Modelle zur dynamischen Zuordnung von Ressourcen, widerstehen Störungen aus gleichzeitigen Aufgaben und vermeiden Sie das Überdenken eines einzelnen Problems. Diese Methode ermöglicht auch eine differenziertere Analyse von Fehlern, die bei Einzelfragetests wie Frageblingungen unsichtbar sind, wobei ein Modell später Fragen in einer Eingabeaufforderung ignoriert, und zusammenfassende Fehler, bei denen die Antworten von mehreren Problemen falsch synthetisiert werden. Durch die Wiederbelebung vorhandener Datensätze und die Reflexion der realen Anforderungen bietet das Framework ein zuverlässigeres und zukunftssichereres Paradigma für die Bewertung von KI-Systemen der nächsten Generation.

Tags: llmLRM

Related Posts

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Juni 3, 2026
Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Mai 20, 2026
Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Mai 20, 2026
Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Mai 20, 2026
Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Mai 20, 2026
Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Mai 19, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.