Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

byKerem Gülen
Mai 14, 2025
in Research
Home Research

Moderne KI -Modelle rechnen mit spannender Geschwindigkeit vor, aber die Art und Weise, wie wir sie bewerten, hat kaum Schritt gehalten. Traditionelle Benchmarks sagen uns, ob ein Modell einen Test bestanden oder nicht geschafft hat, aber selten Einblicke in die Art und Weise, warum es so ausgeführt hat, wie es es getan hat oder wie es sich um unbekannte Herausforderungen handelt. Eine neue Forschungsanstrengung von Microsoft und seinen Mitarbeitern schlägt einen strengen Rahmen vor, der die Bewertung von KI -Systemen neu interpretiert.

Bewertung der KI an dem, was sie wissen muss

Die Kerninnovation eingeführt In dieser Studie wird ein Rahmen genannt Adele, kurz für Annotierte-Demand-Ebene. Anstatt Modelle isoliert zu testen, bewertet ADELE sowohl das Modell als auch die Aufgabe auf demselben Satz kognitiver und wissensbasierter Skalen. Das Ergebnis ist ein umfassendes Profil, das erfasst, wie anspruchsvoll eine Aufgabe ist und ob ein bestimmtes KI -System über die erforderlichen Funktionen verfügt, die für die Behandlung erforderlich sind.

Adele arbeitet über 18 Allgemeine SkalenJeder spiegelt einen Schlüsselaspekt des kognitiven oder Domänenwissens wie Argumentation, Aufmerksamkeit oder formales Fachwissen wider. Die Aufgaben werden in jeder Dimension von 0 bis 5 bewertet, was darauf hinweist, wie viel diese Fähigkeit zum erfolgreichen Aufgabenabschluss beiträgt. Diese doppelte Annotation erstellt eine Art Kompatibilitätsbewertung zwischen Modellen und Aufgaben, sodass die Ergebnisse vorhergesagt und Misserfolge vorhergesagt werden können, bevor sie eintreten.

Microsoft Adele möchte Ihrer KI ein C -kognitiver Profil geben
Bild: Microsoft

Was Adele auszeichnet, ist seine Grundlage in der Psychometrie – ein Feld, das sich mit der Messung der menschlichen Fähigkeiten befasst. Durch die Anpassung dieser menschlichen Bewertungsinstrumente für KI haben die Forscher einen Rahmen erstellt, der von automatisierten Systemen zuverlässig verwendet werden kann. Adele wurde auf 63 Aufgaben von 20 etablierten AI -Benchmarks angewendet, die mehr als 16.000 Beispiele. Die Forscher verwendeten dann diesen Datensatz, um zu bewerten 15 große Sprachmodelle, darunter Branchenführer wie GPT-4, Lama-3.1-405b und Deepseek-R1-Dist-Qwen-32b.

Der Prozess erzeugte Fähigkeitsprofile für jedes Modell. Diese Profile veranschaulichen, wie die Erfolgsraten mit der Komplexität der Aufgaben in verschiedenen Fähigkeiten variieren und ein detailliertes Verständnis der Modellfunktionen bieten. Radardiagramme visualisieren diese Profile über die 18 -Fähigkeitsabmessungen hinweg und zeigen nuancierte Muster, die die Rohbenchmark -Scores allein nicht können.

Diese umfangreiche Bewertung tauchte auf mehrere Ergebnisse auf, die die aktuellen Annahmen über die Leistung und den Fortschritt der KI in Frage stellen.

  1. Erste, Bestehende KI -Benchmarks testen oft nicht, was sie behaupten. Beispielsweise kann für ein Benchmark, das für logisches Denken entwickelt wurde, auch Nischendomänenwissen oder ein hohes Maß an Metakognition erfordern, wodurch der beabsichtigte Fokus verwässert wird.
  2. Zweite, Das Team entdeckte unterschiedliche Fähigkeitsmuster in Großsprachenmodellen. Argumentationsmodelle übertrafen andere in Aufgaben, die Logik, Abstraktion und das Verständnis des sozialen Kontextes beinhalteten, konsequent übertroffen. Die Rohgröße allein garantierte jedoch keine Überlegenheit. Nach einem bestimmten Punkt führten die Skalierung von Modellen in vielen Fähigkeitsbereichen abnehmende Renditen. Trainingstechniken und Modelldesign schienen eine größere Rolle bei der Verfeinerung der Leistung in bestimmten kognitiven Domänen zu spielen.
  3. Dritte, Und vielleicht am deutlichsten, ermöglichte Adele genaue Vorhersagen über den Modellerfolg bei unbekannten Aufgaben. Durch den Vergleich von Aufgabenanforderungen mit Modellfähigkeiten erreichten die Forscher Vorhersagegenauigkeiten von bis zu 88 Prozent. Dies stellt einen wesentlichen Sprung über Black-Box-Ansätze dar, der sich auf Einbettung oder fein abgestimmte Bewertungen beruht, ohne dass Aufgabenschwierigkeiten oder Modellkognition verstanden werden.
Microsoft Adele möchte Ihrer KI ein C -kognitiver Profil geben
Bild: Microsoft

Unter Verwendung des Ansatzes für Fähigkeits-Demand-Matching entwickelte das Team ein System, das das KI-Verhalten in einer Vielzahl von Szenarien prognostiziert. Unabhängig davon, ob es sich bei neuen Benchmarks oder realen Herausforderungen angewendet hat, bietet dieses System eine strukturierte und interpretierbare Methode zur Erwartung von Fehlern und zur Identifizierung geeigneter Modelle für bestimmte Anwendungsfälle. Diese Vorhersagefähigkeit ist besonders in Umgebungen mit hohen Einsätzen relevant, in denen Zuverlässigkeit und Rechenschaftspflicht nicht verhandelbar sind.

Anstatt KI auf der Grundlage des allgemeinen Reputation oder begrenzten Aufgabenergebnisses einzusetzen, können Entwickler und Entscheidungsträger nun Bewertungen auf Nachfrageebene anwenden, um Systeme mit weitaus größerem Vertrauen abzustimmen. Dies unterstützt nicht nur eine zuverlässigere Umsetzung, sondern auch eine bessere Governance, da die Stakeholder das Modellverhalten auf messbare Fähigkeiten und Einschränkungen zurückverfolgen können.


Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?


Die Auswirkungen von Adele erstrecken sich über Forschungslabors hinaus. Diese Bewertungsmethode bietet eine Grundlage für standardisierte, interpretierbare Bewertungen, die alles von der KI -Forschung und der Produktentwicklung bis hin zu regulatorischen Aufsicht und dem öffentlichen Vertrauen unterstützen können. Da die allgemeine KI in Sektoren wie Bildung, Gesundheitswesen und Recht eingebettet wird, wird das Verständnis, wie Modelle außerhalb ihres Trainingskontexts sich verhalten, nicht nur nützlich, sondern auch wesentlich.

Adeles modulares Design ermöglicht es, an multimodale und verkörperte Systeme angepasst zu werden, wodurch seine Relevanz weiter erweitert wird. Es stimmt mit der breiteren Position von Microsoft in Bezug auf die Bedeutung der Psychometrie in AI und Echoes -Aufrufen in jüngsten White Papers für transparentere, übertragbare und vertrauenswürdige AI -Bewertungsinstrumente aus.

Auf intelligentere Bewertungsstandards

Bei allen Optimismus um Fundamentmodelle war eines der drohenden Risiken der Mangel an sinnvollen Bewertungspraktiken. Benchmarks haben Fortschritte gemacht, aber sie haben unsere Sichtbarkeit auch in das, was Modelle tatsächlich verstehen oder wie sie sich in unerwarteten Situationen verhalten könnten. Mit Adele haben wir jetzt einen Weg, dies zu ändern.

Diese Arbeit richtet die Bewertung nicht als Checkliste der Bewertungen, sondern als dynamische Wechselwirkung zwischen Systemen und Aufgaben neu. Durch die Behandlung der Leistung als Funktion der Anpassung der Nachfrage und der Anpassung ist die Grundlage für ein wissenschaftlicheres, zuverlässigeres und differenzierteres Verständnis der KI-Fähigkeiten. Diese Stiftung ist nicht nur für den technischen Fortschritt, sondern auch für die verantwortungsvolle Einführung von KI in komplexen menschlichen Kontexten von entscheidender Bedeutung.


Ausgewähltes Bildnachweis

Tags: AiMicrosoftVorgestellt

Related Posts

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

Mai 14, 2025
Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Mai 14, 2025
Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Mai 14, 2025
Forschung: Der Goldstandard für die Genai -Bewertung

Forschung: Der Goldstandard für die Genai -Bewertung

Mai 12, 2025
KI löst endlich das härteste Puzzle der Biologie

KI löst endlich das härteste Puzzle der Biologie

Mai 6, 2025

Recent Posts

  • KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen
  • Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?
  • Microsofts Adele möchte Ihrer KI ein kognitives Profil geben
  • Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten
  • Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.