Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Maverix: Warum Ihre KI nicht hören kann, was Sie sehen

byKerem Gülen
April 1, 2025
in Research
Home Research

Wenn ein Hund ein quietschendes Spielzeug oder ein Mechaniker plötzlich aufhört, mitten in den Sinne zu sprechen, brauchen Sie keine Doktorarbeit in der kognitiven Wissenschaft, um herauszufinden, was passiert-Sie sehen, hören und verstehen. Für multimodale KI -Modelle bleibt dieser einfache menschliche Reflex jedoch überraschend schwer zu replizieren. Trotz aller jüngsten Hype um „Frontier“ -Modelle wie GPT-4O und Gemini 1.5 Pro fummeln die meisten immer noch, wenn sie wirklich gezwungen sind, das zu synthetisieren, was sie sehen Und hören. Das ist genau das Problem, dass Maverix versucht, zu lösen.

Wo Benchmarks kurz fallen – und Maverix tritt ein

Die heutigen führenden multimodalen Benchmarks könnten behaupten, dass sie reale Argumentation testen, aber viele von ihnen betrügen. Sie belohnen Modelle, die mit nur Visionen oder nur Text -Transkripten auskommen können, anstatt sie zu zwingen, mehrere Sinne wie Menschen zu integrieren. Maverix (Kurz gesagt, für den multimodalen Audio-visuellen Bewertungs-Argumentationsindex) ist ein neuer Benchmark, der schließlich die Messlatte erhöht, indem er streng gekoppelte audiovisuelle Argumentation in 700 Videos und mehr als 2.500 Fragen erfordert.

Betrachten Sie es als einen Absturzkurs im gesunden Menschenverstand für KI: Wenn Sie ein Summen hören und eine Biene in der Nähe der Kamera sehen, sollten Sie wahrscheinlich „mechanisches Gerät außerhalb des Bildschirms“ ausschließen. Aber Maverix modelliert nicht nur ein paar einfache Rätsel. Es wird mit Acht-Option-Multiple-Choice-Fragen (um die Vermutung abzutöten) und offene Eingabeaufforderungen (um das wahre Verständnis zu testen) aus, um Modelle über die Mustererkennung hinaus in die vollständige kognitive Koordination zu bringen.

Fragen der realen Welt, echte menschliche Komplexität

Die Fragen von Maverix sind wie psychologische Rorschach -Tests für Maschinen konzipiert – ursächliches Denken, emotionaler Inferenz, räumliches Bewusstsein und dynamischer Kontext. Stellen Sie sich ein Video von zwei Personen vor, die sich streiten. Kämpfen sie echt, handeln in einem Film oder imitieren Sie einfach, wie WWE nach Lachen ringt? Diese Antwort könnte auf dem Schlag abhängen Und die Lachspur. Sie müssen sehen Und höre zu verstehen.

Um dies alles zum Laufen zu bringen, baute das Maverix -Team eine akribische Pipeline, die menschliches Know -how mit KI -Validierung verbindet. Jedes Video enthält Untertitel, kategorisierte Sounds (Sprache, Musik, natürliches Geräusch) und kommentierte Keyframes. Jede Frage wird überprüft, um sicherzustellen, dass unimodale Abkürzungen – wie das Lesen der Untertitel – sie nicht schneiden. Wenn ein Modell ohne beide Modalitäten antworten könnte, wird die Frage umgeschrieben oder geworfen.

Wie gut werden die heutigen AIS tatsächlich tatsächlich ausgeführt?

Nicht großartig. Trotz des direkten Zugriffs auf Audio und Video schaffte der Top -Performer – Gemini 1.5 Pro – eine Genauigkeit von rund 71,9%. Das ist nahe an Menschen, aber immer noch zurück. Menschen mit vollem audiovisuellen Eingang passen bei über 80%ein. Aber hier ist der Kicker: Einige Open-Source-Modelle knacken kaum 30%. Und wenn Sie Audio oder Video entfernen, fällt die Leistung wie ein Mikrofon ab.

Bei offenen Aufgaben, bei denen Modelle ihre eigenen Erklärungen generieren müssen, werden die Dinge chaotischer. Das durchschnittliche Modell erzielte nur 1,9 von 5 in GPT-4O-beurteilten Kohärenz und Argumentation. Menschen erzielten 2,79. Diese Lücke erweitert sich noch mehr, wenn Aufgaben komplexe emotionale Hinweise oder Off-Screen-Ereignisse beinhalten-wie er erraten, warum eine Menge Tische in einem Pokerspiel verlagert oder ob zwei Tänzer kämpfen oder nur proben.

Nicht alle Modelle kämpfen auf die gleiche Weise

Einer der aufschlussreichsten Beiträge von Maverix ist die Art und Weise, wie unterschiedliche Modelle tatsächlich enthüllt sich verlassen auf. Gemini spielt am besten, wenn es um rohe Audio geht, während die meisten anderen Modelle mit Untertiteln besser abschneiden. Das sagt viel darüber aus, was unter der Motorhaube vor sich geht – einige Modelle „Hören“, andere „lesen“. Aber keiner entspricht der Wahrnehmung auf Menschenebene auf ganzer Linie.

Interessanterweise sind Aufgaben wie einkaufen – wo strukturierte, sachliche Daten Angelegenheiten sind, wo Maschinen glänzen. Aber für Sportkommentare, Spielungsstrategie oder Interpretation menschlicher Emotionen? Menschen zerquetschen sie. Diese Lücken zeigen, dass die aktuelle KI viel besser darin ist, Kataloge zu scannen, als soziale Nuancen oder Kontext zu analysieren, die sich im Laufe der Zeit weiterentwickeln.

Schwierigkeitsniveaus sind wichtig, ebenso wie die Modalität

Einfache Aufgaben gaben durch multimodale Eingaben den größten Schub – als einige Modelle Audio und Video verwenden, um offensichtliche Antworten zu verfeinern. Aber als die Fragen schwieriger wurden, stützten sich viele Modelle stark auf Vision und ignorierten Audio. Claude 3.5 Sonett hat beispielsweise 41,5% für einfache Videos mit multimodalem Eingang verbessert, jedoch nur 17% für harte.

Dies unterstreicht ein tieferes Problem: Die meisten Modelle fugen Modalitäten nicht wirklich ab. Sie stapeln sie. Sie können ihnen sowohl Audio als auch Video geben, aber es sei denn, das Modell Bedürfnisse Beide, um die Aufgabe zu lösen, wird es einen Favoriten auswählen. Maverix zielt darauf ab, dies zu ändern, indem Fragen gestaltet werden, die eine echte Fusion erfordern – wo die Antwort das Zusammenspiel zwischen Klang und Sicht abhängt.

Um die Leistungslücke zu schließen, benötigen wir bessere Architekturen, die Audio als mehr als einen nachträglichen Gedanke behandeln. Wir brauchen neue Trainingsstrategien, die das synchronisierte Verständnis und nicht isolierte Vorhersagen belohnen. Und vor allem benötigen wir Benchmarks wie Maverix, die sich nicht damit zufrieden geben, was leicht zu messen ist, aber stellen Sie die schwierigen Fragen darüber, wie Maschinen wirklich verstehen.

Wenn Ihr KI -Assistent das nächste Mal einen einfachen Befehl durcheinander bringt oder einen Ton falsch versteht, denken Sie daran: Es ist vielleicht nicht taub – es hat den Maverix -Test noch nicht bestanden.

 

Tags: AiMaverixVorgestellt

Related Posts

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

Mai 14, 2025
Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Mai 14, 2025
Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Mai 14, 2025
Forschung: Der Goldstandard für die Genai -Bewertung

Forschung: Der Goldstandard für die Genai -Bewertung

Mai 12, 2025

Recent Posts

  • Databricks -Wetten auf serverlose Postgres mit seiner Akquisition von 1 Milliarde US -Dollar
  • Alphaevolve: Wie Googles neue KI mit Selbstkorrektur auf die Wahrheit strebt
  • TIKTOK implementiert AI-generierte ALT-Texte, um eine bessere Akzierbarkeit zu erhalten
  • Trump zwingt Apple, seine indische iPhone -Strategie in Indien zu überdenken
  • Die KI von YouTube weiß jetzt, wann Sie kurz vor dem Kauf sind

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.