Wenn ein Hund ein quietschendes Spielzeug oder ein Mechaniker plötzlich aufhört, mitten in den Sinne zu sprechen, brauchen Sie keine Doktorarbeit in der kognitiven Wissenschaft, um herauszufinden, was passiert-Sie sehen, hören und verstehen. Für multimodale KI -Modelle bleibt dieser einfache menschliche Reflex jedoch überraschend schwer zu replizieren. Trotz aller jüngsten Hype um „Frontier“ -Modelle wie GPT-4O und Gemini 1.5 Pro fummeln die meisten immer noch, wenn sie wirklich gezwungen sind, das zu synthetisieren, was sie sehen Und hören. Das ist genau das Problem, dass Maverix versucht, zu lösen.
Wo Benchmarks kurz fallen – und Maverix tritt ein
Die heutigen führenden multimodalen Benchmarks könnten behaupten, dass sie reale Argumentation testen, aber viele von ihnen betrügen. Sie belohnen Modelle, die mit nur Visionen oder nur Text -Transkripten auskommen können, anstatt sie zu zwingen, mehrere Sinne wie Menschen zu integrieren. Maverix (Kurz gesagt, für den multimodalen Audio-visuellen Bewertungs-Argumentationsindex) ist ein neuer Benchmark, der schließlich die Messlatte erhöht, indem er streng gekoppelte audiovisuelle Argumentation in 700 Videos und mehr als 2.500 Fragen erfordert.
Betrachten Sie es als einen Absturzkurs im gesunden Menschenverstand für KI: Wenn Sie ein Summen hören und eine Biene in der Nähe der Kamera sehen, sollten Sie wahrscheinlich „mechanisches Gerät außerhalb des Bildschirms“ ausschließen. Aber Maverix modelliert nicht nur ein paar einfache Rätsel. Es wird mit Acht-Option-Multiple-Choice-Fragen (um die Vermutung abzutöten) und offene Eingabeaufforderungen (um das wahre Verständnis zu testen) aus, um Modelle über die Mustererkennung hinaus in die vollständige kognitive Koordination zu bringen.
Fragen der realen Welt, echte menschliche Komplexität
Die Fragen von Maverix sind wie psychologische Rorschach -Tests für Maschinen konzipiert – ursächliches Denken, emotionaler Inferenz, räumliches Bewusstsein und dynamischer Kontext. Stellen Sie sich ein Video von zwei Personen vor, die sich streiten. Kämpfen sie echt, handeln in einem Film oder imitieren Sie einfach, wie WWE nach Lachen ringt? Diese Antwort könnte auf dem Schlag abhängen Und die Lachspur. Sie müssen sehen Und höre zu verstehen.
Um dies alles zum Laufen zu bringen, baute das Maverix -Team eine akribische Pipeline, die menschliches Know -how mit KI -Validierung verbindet. Jedes Video enthält Untertitel, kategorisierte Sounds (Sprache, Musik, natürliches Geräusch) und kommentierte Keyframes. Jede Frage wird überprüft, um sicherzustellen, dass unimodale Abkürzungen – wie das Lesen der Untertitel – sie nicht schneiden. Wenn ein Modell ohne beide Modalitäten antworten könnte, wird die Frage umgeschrieben oder geworfen.
Wie gut werden die heutigen AIS tatsächlich tatsächlich ausgeführt?
Nicht großartig. Trotz des direkten Zugriffs auf Audio und Video schaffte der Top -Performer – Gemini 1.5 Pro – eine Genauigkeit von rund 71,9%. Das ist nahe an Menschen, aber immer noch zurück. Menschen mit vollem audiovisuellen Eingang passen bei über 80%ein. Aber hier ist der Kicker: Einige Open-Source-Modelle knacken kaum 30%. Und wenn Sie Audio oder Video entfernen, fällt die Leistung wie ein Mikrofon ab.
Bei offenen Aufgaben, bei denen Modelle ihre eigenen Erklärungen generieren müssen, werden die Dinge chaotischer. Das durchschnittliche Modell erzielte nur 1,9 von 5 in GPT-4O-beurteilten Kohärenz und Argumentation. Menschen erzielten 2,79. Diese Lücke erweitert sich noch mehr, wenn Aufgaben komplexe emotionale Hinweise oder Off-Screen-Ereignisse beinhalten-wie er erraten, warum eine Menge Tische in einem Pokerspiel verlagert oder ob zwei Tänzer kämpfen oder nur proben.
Nicht alle Modelle kämpfen auf die gleiche Weise
Einer der aufschlussreichsten Beiträge von Maverix ist die Art und Weise, wie unterschiedliche Modelle tatsächlich enthüllt sich verlassen auf. Gemini spielt am besten, wenn es um rohe Audio geht, während die meisten anderen Modelle mit Untertiteln besser abschneiden. Das sagt viel darüber aus, was unter der Motorhaube vor sich geht – einige Modelle „Hören“, andere „lesen“. Aber keiner entspricht der Wahrnehmung auf Menschenebene auf ganzer Linie.
Interessanterweise sind Aufgaben wie einkaufen – wo strukturierte, sachliche Daten Angelegenheiten sind, wo Maschinen glänzen. Aber für Sportkommentare, Spielungsstrategie oder Interpretation menschlicher Emotionen? Menschen zerquetschen sie. Diese Lücken zeigen, dass die aktuelle KI viel besser darin ist, Kataloge zu scannen, als soziale Nuancen oder Kontext zu analysieren, die sich im Laufe der Zeit weiterentwickeln.
Schwierigkeitsniveaus sind wichtig, ebenso wie die Modalität
Einfache Aufgaben gaben durch multimodale Eingaben den größten Schub – als einige Modelle Audio und Video verwenden, um offensichtliche Antworten zu verfeinern. Aber als die Fragen schwieriger wurden, stützten sich viele Modelle stark auf Vision und ignorierten Audio. Claude 3.5 Sonett hat beispielsweise 41,5% für einfache Videos mit multimodalem Eingang verbessert, jedoch nur 17% für harte.
Dies unterstreicht ein tieferes Problem: Die meisten Modelle fugen Modalitäten nicht wirklich ab. Sie stapeln sie. Sie können ihnen sowohl Audio als auch Video geben, aber es sei denn, das Modell Bedürfnisse Beide, um die Aufgabe zu lösen, wird es einen Favoriten auswählen. Maverix zielt darauf ab, dies zu ändern, indem Fragen gestaltet werden, die eine echte Fusion erfordern – wo die Antwort das Zusammenspiel zwischen Klang und Sicht abhängt.
Um die Leistungslücke zu schließen, benötigen wir bessere Architekturen, die Audio als mehr als einen nachträglichen Gedanke behandeln. Wir brauchen neue Trainingsstrategien, die das synchronisierte Verständnis und nicht isolierte Vorhersagen belohnen. Und vor allem benötigen wir Benchmarks wie Maverix, die sich nicht damit zufrieden geben, was leicht zu messen ist, aber stellen Sie die schwierigen Fragen darüber, wie Maschinen wirklich verstehen.
Wenn Ihr KI -Assistent das nächste Mal einen einfachen Befehl durcheinander bringt oder einen Ton falsch versteht, denken Sie daran: Es ist vielleicht nicht taub – es hat den Maverix -Test noch nicht bestanden.