Das Allen Institute for AI (Ai2) hat Molmo veröffentlicht, eine innovative Reihe von Open-Source-Multimodalmodellen, die den richtungsweisenden Einfluss proprietärer KI-Systeme in Frage stellen. Mit Stärken in überlegener Bilderkennung und umsetzbaren Erkenntnissen ist Molmo bereit, Entwickler, Forscher und Startups zu unterstützen, indem es ein fortschrittliches und dennoch benutzerfreundliches Tool zur Entwicklung von KI-Anwendungen bereitstellt. Die Einführung lenkt die Aufmerksamkeit auf eine wichtige Veränderung in der KI-Landschaft, indem Open-Source- und proprietäre Modelle vereint werden und jedermanns Zugang zu führender KI-Technologie verbessert wird.
Molmo bietet Funktionen, die ein außergewöhnliches Maß an Bildverständnis bieten und es ihm ermöglichen, eine Vielzahl visueller Daten korrekt zu lesen – von alltäglichen Gegenständen bis hin zu komplexen Diagrammen und Menüs. Anstatt wie die meisten KI-ModelleMolmo übertrifft die Wahrnehmung, indem es Benutzern ermöglicht, durch Zeigen und eine Reihe räumlicher Aktionen mit virtuellen und realen Umgebungen zu interagieren. Diese Fähigkeit stellt einen Durchbruch dar und ermöglicht die Einführung komplexer KI-Agenten, Roboter und vieler anderer Anwendungen, die auf einem detaillierten Verständnis sowohl visueller als auch kontextbezogener Daten beruhen.
Effizienz und Zugänglichkeit sind die Hauptaspekte der Molmo-Entwicklungsstrategie. Molmos fortschrittliche Fähigkeiten basieren auf einem Datensatz von weniger als einer Million Bildern, im Gegensatz zu den Milliarden von Bildern, die von anderen Modellen wie GPT-4V und Googles Zwillinge. Der implementierte Ansatz hat dazu beigetragen, dass Molmo nicht nur hocheffizient Rechenressourcen nutzt, sondern auch ein Modell geschaffen hat, das ebenso leistungsstark ist wie die effektivsten proprietären Systeme und weniger Halluzinationen und schnellere Trainingsraten aufweist.
Die vollständige Open-Source-Veröffentlichung von Molmo ist Teil der größeren strategischen Anstrengung von Ai2, die KI-Entwicklung zu demokratisieren. Ai2 ermöglicht es einem breiten Spektrum von Benutzern – von Startups bis hin zu akademischen Laboren –, ohne hohe Investitionskosten oder enorme Rechenleistung Innovationen und Fortschritte in der KI-Technologie zu erzielen. Es gibt ihnen Zugriff auf Molmos Sprach- und Bildtrainingsdaten, Modellgewichte und Quellcode.
Matt Deitke, Forscher am Allen Institute for AI, sagte „Molmo ist ein unglaubliches KI-Modell mit außergewöhnlichem visuellen Verständnis, das die Grenzen der KI-Entwicklung erweitert, indem es ein Paradigma für die Interaktion der KI mit der Welt durch Zeigen einführt. Die Leistung des Modells wird durch einen kuratierten Datensatz von bemerkenswert hoher Qualität angetrieben, der der KI beibringt, Bilder durch Text zu verstehen. Das Training ist so viel schneller, billiger und einfacher als das, was heute gemacht wird, sodass die offene Veröffentlichung der Konstruktionsweise die gesamte KI-Community, von Startups bis hin zu akademischen Labors, befähigen wird, an der Spitze der KI-Entwicklung zu arbeiten.“
Laut internen Auswertungen übertraf Molmos größtes Modell mit 72 Milliarden Parametern OpenAIs GPT-4V und andere führende Konkurrenten bei mehreren Benchmarks. Das kleinste Molmo-Modell mit nur einer Milliarde Parametern ist groß genug, um auf einem mobilen Gerät zu funktionieren und übertrifft dabei Modelle mit der zehnfachen Anzahl an Parametern. Hier Sie können die Modelle sehen und probieren Sie es selbst aus.