Meta hat die Produktionsversion von Llama 3.2 angekündigt, einer beispiellosen Sammlung kostenloser und quelloffener Modelle künstlicher Intelligenz, die darauf abzielen, die Zukunft der maschinellen Intelligenz flexibel und effizient zu gestalten.
Da Unternehmen nach apokalyptischen KI-Lösungen suchen, die auf der gängigsten oder beliebtesten Hardware funktionieren, um Lösungen sowohl für große Unternehmen als auch für unabhängige Firmen zu entwickeln, bietet Llama 3.2 neue Modelle.
Der Fokus von Llama 3.2 auf Edge- und Mobilgeräte
Die Betonung von Grenzen und Mobilität ist bei Meta deutlich zu erkennen.
Zu den neuen Funktionen dieser Version gehört, dass die Entwickler kleine und mittelgroße Vision-LLMs hinzugefügt haben: 11B und 90B, und außerdem reine Textalternativen eingeführt haben, 1B und 3B.
Insbesondere sind die hier vorgestellten neuen Modelle auf den Betrieb von Edge-Geräten ausgerichtet und machen die KI-Technologie so mehr Kunden zugänglich. Die leichten Nur-Text-Modelle, insbesondere jene ohne visuelle Daten, sind aufgrund der geringen Rechenleistung für einfachere Aufgaben wie Zusammenfassung und Befolgen von Anweisungen konzipiert.
Aufgrund der zentralen Datenverarbeitung auf mobilen Geräten und der lokalen Ausführung werden keine Daten in die Cloud hochgeladen, wie Meta angibt.
„Die lokale Ausführung auf mobilen Geräten stellt sicher, dass die Daten auf dem Gerät verbleiben. Dies verbessert die Privatsphäre der Benutzer, da eine Cloud-basierte Verarbeitung vermieden wird.“
Diese Funktion ist besonders nützlich für Anwendungen, die vertrauliche Daten verarbeiten, da sie es der Anwendung ermöglicht, wichtige Aufgaben auszuführen und gleichzeitig die Vertraulichkeit der Daten zu wahren. Beispielsweise können Benutzer auf persönliche Nachrichten antworten, während sie diese zusammenfassen, oder Aufgabenlistenelemente aus Besprechungen abrufen, ohne Nachrichten an externe Server weiterleiten zu müssen.
Fortschritte in der Modellarchitektur
Die bedeutendste Änderung in Llama 3.2 sind verschiedene architektonische Verbesserungen. Die neuen Modelle verwenden eine adapterbasierte Architektur, die Bildencoder ohne Änderungen mit vorab trainierten Textmodellen kombinieren kann. Diese Integration führt zu Verbesserungen der Argumentationsfähigkeit sowohl im Text- als auch im Bildbereich und erweitert den Anwendungsbereich dieser Modelle erheblich.
Die daraus resultierenden vorab trainierten Modelle wurden einer strengen Feinabstimmung unterzogen, bei der umfangreiche, verrauschte Bild-Text-Paardaten verwendet wurden.
Llama 3.2 11B & 90B unterstützen eine Reihe multimodaler Vision-Aufgaben. Diese Funktionen ermöglichen Szenarien wie das Beschriften von Bildern für die Barrierefreiheit, das Bereitstellen natürlicher Spracheinblicke basierend auf Datenvisualisierungen und mehr. pic.twitter.com/8kwTopytaf
— KI bei Meta (@AIatMeta) 25. September 2024
Es gibt eine wichtige Ergänzung zur Token-Kontextlänge, und sie stieg auf einen sehr beeindruckenden 128.000 für die leichten Modelle 1B und 3B. Es ermöglicht die Übertragung größerer Datenmengen, was besonders bei langen Dokumenten und komplexen Denkprozessen von Vorteil ist.
Diese Fähigkeit, so große Eingabemengen zu verarbeiten, verschafft Llama 3.2 einen Vorteil gegenüber Wettbewerbern auf dem dynamischen KI-Markt, der dominiert wird von Die GPT-Modelle von OpenAI.
Wie steht es mit den Leistungskennzahlen?
Die Modelle von Llama 3.2 haben außergewöhnliche Leistungskennzahlen gezeigt und so ihren Wettbewerbsvorteil auf dem Markt weiter gefestigt. Das Modell 1B erreichte im MMLU-Benchmark einen Wert von 49,3, während das Modell 3B 63,4 erreichte. In puncto Bildverarbeitung zeigten die Modelle 11B und 90B ihre Fähigkeiten mit Wertungen von 50,7 bzw. 60,3 bei visuellen Denkaufgaben.
Bei der Bewertung der Leistung anhand umfassender menschlicher Evaluierungen und Benchmarks deuten die Ergebnisse darauf hin, dass die Vision-Modelle von Llama 3.2 bei der Bilderkennung und einer Reihe von Aufgaben zum visuellen Verständnis mit führenden geschlossenen Modellen konkurrieren können. pic.twitter.com/QtOzExBcrd
— KI bei Meta (@AIatMeta) 25. September 2024
Diese Kennzahlen zeigen, dass die Llama 3.2-Modelle die Leistung ähnlicher Angebote anderer Unternehmen nicht nur erreichen, sondern oft sogar übertreffen, wie beispielsweise Claude 3 Haiku Und GPT4o-mini.
Die Integration der UnslothAI-Technologie trägt ebenfalls zur Effizienz dieser Modelle bei, da sie doppelt so schnelle Feinabstimmungs- und Inferenzgeschwindigkeiten ermöglicht und gleichzeitig die VRAM-Nutzung um 70 % reduziert. Diese Verbesserung ist von entscheidender Bedeutung für Entwickler, die Echtzeit-KI-Lösungen implementieren möchten, ohne mit Hardwareeinschränkungen konfrontiert zu sein.
Zusammenarbeit und Unterstützung im Ökosystem
Einer der Schlüsselfaktoren, die die Marktreife von Llama 3.2 bestimmen, ist sein gut entwickeltes Ökosystem. Partnerschaften mit anderen führenden Unternehmen der Mobilbranche wie Qualcomm, MediaTek und AWS ermöglichen es Entwicklern, diese Modelle in verschiedenen Umgebungen, Cloud-Umgebungen und lokalen Geräten zu implementieren.
Der Lama-Stapel Distributionen wie Llama Stack für geräteinterne Installationen und Llama Stack für Einzelknoteninstallationen bieten Lösungen, die Entwickler nutzen und diese Modelle ohne zusätzliche Komplikationen in ihre Projekte integrieren können.
Die heute erhältlichen leichten Llama 3.2-Modelle unterstützen @Arm, @MediaTek und @Qualcomm um der Entwickler-Community die Möglichkeit zu geben, vom ersten Tag an mit der Erstellung wirkungsvoller mobiler Anwendungen zu beginnen. pic.twitter.com/DhhNcUviW7
— KI bei Meta (@AIatMeta) 25. September 2024
Wie verwende ich Meta Llama 3.2?
Die neueste Version des Open-Source-KI-Modells, Llama 3.2, ist jetzt verfügbar auf der Meta Llama-Websiteund bietet erweiterte Möglichkeiten zur Anpassung, Feinabstimmung und Bereitstellung auf verschiedenen Plattformen.
Entwickler können zwischen vier Modellgrößen wählen: 1B, 3B, 11B und 90B, oder weiterhin die früheren Lama 3.1.
Meta veröffentlicht diese Modelle nicht einfach in der freien Wildbahn; sie legen Wert darauf, dass Entwickler alles haben, was sie brauchen, um Llama 3.2 effektiv zu nutzen. Zu diesem Engagement gehört auch die Weitergabe wertvoller Tools und Ressourcen, um Entwicklern zu helfen, verantwortungsbewusst zu bauen. Durch die kontinuierliche Aktualisierung ihrer Best Practices und die Zusammenarbeit mit der Open-Source-Community hofft Meta, Innovationen anzuregen und gleichzeitig zu fördern ethische KI Verwendung.
„Wir freuen uns darauf, die Gespräche mit unseren Partnern und der Open-Source-Community fortzusetzen, und wie immer können wir es kaum erwarten zu sehen, was die Community mit Llama 3.2 und Llama Stack erstellt“,
Meta angegeben.
Dieser kollaborative Ansatz erweitert nicht nur die Fähigkeiten von Llama 3.2, sondern fördert auch ein lebendiges Ökosystem. Ob für leichte Edge-Lösungen oder komplexere multimodale Aufgaben – Meta hofft, dass die neuen Modelle die nötige Flexibilität bieten, um den unterschiedlichen Benutzeranforderungen gerecht zu werden.
Bildnachweise: Meta