Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Können 256m Parameter 80B übertreffen? Smolvlm -Modelle von Face von Face sagen Ja

byKerem Gülen
Januar 24, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Umarmendes Gesicht hat freigegeben Zwei neue KI-Modelle, SMOLVLM-256M und SMOLVLM-500M, behaupten, sie seien die kleinsten ihrer Art, die Bilder, Videos und Text auf Geräten mit begrenztem RAM analysieren kann, wie z. B. Laptops.

Das Umarmung des Gesichts startet kompakte KI -Modelle für die Bild- und Textanalyse

A Kleines Sprachmodell (SLM) ist ein neuronales Netzwerk, das natürliche Sprachtext erzeugt. Der Deskriptor „Small“ gilt nicht nur für die physikalischen Abmessungen des Modells, sondern auch für seine Parameterzahl, die neuronale Struktur und das Datenvolumen, das während des Trainings verwendet wird.

SMOLVLM-256M und SMOLVLM-500M bestehen aus 256 Millionen Parametern bzw. 500 Millionen Parametern. Diese Modelle können verschiedene Aufgaben ausführen, einschließlich der Beschreibung von Bildern und Videoclips sowie die Beantwortung von Fragen zu PDFs und deren Inhalt, z. B. gescannte Text und Diagramme.


Sam Altman, um Beamte über die Super-AI von „PhD-Level“ zu informieren


Um diese Modelle zu trainieren, verwendete das Harming Face das Kessel, eine kuratierte Sammlung von 50 hochwertigen Bild- und Textdatensätzen, neben docMatix, einem Datensatz, der Datei-Scans mit detaillierten Bildunterschriften umfasst. Beide Datensätze wurden erstellt, indem das M4 -Team von Face auf multimodale KI -Technologien konzentriert wurde.

Können 256m Parameter 80B übertreffen? Smolvlm -Modelle von Face von Face sagen Ja
SMOLVLM-256M und SMOLVLM-500M bestehen aus 256 Millionen Parametern und 500 Millionen Parametern (Image Credits: Smolvlm)

Das Team behauptet, dass SMOLVLM-256M und SMOLVLM-500M ein signifikant größeres Modell, IDEFICS 80B, in Benchmarks wie AI2D übertreffen, das die Fähigkeiten der Modelle zur Analyse von Science-Diagrammen auf Notenschule bewertet. Die neuen Modelle stehen für Webzugriff und Download unter einer Apache 2.0 -Lizenz zur Verfügung, die eine uneingeschränkte Verwendung ermöglicht.

Trotz ihrer Vielseitigkeit und Kosteneffizienz können kleinere Modelle wie SMOLVLM-256M und SMOLVLM-500M Einschränkungen aufweisen, die in größeren Modellen nicht beobachtet werden. In einer Studie von Google DeepMind, Microsoft Research und dem Mila Research Institute wurde hervorgehoben, dass kleinere Modelle häufig suboptimal bei komplexen Argumentationsaufgaben abschneiden, was möglicherweise aufgrund ihrer Tendenz, Muster auf Oberflächenebene zu erkennen, anstatt Wissen in neuartigen Kontexten anzuwenden.

Das SMOLVLM-256M-Modell von Face Face funktioniert mit weniger als einem Gigabyte GPU-Speicher und übertrifft das IDEFICS 80B-Modell, ein System 300-mal größeres System, wodurch diese Reduzierung und Verbesserung innerhalb von 17 Monaten erreicht wird. Andrés Marafioti, ein Forschungsingenieur für maschinelles Lernen bei Sugging Face, stellte fest, dass diese Leistung einen signifikanten Durchbruch in Sehvermögensmodellen widerspiegelt.

Können 256m Parameter 80B übertreffen? Smolvlm -Modelle von Face von Face sagen Ja
Das SMOLVLM-256M-Modell von Face Face arbeitet mit weniger als einem Gigabyte GPU-Speicher und übertrifft das IDEFICS 80B-Modell (Bildnachweis: Smolvlm)

Die Einführung dieser Modelle ist rechtzeitig für Unternehmen, die mit hohen Rechenkosten im Zusammenhang mit KI -Implementierungen konfrontiert sind. Die SMOLVLM -Modelle können Bilder verarbeiten und visuellen Inhalt mit beispiellosen Geschwindigkeiten für Modelle ihrer Größe verstehen. Die 256m -Version kann 16 Beispiele pro Sekunde verarbeiten, während nur 15 GB RAM mit einer Chargengröße von 64 verbraucht werden, was zu erheblichen Kosteneinsparungen für Unternehmen führt, die große Volumina visueller Daten bearbeiten.

IBM hat eine Partnerschaft mit Hugging Face geschaltet, um das 256 -m -Modell in seine Dokumentverarbeitungssoftware Docling einzubeziehen. Wie Marafioti erklärte, können selbst Organisationen mit erheblichen Rechenressourcen davon profitieren, kleinere Modelle zu verwenden, um Millionen von Dokumenten effizient zu reduzierten Kosten zu verarbeiten.

Das Umarmen erreichte die Größenreduzierung und die Leistung durch Fortschritte sowohl in der Sehverarbeitung als auch in den Sprachkomponenten, einschließlich eines Schalters von einem 400 -m -Parameter -Vision -Encoder zu einer 93 -m -Parameterversion und der Verwendung aggressiver Token -Komprimierungstechniken. Diese Effizienz eröffnet neue Möglichkeiten für Start -ups und kleinere Unternehmen, sodass sie schneller auf komplexe Computer -Vision -Produkte entwickeln und ihre Infrastrukturkosten senken können.Können 256m Parameter 80B übertreffen? Smolvlm -Modelle von Face von Face sagen Ja

Die SMOLVLM -Modelle verbessern die Funktionen über die Kosteneinsparung hinaus und erleichtern neue Anwendungen wie Advanced Document Search über einen Algorithmus namens Colipali, der durchsuchbare Datenbanken aus Dokumentarchiven erstellt. Laut Marafioti stimmen diese Modelle fast der Leistung von Modellen zehnmal mit ihrer Größe überein und erhöhen die Geschwindigkeit der Erstellung und-Suche der Datenbank erheblich, wodurch die unternehmensweite visuelle Suche für verschiedene Unternehmen möglich ist.

Die SMOLVLM-Modelle fordern die konventionelle Überzeugung in Frage, dass größere Modelle für fortschrittliche Visionsprachenaufgaben erforderlich sind, wobei die 500-m-Parameterversion 90% der Leistung eines 2,2B-Parameter-Gegenstücks auf wichtigen Benchmarks erzielt. Marafioti betonte, dass diese Entwicklung den Nutzen kleinerer Modelle demonstriert, was darauf hindeutet, dass sie für Unternehmen eine entscheidende Rolle spielen können.


Ausgewähltes Bildnachweis: Umarmtes Gesicht

Tags: AiKleine Sprachmodelleumarmtes GesichtVorgestellt

Related Posts

Microsoft drängt auf ein Notfall-OOB-Update, um die Neustartschleife von Windows 11 zu beheben

Microsoft drängt auf ein Notfall-OOB-Update, um die Neustartschleife von Windows 11 zu beheben

Januar 19, 2026
Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X

Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X

Januar 19, 2026
Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf

Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf

Januar 19, 2026
iOS 27: Alles, was wir bisher wissen

iOS 27: Alles, was wir bisher wissen

Januar 19, 2026
Walmart behält das Apple Pay-Verbot in US-Filialen für 2026 bei

Walmart behält das Apple Pay-Verbot in US-Filialen für 2026 bei

Januar 19, 2026
Nvidia erreicht 200 TeraFLOP-emuliertes FP64 für wissenschaftliches Rechnen

Nvidia erreicht 200 TeraFLOP-emuliertes FP64 für wissenschaftliches Rechnen

Januar 19, 2026

Recent Posts

  • Microsoft drängt auf ein Notfall-OOB-Update, um die Neustartschleife von Windows 11 zu beheben
  • Musk fordert 134 Milliarden US-Dollar von OpenAI und Microsoft
  • Threads erreicht 141 Millionen tägliche Nutzer und erobert den mobilen Thron von X
  • Google Wallet- und Tasks-Integrationen tauchen im neuen Pixel 10-Leak auf
  • iOS 27: Alles, was wir bisher wissen

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.