Microsoft verstärkt seine Aktivitäten in der KI-Welt mit der neuen Phi-3.5-Serie und bietet drei hochmoderne Modelle für unterschiedliche Aufgaben. Diese Modelle sind nicht nur leistungsstark, sondern auch vielseitig und erleichtern Entwicklern die Bewältigung von allem, von der einfachen Codierung bis hin zur komplexen Problemlösung und sogar visuellen Aufgaben. Egal, ob Sie mit begrenzten Ressourcen arbeiten oder fortgeschrittene künstliche Intelligenz Die Phi-3.5-Modelle haben einiges zu bieten, und hier ist ein kurzer Blick darauf.
Analyse der Phi-3.5-Modelle von Microsoft
Die neueste Version von Microsoft, die Phi 3.5-Reihe, führt drei erweiterte KI-Modelle ein: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct und Phi-3.5-vision-instruct. Jedes Modell ist auf spezifische Anforderungen zugeschnitten, von grundlegendem Denken bis hin zu fortgeschrittenen multimodalen Aufgaben.
Alle drei Microsoft Phi-3.5-Modelle sind unter der MIT-Lizenz verfügbar, die es Entwicklern ermöglicht, die Modelle mit minimalen Einschränkungen zu verwenden, zu ändern und zu verteilen. Dieser Open-Source-Ansatz unterstützt eine breite Akzeptanz und fördert Innovationen in verschiedenen Anwendungs- und Forschungsbereichen.
Phi-3.5 Mini Instruct: Effizient und kompakt
Der Microsoft Phi-3.5 Mini-Anleitung Das Modell ist so konzipiert, dass es in Umgebungen mit begrenzten Rechenressourcen außergewöhnlich gut funktioniert. Mit 3,8 Milliarden Parametern ist es auf Aufgaben zugeschnitten, die starke Denkfähigkeiten erfordern, aber keine umfangreiche Rechenleistung erfordern. Trainiert an 3,4 Billionen Token mit 512 H100-80G-GPUs über 10 Tage.
Hauptmerkmale:
- Parameter: 3,8 Milliarden
- Kontextlänge: 128.000 Token
- Primäre Anwendungsfälle: Codegenerierung, mathematische Problemlösung, logikbasiertes Denken
- Leistung: Trotz seiner geringeren Größe zeigt es eine konkurrenzfähige Leistung bei mehrsprachigen und mehrstufigen Konversationsaufgaben. Es schneidet bei Benchmarks wie RepoQA, das das Verständnis von Code in langen Kontexten misst, hervorragend ab und übertrifft andere Modelle ähnlicher Größe wie Llama-3.1-8B-instruct.
Das effiziente Design von Phi-3.5 Mini Instruct ermöglicht eine robuste Leistung unter Berücksichtigung von Ressourcenbeschränkungen. Dadurch eignet es sich für den Einsatz in Szenarien, in denen die Rechenressourcen begrenzt sind, aber dennoch eine hohe Leistung erforderlich ist.
Phi-3.5 MoE: Architektur mit Expertenmischung
Der Microsoft Phi-3.5 MoE (Expertenmischung) Das Modell stellt einen ausgeklügelten Ansatz für die KI-Architektur dar, indem mehrere spezialisierte Modelle zu einem einzigen kombiniert werden. Es verfügt über ein einzigartiges Design, bei dem je nach Aufgabe unterschiedliche „Experten“ aktiviert werden, wodurch die Leistung in verschiedenen Bereichen optimiert wird. Trainiert mit 4,9 Billionen Token und 512 H100-80G-GPUs über 23 Tage.
Hauptmerkmale:
- Parameter: 42 Milliarden (aktiv), davon 6,6 Milliarden aktiv im Betrieb
- Kontextlänge: 128.000 Token
- Primäre Anwendungsfälle: Komplexe Denkaufgaben, Codeverständnis, mehrsprachiges Sprachverständnis
- Leistung: Das MoE-Modell schneidet bei Code- und Mathematikaufgaben außergewöhnlich gut ab und weist ein ausgeprägtes mehrsprachiges Verständnis auf. Es übertrifft größere Modelle häufig in bestimmten Benchmarks, darunter einen deutlichen Vorsprung gegenüber GPT-4o mini im 5-Shot-MMLU-Test (Massive Multitask Language Understanding).
Die Phi-3.5 MoE-Architektur verbessert Skalierbarkeit und Effizienz, indem sie nur eine Teilmenge der für eine bestimmte Aufgabe relevanten Parameter aktiviert. Dadurch kann das Modell eine breite Palette von Anwendungen verarbeiten und gleichzeitig eine hohe Leistung über verschiedene Sprachen und Themen hinweg aufrechterhalten.
Phi-3.5 Vision Instruct: Erweiterte multimodale Fähigkeiten
Der Microsoft Phi-3.5 Vision-Anweisung Das Modell ist für die Verarbeitung von Text- und Bilddaten konzipiert und stellt somit ein leistungsstarkes Tool für multimodale KI-Aufgaben dar. Es integriert erweiterte Bildverarbeitung mit Textverständnis und unterstützt eine Vielzahl komplexer visueller und textueller Analyseaufgaben. Trainiert wurde es über 6 Tage mit 500 Milliarden Tokens unter Verwendung von 256 A100-80G GPUs.
Hauptmerkmale:
- Parameter: 4,15 Milliarden
- Kontextlänge: 128.000 Token
- Primäre Anwendungsfälle: Bildverständnis, optische Zeichenerkennung (OCR), Diagramm- und Tabellenverständnis, Videozusammenfassung
- Leistung: Das Vision Instruct-Modell wurde anhand einer Kombination aus synthetischen und gefilterten öffentlich verfügbaren Datensätzen trainiert. Es zeichnet sich durch die Handhabung komplexer visueller Aufgaben mit mehreren Bildern aus und bietet eine umfassende Analyse visueller und textlicher Informationen.
Die Fähigkeit von Phi-3.5 Vision Instruct, sowohl Text als auch Bilder zu verarbeiten und zu integrieren, macht es äußerst vielseitig für Anwendungen, die eine detaillierte visuelle Analyse erfordern. Diese Fähigkeit ist besonders wertvoll für Aufgaben mit unterschiedlichen Datentypen und -formaten.
Auf das Phi-3.5 Vision Instruct-Modell kann auch über Azure AI Studio.