Apple ist Positionierung Das neue M5-basierte MacBook Pro ist dank Upgrades sowohl des MLX-Frameworks als auch der im Chip integrierten GPU-Neuralbeschleuniger eine weitaus leistungsfähigere Maschine zum Ausführen und Experimentieren mit großen Sprachmodellen. Für Forscher und Entwickler, die zunehmend lieber direkt auf der Silizium-Hardware von Apple arbeiten, präsentiert das Unternehmen die M5-Reihe als einen bedeutenden Fortschritt in der Inferenzleistung auf dem Gerät, insbesondere für LLMs und andere Workloads, die von Matrixoperationen dominiert werden. Im Mittelpunkt dieser Bemühungen steht MLX, das Open-Source-Array-Framework von Apple, das speziell für die einheitliche Speicherarchitektur von Apple entwickelt wurde. MLX bietet eine NumPy-ähnliche Schnittstelle für numerische Berechnungen, unterstützt sowohl Training als auch Inferenz für neuronale Netze und ermöglicht Entwicklern einen nahtlosen Wechsel zwischen CPU- und GPU-Ausführung, ohne Daten über verschiedene Speicherpools zu übertragen. Es funktioniert auf allen Apple-Siliziumsystemen, aber die neueste macOS-Beta ermöglicht eine neue Beschleunigungsebene, indem sie die dedizierten Matrix-Multiplikationseinheiten in der GPU des M5 nutzt. Diese Neuralbeschleuniger werden durch TensorOps in Metal 4 verfügbar gemacht und ermöglichen MLX-Zugriff auf die Leistung, die laut Apple für Arbeitslasten, die von großen Tensormultiplikationen dominiert werden, von entscheidender Bedeutung ist. Auf MLX basiert MLX LM, ein Paket zur Textgenerierung und -feinabstimmung, das die meisten auf Hugging Face gehosteten Sprachmodelle unterstützt. Benutzer können es über PIP installieren, Chat-Sitzungen vom Terminal aus starten und Modelle direkt auf dem Gerät quantifizieren. Die Quantisierung ist ein Kernmerkmal: Die Konvertierung eines 7B-Parameter-Mistral-Modells in ein 4-Bit-Modell dauert nur Sekunden, wodurch der Speicherbedarf drastisch sinkt und gleichzeitig die Benutzerfreundlichkeit auf Consumer-Rechnern erhalten bleibt.
Bild: AppleUm die Vorteile des M5 zu demonstrieren, hat Apple mehrere Modelle verglichen – darunter Qwen 1.7B und 8B (BF16), die 4-Bit-quantisierten Qwen 8B und 14B sowie zwei Mixed-of-Expert-Architekturen: Qwen 30B (3B aktiv) und GPT-OSS 20B (MXFP4). Die Ergebnisse konzentrieren sich auf die Zeit bis zum ersten Token (TTFT) und die Generierungsgeschwindigkeit bei der Produktion von 128 zusätzlichen Token aus einer Eingabeaufforderung mit 4.096 Token. Die Neuralbeschleuniger des M5 verbessern die TTFT deutlich und verkürzen die Wartezeit bei einem dichten 14B-Modell auf unter 10 Sekunden und bei einem 30B-MoE unter 3 Sekunden. Apple meldet TTFT-Beschleunigungen zwischen dem 3,3- und 4-fachen im Vergleich zur vorherigen M4-Generation. Die anschließende Token-Generierung – die eher durch die Speicherbandbreite als durch die Rechenleistung begrenzt ist – verzeichnet kleinere, aber konstante Zuwächse von etwa 19–27 %, was mit der 28 %igen Steigerung der Bandbreite beim M5 übereinstimmt (153 GB/s gegenüber 120 GB/s beim M4). Die Tests zeigen auch, wie viel Modellkapazität bequem in den einheitlichen Speicher passt. Ein 24-GB-MacBook Pro kann ein 8-B-Modell in BF16 oder ein 30-B-MoE mit 4-Bit mit freiem Spielraum hosten, sodass die Gesamtnutzung in beiden Fällen unter 18 GB bleibt. Laut Apple gelten die gleichen Beschleunigervorteile auch über Sprachmodelle hinaus. Beispielsweise läuft die Generierung eines 1024×1024-Bildes mit FLUX-dev-4bit (12B Parameter) auf einem M5 mehr als 3,8x schneller als auf einem M4. Während MLX weiterhin Funktionen hinzufügt und die Modellunterstützung erweitert, setzt das Unternehmen darauf, dass mehr Mitglieder der ML-Forschungsgemeinschaft Apple-Silizium nicht nur als Entwicklungsumgebung, sondern als praktikable Inferenz- und Experimentierplattform betrachten werden.





