In einem diskreten Schritt hat das Forschungsteam von Apple dies getan ein Dokument veröffentlicht Wir beleuchten die Fortschritte des Unternehmens bei MM1, einer Suite fortschrittlicher multimodaler großer Sprachmodelle. Diese Modelle sind für eine Vielzahl von Anwendungen konzipiert, darunter die Inferenz natürlicher Sprache, Bildunterschriften und die visuelle Beantwortung von Fragen. Diese Enthüllung zeigt, dass Apple traditionell zurückhaltend gegenüber seinen KI-Unternehmungen war, während seine Konkurrenten KI als die Zukunft der Technologie feierten, und dass Apple nicht nur aufholt, sondern auch bereit ist, das Tempo in der Branche vorzugeben.
Welchen Umfang hat Apple MM1?
„In dieser Arbeit diskutieren wir den Aufbau leistungsfähiger multimodaler großer Sprachmodelle (MLLMs). Wir zeigen, dass bei einem groß angelegten multimodalen Vortraining die Verwendung einer sorgfältigen Mischung aus Bildunterschriften, verschachtelten Bildtexten und Nur-Text-Daten von entscheidender Bedeutung ist, um bei mehreren verglichenen Benchmarks hochmoderne Ergebnisse mit wenigen Aufnahmen zu erzielen zu anderen veröffentlichten Ergebnissen vor dem Training“, heißt es in dem Dokument.
Das Dokument geht näher auf MM1 ein und charakterisiert es als ein robustes Ensemble multimodaler Modelle, das bis zu 30 Milliarden Parameter unterstützen kann. Es unterstreicht ihre außergewöhnliche Leistung, die auf ein Spektrum multimodaler Benchmarks abgestimmt ist und diese Modelle an die Spitze grundlegender KI-Technologien bringt. Laut dem Team von Apple stellen multimodale Large Language Models (MLLMs) eine bedeutende Weiterentwicklung über herkömmliche LLMs hinaus dar und verfügen über erweiterte Funktionen.
Die Forscher von Apple sind davon überzeugt, dass sie einen bedeutenden Meilenstein beim Training von Modellen für die Interpretation von Bildern und Texten erreicht haben. Sie gehen davon aus, dass ihre Erkenntnisse der Community erheblich dabei helfen werden, Modelle zu entwickeln, die immer größere Datensätze effizienter und zuverlässiger verarbeiten können. Doch trotz der vielversprechenden Erkenntnisse, die in dem Papier vermittelt werden, bleiben die praktische Anwendung und Tests von Apple MM1 in der Zukunft, und der Zugang zum Modell selbst muss noch für eine externe Evaluierung eröffnet werden.

Die Zukunft von Apples Vorstoß in große Sprachmodelle, insbesondere MM1, hängt in der Schwebe, und es gibt Spekulationen über die Entwicklung eines LLM-Frameworks durch das Unternehmen, das intern „Ajax“ genannt wird und Teil einer ehrgeizigen Investition von 1 Milliarde US-Dollar in KI-Forschung und -Entwicklung ist. Gerüchte über die Übernahme des Start-ups DarwinAI durch Apple zu Beginn des Jahres, ein Schritt, der angeblich darauf abzielt, diese Bemühungen zu verstärken, heizen das Feuer zusätzlich an.
Tim Cook, CEO von Apple, brach das jahrelange Schweigen des Unternehmens zu seinen KI-Ambitionen während einer Telefonkonferenz nach den Ergebnissen im Februar mit den Worten:
„Wir betrachten KI und maschinelles Lernen als grundlegende Technologien und sie sind integraler Bestandteil praktisch jedes Produkts, das wir ausliefern. Wir freuen uns, später in diesem Jahr die Einzelheiten unserer laufenden Arbeit in diesem Bereich mitzuteilen.“
Darüber hinaus stellte Apple kürzlich die KI-Fähigkeiten seines neuen MacBook Air M3 vor und deutete damit an, welche bedeutende Rolle KI in seinen zukünftigen Angeboten spielen wird. Aus strategischer Sicht entschied sich das Unternehmen für die Auflösung Projekt Titan Letzten Monat verlagerte das Unternehmen seinen Fokus auf aufstrebende Bereiche wie künstliche Intelligenz und signalisierte damit eine Neuausrichtung seiner Innovationsprioritäten.
Hervorgehobener Bildnachweis: Kerem Gülen/Midjourney