Apple hat einige interessante Erkenntnisse über sein Large Language Model (LLM) geteilt: ReaLM. Mit ReaLM möchte Apple unsere alltäglichen Interaktionen mit unseren Geräten verändern und ein intelligenteres, intuitiveres Benutzererlebnis bieten, das sich nahtlos in unser tägliches Leben integriert. Das Unternehmen aus Cupertino investiert weiterhin in KI-Fortschritte, wie aus dieser Forschungspublikation hervorgeht.
Apples ReaLM konkurriert mit anderen LLMs
Die KI-Experten von Apple skizzieren ein System, das es Siri ermöglicht, über die bloße Bilderkennung hinauszugehen. Sie behaupten außerdem, dass dieses System nicht nur mit GPT-4 konkurriert, sondern es sogar übertrifft, basierend auf ihren internen Benchmarks:
Modell | Konv | Synth | Bildschirm | Ungesehen |
---|---|---|---|---|
MARRS | 92.1 | 99,4 | 83,5 | 84,5 |
GPT-3.5 | 84.1 | 34.2 | 74.1 | 67,5 |
GPT-4 | 97,0 | 58,7 | 90.1 | 98,4 |
ReALM-80M | 96,7 | 99,5 | 88,9 | 99,3 |
RealLM-250M | 97,8 | 99,8 | 90,6 | 97,2 |
ReALM-1B | 97,9 | 99,7 | 91,4 | 94,8 |
ReALM-3B | 97,9 | 99,8 | 93,0 | 97,8 |
Diese Entwicklung deutet auf eine Zukunft hin, in der Siri wird intelligenter und effizienter. Apple scheint hinsichtlich der Umsetzung dieses Projekts optimistisch zu sein und zeigt seine Geschwindigkeit im Vergleich zu den ChatGPT 3.5- und 4.0-Modellen von OpenAI:
„Als weitere Basis führen wir die Varianten GPT-3.5 (Brown et al., 2020; Ouyang et al., 2022) und GPT-4 (Achiam et al., 2023) von ChatGPT aus, die am 24. Januar 2024 verfügbar sind Lernen im Kontext. Wie in unserem Setup zielen wir darauf ab, beide Varianten dazu zu bringen, eine Liste von Entitäten aus einer verfügbaren Menge vorherzusagen. Im Fall von GPT-3.5, das nur Text akzeptiert, besteht unsere Eingabe nur aus der Eingabeaufforderung; Im Fall von GPT-4, das auch die Möglichkeit hat, Bilder zu kontextualisieren, stellen wir dem System einen Screenshot für die Aufgabe der Referenzauflösung auf dem Bildschirm zur Verfügung, was unserer Meinung nach zu einer erheblichen Leistungsverbesserung beiträgt.”
Superhirn Siri
In seiner Forschung stellt Apple ReaLM als bedeutende Erweiterung für Siri vor und stattet es im Wesentlichen mit einem „Superhirn“ aus. Dieses Upgrade verbessert die Fähigkeit von Siri, Benutzeranfragen zu verstehen, erheblich, indem Bildschirminhalte wie Textnachrichten und Bilder analysiert werden, um die Bedürfnisse der Benutzer genauer vorherzusagen. ReaLM verfolgt außerdem laufende Gespräche mit Siri und kann so frühere Erwähnungen zur besseren Unterstützung abrufen.
ReaLM fungiert im Wesentlichen als allgegenwärtiger Beobachter, der in der Lage ist, Hintergrundaktivitäten wie Alarme oder Musik zu erkennen und seine Interaktionen entsprechend anzupassen.

Die Forschung umfasst einen Beispieldialog, der seine Fähigkeiten demonstriert.
Lautsprecher | Dialog |
---|---|
Benutzer | Zeigen Sie mir Apotheken in meiner Nähe. |
Agent | Hier ist eine Liste, die ich gefunden habe. |
Agent | … (Liste vorgestellt) |
Benutzer | (z. B. 1) Rufen Sie die Nummer in der Rainbow Road an. |
Benutzer | (zB 2) Rufen Sie den unteren an. |
Benutzer | (z. B. 3) Rufen Sie diese Nummer an (auf dem Bildschirm angezeigt). |
Im Vergleich zu anderen intelligenten Systemen hat ReaLM überlegene Fähigkeiten zur Problemlösung bewiesen und ist damit eine herausragende Funktion, die direkt auf iPhones und anderen Apple-Geräten funktioniert. Dieser Ansatz stellt sicher, dass die Daten der Benutzer sicher bleiben und dass das System mit außergewöhnlicher Geschwindigkeit arbeitet, wodurch Siris Intelligenz und das Verständnis der Aktionen und Sprache der Benutzer verbessert werden.
Obwohl es keinen bestätigten Veröffentlichungstermin für Apples ReaLM gibt, wird davon ausgegangen, dass Aspekte dieser Technologie in kommende Versionen von Apples Betriebssystemen wie iOS oder macOS integriert werden könnten. Zukünftige Veranstaltungen wie die Worldwide Developers Conference (WWDC) im Juni könnten weitere Einblicke in die Umsetzung liefern.
Hervorgehobener Bildnachweis: Stephen L/Unsplash