Seit Jahren scheint das Versprechen einer wirklich intelligenten, dialogorientierten KI unerreichbar zu sein. Wir haben die Fähigkeiten von ChatGPT bestaunt, Zwillingeund andere große Sprachmodelle (LLMs) – Gedichte verfassen, Code schreiben, Sprachen übersetzen – aber diese Leistungen waren schon immer auf die enorme Rechenleistung von Cloud-GPUs angewiesen. Jetzt braut sich eine stille Revolution zusammen, die darauf abzielt, diese unglaublichen Funktionen direkt auf das Gerät in Ihrer Tasche zu bringen: ein LLM auf Ihrem Smartphone.
Bei diesem Wandel geht es nicht nur um Bequemlichkeit; Es geht um Privatsphäre, Effizienz und die Erschließung einer neuen Welt personalisierter KI-Erlebnisse.
Allerdings stellt die Verkleinerung dieser riesigen LLMs auf ein Gerät mit begrenztem Speicher und begrenzter Akkulaufzeit eine Reihe einzigartiger Herausforderungen dar. Um diese komplexe Landschaft zu verstehen, habe ich mit gesprochen Aleksej NaumowLeitender KI-Forschungsingenieur bei Terra Quantumeine führende Persönlichkeit auf dem Gebiet der LLM-Komprimierung.
Tatsächlich hat Naumov kürzlich einen Artikel zu diesem Thema veröffentlicht, der als außergewöhnliche und bedeutende Innovation in der Komprimierung neuronaler Netzwerke gepriesen wird – „TQCompressor: Verbesserung von Tensorzerlegungsmethoden in neuronalen Netzen durch Permutationen‚ – auf der IEEE International Conference on Multimedia Information Processing and Retrieval (IEEE MIPR 2024), einer Konferenz, auf der Forscher, Wissenschaftler und Branchenexperten zusammenkommen, um die neuesten Fortschritte in der Multimedia-Technologie vorzustellen und zu diskutieren.
„Die größte Herausforderung ist natürlich der begrenzte Hauptspeicher (DRAM), der auf Smartphones verfügbar ist“, sagte Naumov. „Die meisten Modelle passen nicht in den Speicher eines Smartphones und sind daher nicht lauffähig.“
Als Paradebeispiel nennt er Metas Modell Llama 3.2-8B.
„Es erfordert etwa 15 GB Speicher“, sagte Naumov. „Allerdings verfügt das iPhone 16 nur über 8 GB DRAM, das Google Pixel 9 Pro bietet 16 GB.“ Um diese Modelle effizient zu betreiben, benötigt man außerdem sogar noch mehr Speicher – rund 24 GB, den Geräte wie die NVIDIA RTX 4090 GPU ab 1800 US-Dollar bieten.“
Bei dieser Speicherbeschränkung geht es nicht nur um die Speicherung; Dies wirkt sich direkt auf die Akkulaufzeit eines Telefons aus.
„Je mehr Speicher ein Modell benötigt, desto schneller entlädt es den Akku“, sagte Naumov. „Ein LLM mit 8 Milliarden Parametern verbraucht etwa 0,8 Joule pro Token. Ein voll aufgeladenes iPhone mit etwa 50 kJ Energie könnte dieses Modell nur etwa zwei Stunden lang mit einer Geschwindigkeit von 10 Token pro Sekunde durchhalten, wobei alle 64 Token etwa 0,2 % der Batterie verbrauchen.“
Wie überwinden wir diese Hürden? Naumov betont die Bedeutung von Modellkomprimierungstechniken.
„Um dieses Problem anzugehen, müssen wir die Modellgrößen reduzieren“, sagte Naumov. „Es gibt zwei Hauptansätze: die Anzahl der Parameter zu reduzieren oder den für jeden Parameter benötigten Speicher zu verringern.“
Er skizziert Strategien wie Destillation, Beschneidung und Matrixzerlegung, um die Anzahl der Parameter zu reduzieren, und Quantisierung, um den Speicherbedarf jedes Parameters zu verringern.
„Durch die Speicherung der Modellparameter in INT8 statt in FP16 können wir den Speicherverbrauch um etwa 50 % reduzieren“, sagte Naumov.
Während die Pixel-Geräte von Google mit ihren TensorFlow-optimierten TPUs eine ideale Plattform für die Ausführung von LLMs zu sein scheinen, warnt Naumov, dass sie das grundlegende Problem der Speicherbeschränkungen nicht lösen.
„Während die in Google Pixel-Geräten verwendeten Tensor Processing Units (TPUs) eine verbesserte Leistung bei der Ausführung von KI-Modellen bieten, was zu schnelleren Verarbeitungsgeschwindigkeiten oder einem geringeren Batterieverbrauch führen kann, lösen sie nicht das grundlegende Problem des bloßen Speicherbedarfs moderner LLMs.“ , die typischerweise die Speicherkapazitäten von Smartphones übersteigt“, sagte Naumov.
Der Antrieb, LLMs auf Smartphones zu bringen, geht über rein technische Ambitionen hinaus. Es geht darum, unsere Beziehung zur KI neu zu denken und die Einschränkungen cloudbasierter Lösungen anzugehen.
„Führende Modelle wie ChatGPT-4 haben über eine Billion Parameter“, sagte Naumov. „Wenn wir uns eine Zukunft vorstellen, in der Menschen bei Aufgaben wie Konversationsschnittstellen oder Empfehlungssystemen stark auf LLMs angewiesen sind, könnte das bedeuten, dass etwa 5 % der täglichen Zeit der Benutzer mit der Interaktion mit diesen Modellen verbracht werden.“ In diesem Szenario würde die Ausführung von GPT-4 den Einsatz von etwa 100 Millionen H100-GPUs erfordern. Allein der Rechenumfang ohne Berücksichtigung des Kommunikations- und Datenübertragungsaufwands würde dem Betrieb von etwa 160 Unternehmen der Größe von Meta entsprechen. Dieser hohe Energieverbrauch und die damit verbundenen CO2-Emissionen würden erhebliche Umweltprobleme mit sich bringen.“
Die Vision ist klar: eine Zukunft, in der KI nahtlos in unseren Alltag integriert wird und personalisierte Unterstützung bietet, ohne die Privatsphäre zu beeinträchtigen oder den Akku unserer Telefone zu belasten.
„Ich gehe davon aus, dass viele LLM-Anwendungen, die derzeit auf Cloud Computing basieren, auf die lokale Verarbeitung auf den Geräten der Benutzer umsteigen werden“, sagte Naumov. „Dieser Wandel wird durch weitere Modellverkleinerungen und Verbesserungen der Rechenressourcen und der Effizienz von Smartphones vorangetrieben.“
Er zeichnet das Bild einer Zukunft, in der die Fähigkeiten von LLMs so alltäglich und intuitiv werden könnten, wie es die Autokorrektur heute ist. Dieser Übergang könnte viele aufregende Möglichkeiten eröffnen. Stellen Sie sich dank lokaler LLMs einen verbesserten Datenschutz vor, bei dem Ihre sensiblen Daten Ihr Gerät nie verlassen.
Stellen Sie sich eine allgegenwärtige KI mit LLM-Funktionen vor, die in praktisch jede App integriert ist, von Messaging und E-Mail bis hin zu Produktivitätstools. Denken Sie an den Komfort der Offline-Funktionalität, die es Ihnen ermöglicht, auch ohne Internetverbindung auf KI-Unterstützung zuzugreifen. Stellen Sie sich personalisierte Erfahrungen vor, bei denen LLMs Ihre Vorlieben und Gewohnheiten kennenlernen, um wirklich maßgeschneiderte Unterstützung zu bieten.
Für Entwickler, die diese Grenze erkunden möchten, bietet Naumov einige praktische Ratschläge.
„Zunächst empfehle ich die Auswahl eines Modells, das am besten zur beabsichtigten Anwendung passt“, sagte Naumov. „Hugging Face ist hierfür eine hervorragende Ressource. Suchen Sie nach neueren Modellen mit 1–3 Milliarden Parametern, da diese derzeit die einzigen sind, die für Smartphones realisierbar sind. Versuchen Sie außerdem, quantisierte Versionen dieser Modelle auf Hugging Face zu finden. Die KI-Community veröffentlicht dort typischerweise quantisierte Versionen beliebter Modelle.“
Er schlägt auch vor, Tools wie zu erkunden lama.cpp Und Bits und Bytes zur Modellquantisierung und Inferenz.
Der Weg, LLMs auf Smartphones zu bringen, steckt noch in den Kinderschuhen, aber das Potenzial ist unbestreitbar. Während Forscher wie Aleksei Naumov weiterhin die Grenzen des Möglichen verschieben, stehen wir an der Schwelle einer neuen Ära der mobilen KI, in der unsere Smartphones zu wirklich intelligenten Begleitern werden, die in der Lage sind, unsere Bedürfnisse auf die von uns gewohnte Weise zu verstehen und darauf zu reagieren habe gerade erst begonnen, es mir vorzustellen.