Die chinesische Firma Deepseek AI hat sein großes Sprachmodell R1 veröffentlicht, das nur 294.000 US -Dollar mit 512 NVIDIA H800 GPUs ausgebildet wurde. In einem in der Zeitschrift veröffentlichten Papier NaturDas Unternehmen detaillierte, wie es diese niedrigen Kosten erreichte, indem es eine Verstärkungs-Verstärkungs-Lernmethode anhielt, sodass das Modell die Wettbewerbsleistung gegen Konkurrenten mit viel größeren Budgets wie OpenAI erreicht hat.
Wie Deepseeks Verstärkungslernmethode funktioniert
Die wichtigste Innovation von Deepseek bestand darin, sich vom teuren, menschlichintensiven Prozess der Erstellung kommentierter Datensätze zu entfernen. Traditionelle KI-Modelle zum Argumentieren von Aufgaben werden häufig auf riesigen Datensätzen geschult, in denen menschliche Experten Schritt-für-Schritt-Lösungen für komplexe Probleme anbieten. Stattdessen entwickelte Deepseek ein autonomes Lernsystem, das das Verstärkungslernen durch ein System der Belohnungen und Strafen durch das Modell des Modells verfeinert. Forscher der Carnegie Mellon University verglichen in einem Artikel, der das Naturpapier begleitete, den Prozess mit einem Kind, das lernte, ein Videospiel zu spielen.
„Als das Kind durch die Spielwelt ihren Avatar navigiert, lernen es durch Versuch und Irrtum, dass einige Aktionen (z. B. das Sammeln von Goldmünzen) Punkte verdienen, während andere (wie z.
Diese Methode war besonders effektiv für Aufgaben in Mathematik und Programmierung, bei denen Antworten definitiv als richtig oder falsch verifiziert werden können. Das Modell würde potenzielle Lösungen erzeugen, die dann durch ein automatisiertes Bewertungssystem bewertet wurden. Es würde dann seinen Ansatz wiederholen, bis es ohne menschliche Intervention die höchste Punktzahl erreichte. Dieser effiziente, selbstgesteuerte Prozess ermöglichte es dem Unternehmen, ein leistungsstarkes KI-System mit einem Bruchteil der von seinen Wettbewerbern erforderlichen Investitionen aufzubauen.
Einschränkungen und Bedenken hinsichtlich des Modells
Während sich der Ansatz des Verstärkungslernens als kostengünstig erwies, hat er auch einige Einschränkungen. Die Ausgaben des Modells verbergen oft die zugrunde liegenden Argumentationsschritte, was es für einen Menschen schwer macht zu verstehen, wie es zu einem Schluss kam. Als R1 gebeten wurde, seine Argumentation vorzunehmen, erzeugte R1 extrem lange und schwer zu lesen-manchmal über 10.000 Wörter, die zwischen Englisch und Chinesisch wechselten. Die Technik kämpfte auch mit Aufgaben, die Nuancen oder Subjektivität erfordern, bei denen keine einzige „richtige“ Antwort vorhanden ist. Über seine technischen Einschränkungen hinaus hat die Entwicklung des Modells in China Bedenken hinsichtlich des potenziellen Einflusses der Regierung geäußert. In einem kürzlichen Bericht der Washington Post ergab R1 Vorurteile in ihren Ausgaben. Die Forscher stellten fest, dass das Modell sich weigern würde, Code mit wichtigen Sicherheitsfehler zu generieren, wenn die Eingaben, die Gruppen betrafen, von den chinesischen Behörden als sensibel angesehen werden. Als er gebeten wurde, Code für Entitäten wie Tibet, Taiwan oder die religiöse Bewegung von Falun Gong zu erstellen, erzeugte das Modell weniger sichere Versionen mit eingebauten Schwachstellen. Dies deutet darauf hin, dass das Verhalten des Modells durch die politischen Prioritäten der chinesischen Regierung geprägt sein kann.