DeepSeek enthüllt die MODEL1-Architektur im GitHub-Update vor V4

DeepSeek hat durch kürzliche Aktualisierungen seiner FlashMLA-Codebasis Details zu einem neuen Modell mit der Bezeichnung „MODEL1“ enthüllt GitHub. Die Kennung „MODEL1“ erscheint 28 Mal in 114 Dateien im Repository und markiert damit die Offenlegung anlässlich des einjährigen Jubiläums der R1-Veröffentlichung des Unternehmens. Diese Entwicklung folgt Berichten, dass DeepSeek die Veröffentlichung seines V4-Modells der nächsten Generation etwa Mitte Februar 2026 plant, zeitgleich mit dem neuen Mondjahr. Eine Analyse der aktualisierten Codebasis durch Entwickler zeigt, dass MODEL1 eine andere Architektur als DeepSeek-V3.2 aufweist und im Repository den Codenamen „V32“ trägt. Diskrepanzen in der Codelogik deuten auf Änderungen im Schlüsselwert-Cache-Layout, der Sparsity-Behandlung und der FP8-Datenformatdecodierung hin, was auf eine Umstrukturierung zur Speicheroptimierung und Recheneffizienz hindeutet. Forscher der LocalLLaMA-Community von Reddit notiert Das FlashMLA-Quellcode-Update fügte umfassende MODEL1-Unterstützung hinzu, einschließlich Kompatibilität mit Nvidias kommender Blackwell-Architektur (SM100) und aktuellen Hopper-Chips. Die Änderungen zeigen Berichten zufolge, dass MODEL1 zu einer einheitlichen 512-Standard-Dimension zurückkehrt und „Value Vector Position Awareness“-Funktionen einführt, zusammen mit möglichen Implementierungen des kürzlich veröffentlichten bedingten Speichersystems „Engram“ von DeepSeek. Das FlashMLA-Repository, das den für Nvidia Hopper-GPUs optimierten Multi-Head Latent Attention-Dekodierungskern von DeepSeek enthält, war die Quelle der technischen Hinweise. Es wird erwartet, dass das V4-Modell von DeepSeek die Engram-Architektur integriert, die einen effizienten Abruf aus Kontexten mit mehr als einer Million Token ermöglicht, indem ein Suchsystem für grundlegende Fakten verwendet wird, anstatt sie durch Berechnungen neu zu berechnen. Berichten zufolge deuten interne Tests von DeepSeek-Mitarbeitern darauf hin, dass V4 die Konkurrenzmodelle von Anthropic und OpenAI bei Codierungs-Benchmarks übertreffen könnte, insbesondere bei langen Code-Eingabeaufforderungen. Die Enthüllung von MODEL1 erfolgt zu einem Zeitpunkt, an dem DeepSeek ein Jahr nach seinem R1-Debüt im Januar 2025 näher rückt. Laut ITPro führte die Veröffentlichung von R1 an einem einzigen Tag zu einer Reduzierung des Marktwerts von Nvidia um 593 Milliarden US-Dollar. Berichten zufolge kostete das Training des R1-Modells von DeepSeek weniger als 6 Millionen US-Dollar und erreichte bei Mathematik- und Codierungs-Benchmarks eine Leistung, die mit dem o1-Modell von OpenAI gleichwertig war oder diese sogar übertraf. Anschließend veröffentlichte das Unternehmen im August V3.1 und im Dezember V3.2, wobei V3.2 angeblich eine Leistung bietet, die der von OpenAIs GPT-5 entspricht. DeepSeek hat sich nicht offiziell zu MODEL1 geäußert oder den spezifischen Veröffentlichungszeitpunkt für V4 bestätigt.

Hervorgehobener Bildnachweis

No Result