Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

DeepSeek enthüllt die MODEL1-Architektur im GitHub-Update vor V4

byKerem Gülen
Januar 21, 2026
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

DeepSeek hat durch kürzliche Aktualisierungen seiner FlashMLA-Codebasis Details zu einem neuen Modell mit der Bezeichnung „MODEL1“ enthüllt GitHub. Die Kennung „MODEL1“ erscheint 28 Mal in 114 Dateien im Repository und markiert damit die Offenlegung anlässlich des einjährigen Jubiläums der R1-Veröffentlichung des Unternehmens. Diese Entwicklung folgt Berichten, dass DeepSeek die Veröffentlichung seines V4-Modells der nächsten Generation etwa Mitte Februar 2026 plant, zeitgleich mit dem neuen Mondjahr. Eine Analyse der aktualisierten Codebasis durch Entwickler zeigt, dass MODEL1 eine andere Architektur als DeepSeek-V3.2 aufweist und im Repository den Codenamen „V32“ trägt. Diskrepanzen in der Codelogik deuten auf Änderungen im Schlüsselwert-Cache-Layout, der Sparsity-Behandlung und der FP8-Datenformatdecodierung hin, was auf eine Umstrukturierung zur Speicheroptimierung und Recheneffizienz hindeutet. Forscher der LocalLLaMA-Community von Reddit notiert Das FlashMLA-Quellcode-Update fügte umfassende MODEL1-Unterstützung hinzu, einschließlich Kompatibilität mit Nvidias kommender Blackwell-Architektur (SM100) und aktuellen Hopper-Chips. Die Änderungen zeigen Berichten zufolge, dass MODEL1 zu einer einheitlichen 512-Standard-Dimension zurückkehrt und „Value Vector Position Awareness“-Funktionen einführt, zusammen mit möglichen Implementierungen des kürzlich veröffentlichten bedingten Speichersystems „Engram“ von DeepSeek. Das FlashMLA-Repository, das den für Nvidia Hopper-GPUs optimierten Multi-Head Latent Attention-Dekodierungskern von DeepSeek enthält, war die Quelle der technischen Hinweise. Es wird erwartet, dass das V4-Modell von DeepSeek die Engram-Architektur integriert, die einen effizienten Abruf aus Kontexten mit mehr als einer Million Token ermöglicht, indem ein Suchsystem für grundlegende Fakten verwendet wird, anstatt sie durch Berechnungen neu zu berechnen. Berichten zufolge deuten interne Tests von DeepSeek-Mitarbeitern darauf hin, dass V4 die Konkurrenzmodelle von Anthropic und OpenAI bei Codierungs-Benchmarks übertreffen könnte, insbesondere bei langen Code-Eingabeaufforderungen. Die Enthüllung von MODEL1 erfolgt zu einem Zeitpunkt, an dem DeepSeek ein Jahr nach seinem R1-Debüt im Januar 2025 näher rückt. Laut ITPro führte die Veröffentlichung von R1 an einem einzigen Tag zu einer Reduzierung des Marktwerts von Nvidia um 593 Milliarden US-Dollar. Berichten zufolge kostete das Training des R1-Modells von DeepSeek weniger als 6 Millionen US-Dollar und erreichte bei Mathematik- und Codierungs-Benchmarks eine Leistung, die mit dem o1-Modell von OpenAI gleichwertig war oder diese sogar übertraf. Anschließend veröffentlichte das Unternehmen im August V3.1 und im Dezember V3.2, wobei V3.2 angeblich eine Leistung bietet, die der von OpenAIs GPT-5 entspricht. DeepSeek hat sich nicht offiziell zu MODEL1 geäußert oder den spezifischen Veröffentlichungszeitpunkt für V4 bestätigt.


Hervorgehobener Bildnachweis

Tags: Modell1tiefseek

Related Posts

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

Januar 23, 2026
Google führt Opt-in ein "Persönliche Intelligenz" für AI Pro- und Ultra-Benutzer

Google führt Opt-in ein "Persönliche Intelligenz" für AI Pro- und Ultra-Benutzer

Januar 23, 2026
Spotify führt KI-gestützte Prompted Playlists ein

Spotify führt KI-gestützte Prompted Playlists ein

Januar 22, 2026
Snap führt im Family Center-Update eine detaillierte Bildschirmzeitverfolgung ein

Snap führt im Family Center-Update eine detaillierte Bildschirmzeitverfolgung ein

Januar 22, 2026
Google Fotos gestaltet das Teilen mit einem immersiven Vollbild-Karussell neu

Google Fotos gestaltet das Teilen mit einem immersiven Vollbild-Karussell neu

Januar 22, 2026
NexPhone bringt ein Triple-OS-Telefon für 549 US-Dollar auf den Markt

NexPhone bringt ein Triple-OS-Telefon für 549 US-Dollar auf den Markt

Januar 22, 2026

Recent Posts

  • LiveKit wird als Motor hinter dem Sprachmodus von ChatGPT mit einer Bewertung von 1 Milliarde US-Dollar bewertet
  • Vimeo beginnt nach der Übernahme von Bending Spoons mit Personalentlassungen
  • AWS und Prime Video schlagen zu, während Amazon eine neue Entlassungswelle vorbereitet
  • JBL bringt KI-betriebene BandBox-Verstärker auf den Markt
  • Oracle und Silver Lake führen die 14-Milliarden-Dollar-Rettung des TikTok-US-Geschäfts an

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.