Kurz vor Beginn des neuen Jahres erfuhr die Community der künstlichen Intelligenz von einem möglichen Durchbruch im Modelltraining. Ein Forscherteam des chinesischen KI-Unternehmens DeepSeek hat eine veröffentlicht Papier Darin wird ein neuartiger Architekturansatz namens Manifold-Constrained Hyper-Connections, kurz mHC, skizziert. Diese neue Methodik könnte Ingenieuren einen Weg bieten, große Sprachmodelle zu erstellen und zu skalieren, ohne die übermäßigen Rechenkosten und das Kapital, die normalerweise erforderlich sind.
Mit der Veröffentlichung von R1 rückte DeepSeek erstmals vor einem Jahr ins Rampenlicht der Kultur. Dieses Modell konkurrierte mit den Fähigkeiten von OpenAIs o1, wurde aber Berichten zufolge zu einem Bruchteil der Kosten trainiert. Die Veröffentlichung war ein Schock für die in den USA ansässigen Entwickler, da sie die Annahme in Frage stellte, dass nur riesige Kapital- und Hardwarereserven modernste KI produzieren könnten. Das neu veröffentlichte mHC-Papier, gehostet auf dem Preprint-Server arXiv, könnte als technologischer Rahmen für DeepSeeks kommendes Modell R2 dienen. Das R2-Modell wurde ursprünglich für Mitte 2025 erwartet, wurde jedoch verschoben, Berichten zufolge aufgrund von Bedenken von CEO Liang Wenfeng hinsichtlich der Leistung und Chinas begrenztem Zugang zu fortschrittlichen KI-Chips.
Das neue Papier versucht, eine komplexe technische Lücke zu schließen, die derzeit die Skalierbarkeit von KI behindert. Große Sprachmodelle basieren auf neuronalen Netzen, die darauf ausgelegt sind, Signale über viele Schichten hinweg zu bewahren. Wenn das Modell jedoch wächst und weitere Schichten hinzugefügt werden, kann das Signal gedämpft oder schlechter werden, wodurch das Risiko steigt, dass es zu Rauschen wird. Die Forscher vergleichen dies mit einem „Telefonspiel“: Je mehr Personen an der Kette beteiligt sind, desto höher ist die Wahrscheinlichkeit, dass die ursprüngliche Nachricht verwirrt oder verändert wird. Die zentrale technische Herausforderung besteht darin, den Kompromiss zwischen Plastizität und Stabilität zu optimieren und sicherzustellen, dass die Signale über so viele Schichten wie möglich ohne Verschlechterung erhalten bleiben.
Die Autoren des Papiers, darunter CEO Liang Wenfeng, bauten ihre Forschung auf Hyper-Connections (HCs) auf, einem Framework, das 2024 von Forschern von ByteDance eingeführt wurde. Standard-HCs diversifizieren die Kanäle, über die neuronale Netzwerkschichten Informationen austauschen, bergen jedoch das Risiko eines Signalverlusts und sind mit hohen Speicherkosten verbunden, die eine maßstabsgetreue Implementierung erschweren. Die mHC-Architektur von DeepSeek zielt darauf ab, dieses Problem zu lösen, indem sie die Hyperkonnektivität innerhalb eines Modells einschränkt. Dieser Ansatz bewahrt die durch HCs ermöglichte Informationskomplexität und umgeht gleichzeitig Speicherprobleme, wodurch das Training hochkomplexer Modelle auf eine Weise ermöglicht wird, die auch für Entwickler mit begrenzten Ressourcen praktisch ist.
Das Debüt des mHC-Frameworks deutet auf einen Wendepunkt in der Entwicklung der KI-Entwicklung hin. Bis vor Kurzem herrschte in der Branche die Meinung vor, dass nur die wohlhabendsten Unternehmen es sich leisten könnten, Spitzenmodelle zu entwickeln. DeepSeek beweist weiterhin, dass Durchbrüche eher durch clevere Technik als durch reine Finanzkraft erzielt werden können. Durch die Veröffentlichung dieser Forschung hat DeepSeek die mHC-Methode kleineren Entwicklern zugänglich gemacht und möglicherweise den Zugang zu erweiterten KI-Funktionen demokratisiert, wenn sich diese Architektur im erwarteten R2-Modell als erfolgreich erweist.





