DeepSeek-OCR: Neues Open-Source-KI-Modell geht auf GitHub viral

Ein neues Open-Source-Modell namens DeepSeek-OCR wurde veröffentlicht, das das traditionelle Paradigma großer Modelle durchbricht. Das Modell, das gestern Nachmittag als Open-Source-Lösung veröffentlicht wurde, hat in der KI-Community einen kometenhaften Aufstieg erlebt und über Nacht über 4.000 Sterne auf GitHub gewonnen. Das Hauptaugenmerk von DeepSeek-OCR liegt auf einem neuartigen visuellen Ansatz zur Textverarbeitung, der die Lösung einer der größten Herausforderungen der KI verspricht: der Langkontexteffizienz.

Wie DeepSeek-OCR das Spiel verändert

Das neue DeepSeek-OCR-Modell ist nicht nur ein weiteres Tool zum Lesen von Texten. Seine Stärke liegt in seiner Fähigkeit, Informationen zu komprimieren. Laut seinen Entwicklern kann das Modell einen Artikel mit 1.000 Wörtern in nur 100 visuelle Token komprimieren. Dies entspricht einer erstaunlichen zehnfachen Komprimierungsrate mit einer Genauigkeit von 97 %. Diese Effizienz ist bemerkenswert; Eine einzelne NVIDIA A100-GPU kann mit der DeepSeek-OCR-Methode 200.000 Datenseiten pro Tag verarbeiten. Dieser neue Verarbeitungsansatz könnte eine deutliche Veränderung der für große Modelle verwendeten Eingabemethoden bedeuten. Die schnelle Anziehungskraft von DeepSeek-OCR wurde durch hochkarätige Empfehlungen verstärkt. Andrej Karpathy, Mitbegründer von OpenAI und ehemaliger Direktor von Autopilot bei Tesla, äußerte sich begeistert über das Papier. Er nannte DeepSeek-OCR ein „gutes OCR-Modell“ und hob seinen „interessanteren Teil“ hervor: das Konzept einer Computer-Vision-KI, die sich „als Person mit natürlicher Sprache ausgibt“. https://twitter.com/karpathy/status/1980397031542989305 Karpathy glaubt, dass diese Visual-First-Methode eine überlegene Eingabe für große Sprachmodelle ist. Er schlug vor, dass LLMs Bilder als primäre Eingabe verwenden und selbst bei der Verarbeitung von reinem Text diesen zunächst in ein Bild umwandeln sollten. Seiner Ansicht nach würde dies zu einer viel höheren Informationskomprimierung und einem allgemeineren Informationsfluss führen. Karpathy betonte auch, dass der DeepSeek-OCR-Ansatz Probleme mit herkömmlichen „Wortsegmentierern“ oder Tokenisierern lösen könnte. Er argumentierte, dass Wortsegmentierer „hässlich und eigenständig“ seien, Unicode- und Byte-Codierungsprobleme mit sich brachten und sogar die Sicherheitsrisiken erhöhen könnten. Er betrachtet OCR nur als eine von vielen visuellen Textaufgaben und schlägt vor, dass Text-zu-Text-Aufgaben in visuelle Textaufgaben umgewandelt werden könnten, aber nicht umgekehrt. Diese Meinung wurde von Xie Saining, einem Assistenzprofessor an der New York University, bestätigt, der Karpathys Ansichten zur Integration von Computer Vision und natürlicher Sprachverarbeitung zustimmte.

So greifen Sie auf DeepSeek-OCR zu

Das DeepSeek-OCR-Modell ist als Open-Source-Projekt verfügbar unter GitHub Und Umarmendes Gesicht unter dem Namen deepseek-ai/DeepSeek-OCR. Das Modell mit 3 Milliarden Parametern steht zum Download und zur Verwendung mit dem Hugging Face zur Verfügung transformers Bibliothek. Die Ersteller haben Codebeispiele für Rückschlüsse auf NVIDIA-GPUs bereitgestellt, und das Repository enthält auch Anleitungen zur PDF-Verarbeitung und Modellbeschleunigung mithilfe von vLLM.

Tags: deepseek-ocr Hervorgehoben

DeepSeek-OCR: Neues Open-Source-KI-Modell geht auf GitHub viral

Related Posts

DeepSeek enthüllt die MODEL1-Architektur im GitHub-Update vor V4

Nvidia-Aktien rutschen ab, da Inventec vor Verzögerungen bei H200-Chips in China warnt

OnePlus sieht sich mit Demontageansprüchen konfrontiert, nachdem die weltweiten Telefonlieferungen um 20 % zurückgegangen sind

Apple verkleinert Dynamic Island beim iPhone 18 Pro durch Ausblenden von Face-ID-Sensoren

Google führt mit Princeton Review kostenlose SAT-Übungsprüfungen in Gemini ein

Lehane bestätigt, dass OpenAI Ende 2026 die erste Consumer-Hardware vorstellen wird

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

DeepSeek-OCR: Neues Open-Source-KI-Modell geht auf GitHub viral

Wie DeepSeek-OCR das Spiel verändert

So greifen Sie auf DeepSeek-OCR zu

Related Posts

DeepSeek enthüllt die MODEL1-Architektur im GitHub-Update vor V4

Nvidia-Aktien rutschen ab, da Inventec vor Verzögerungen bei H200-Chips in China warnt

OnePlus sieht sich mit Demontageansprüchen konfrontiert, nachdem die weltweiten Telefonlieferungen um 20 % zurückgegangen sind

Apple verkleinert Dynamic Island beim iPhone 18 Pro durch Ausblenden von Face-ID-Sensoren

Google führt mit Princeton Review kostenlose SAT-Übungsprüfungen in Gemini ein

Lehane bestätigt, dass OpenAI Ende 2026 die erste Consumer-Hardware vorstellen wird

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us