Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

DeepSeek-OCR: Neues Open-Source-KI-Modell geht auf GitHub viral

byKerem Gülen
Oktober 21, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Ein neues Open-Source-Modell namens DeepSeek-OCR wurde veröffentlicht, das das traditionelle Paradigma großer Modelle durchbricht. Das Modell, das gestern Nachmittag als Open-Source-Lösung veröffentlicht wurde, hat in der KI-Community einen kometenhaften Aufstieg erlebt und über Nacht über 4.000 Sterne auf GitHub gewonnen. Das Hauptaugenmerk von DeepSeek-OCR liegt auf einem neuartigen visuellen Ansatz zur Textverarbeitung, der die Lösung einer der größten Herausforderungen der KI verspricht: der Langkontexteffizienz.

Wie DeepSeek-OCR das Spiel verändert

Das neue DeepSeek-OCR-Modell ist nicht nur ein weiteres Tool zum Lesen von Texten. Seine Stärke liegt in seiner Fähigkeit, Informationen zu komprimieren. Laut seinen Entwicklern kann das Modell einen Artikel mit 1.000 Wörtern in nur 100 visuelle Token komprimieren. Dies entspricht einer erstaunlichen zehnfachen Komprimierungsrate mit einer Genauigkeit von 97 %. Diese Effizienz ist bemerkenswert; Eine einzelne NVIDIA A100-GPU kann mit der DeepSeek-OCR-Methode 200.000 Datenseiten pro Tag verarbeiten. Dieser neue Verarbeitungsansatz könnte eine deutliche Veränderung der für große Modelle verwendeten Eingabemethoden bedeuten. Die schnelle Anziehungskraft von DeepSeek-OCR wurde durch hochkarätige Empfehlungen verstärkt. Andrej Karpathy, Mitbegründer von OpenAI und ehemaliger Direktor von Autopilot bei Tesla, äußerte sich begeistert über das Papier. Er nannte DeepSeek-OCR ein „gutes OCR-Modell“ und hob seinen „interessanteren Teil“ hervor: das Konzept einer Computer-Vision-KI, die sich „als Person mit natürlicher Sprache ausgibt“. https://twitter.com/karpathy/status/1980397031542989305 Karpathy glaubt, dass diese Visual-First-Methode eine überlegene Eingabe für große Sprachmodelle ist. Er schlug vor, dass LLMs Bilder als primäre Eingabe verwenden und selbst bei der Verarbeitung von reinem Text diesen zunächst in ein Bild umwandeln sollten. Seiner Ansicht nach würde dies zu einer viel höheren Informationskomprimierung und einem allgemeineren Informationsfluss führen. Karpathy betonte auch, dass der DeepSeek-OCR-Ansatz Probleme mit herkömmlichen „Wortsegmentierern“ oder Tokenisierern lösen könnte. Er argumentierte, dass Wortsegmentierer „hässlich und eigenständig“ seien, Unicode- und Byte-Codierungsprobleme mit sich brachten und sogar die Sicherheitsrisiken erhöhen könnten. Er betrachtet OCR nur als eine von vielen visuellen Textaufgaben und schlägt vor, dass Text-zu-Text-Aufgaben in visuelle Textaufgaben umgewandelt werden könnten, aber nicht umgekehrt. Diese Meinung wurde von Xie Saining, einem Assistenzprofessor an der New York University, bestätigt, der Karpathys Ansichten zur Integration von Computer Vision und natürlicher Sprachverarbeitung zustimmte.

So greifen Sie auf DeepSeek-OCR zu

Das DeepSeek-OCR-Modell ist als Open-Source-Projekt verfügbar unter GitHub Und Umarmendes Gesicht unter dem Namen deepseek-ai/DeepSeek-OCR. Das Modell mit 3 Milliarden Parametern steht zum Download und zur Verwendung mit dem Hugging Face zur Verfügung transformers Bibliothek. Die Ersteller haben Codebeispiele für Rückschlüsse auf NVIDIA-GPUs bereitgestellt, und das Repository enthält auch Anleitungen zur PDF-Verarbeitung und Modellbeschleunigung mithilfe von vLLM.

Tags: deepseek-ocrHervorgehoben

Related Posts

DeepSeek enthüllt die MODEL1-Architektur im GitHub-Update vor V4

DeepSeek enthüllt die MODEL1-Architektur im GitHub-Update vor V4

Januar 21, 2026
Nvidia-Aktien rutschen ab, da Inventec vor Verzögerungen bei H200-Chips in China warnt

Nvidia-Aktien rutschen ab, da Inventec vor Verzögerungen bei H200-Chips in China warnt

Januar 21, 2026
OnePlus sieht sich mit Demontageansprüchen konfrontiert, nachdem die weltweiten Telefonlieferungen um 20 % zurückgegangen sind

OnePlus sieht sich mit Demontageansprüchen konfrontiert, nachdem die weltweiten Telefonlieferungen um 20 % zurückgegangen sind

Januar 21, 2026
Apple verkleinert Dynamic Island beim iPhone 18 Pro durch Ausblenden von Face-ID-Sensoren

Apple verkleinert Dynamic Island beim iPhone 18 Pro durch Ausblenden von Face-ID-Sensoren

Januar 21, 2026
Google führt mit Princeton Review kostenlose SAT-Übungsprüfungen in Gemini ein

Google führt mit Princeton Review kostenlose SAT-Übungsprüfungen in Gemini ein

Januar 21, 2026
Lehane bestätigt, dass OpenAI Ende 2026 die erste Consumer-Hardware vorstellen wird

Lehane bestätigt, dass OpenAI Ende 2026 die erste Consumer-Hardware vorstellen wird

Januar 21, 2026

Recent Posts

  • DeepSeek enthüllt die MODEL1-Architektur im GitHub-Update vor V4
  • Nvidia-Aktien rutschen ab, da Inventec vor Verzögerungen bei H200-Chips in China warnt
  • OnePlus sieht sich mit Demontageansprüchen konfrontiert, nachdem die weltweiten Telefonlieferungen um 20 % zurückgegangen sind
  • Apple verkleinert Dynamic Island beim iPhone 18 Pro durch Ausblenden von Face-ID-Sensoren
  • Google führt mit Princeton Review kostenlose SAT-Übungsprüfungen in Gemini ein

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.