Ein neues Open-Source-Modell namens DeepSeek-OCR wurde veröffentlicht, das das traditionelle Paradigma großer Modelle durchbricht. Das Modell, das gestern Nachmittag als Open-Source-Lösung veröffentlicht wurde, hat in der KI-Community einen kometenhaften Aufstieg erlebt und über Nacht über 4.000 Sterne auf GitHub gewonnen. Das Hauptaugenmerk von DeepSeek-OCR liegt auf einem neuartigen visuellen Ansatz zur Textverarbeitung, der die Lösung einer der größten Herausforderungen der KI verspricht: der Langkontexteffizienz.
Wie DeepSeek-OCR das Spiel verändert
Das neue DeepSeek-OCR-Modell ist nicht nur ein weiteres Tool zum Lesen von Texten. Seine Stärke liegt in seiner Fähigkeit, Informationen zu komprimieren. Laut seinen Entwicklern kann das Modell einen Artikel mit 1.000 Wörtern in nur 100 visuelle Token komprimieren. Dies entspricht einer erstaunlichen zehnfachen Komprimierungsrate mit einer Genauigkeit von 97 %. Diese Effizienz ist bemerkenswert; Eine einzelne NVIDIA A100-GPU kann mit der DeepSeek-OCR-Methode 200.000 Datenseiten pro Tag verarbeiten. Dieser neue Verarbeitungsansatz könnte eine deutliche Veränderung der für große Modelle verwendeten Eingabemethoden bedeuten. Die schnelle Anziehungskraft von DeepSeek-OCR wurde durch hochkarätige Empfehlungen verstärkt. Andrej Karpathy, Mitbegründer von OpenAI und ehemaliger Direktor von Autopilot bei Tesla, äußerte sich begeistert über das Papier. Er nannte DeepSeek-OCR ein „gutes OCR-Modell“ und hob seinen „interessanteren Teil“ hervor: das Konzept einer Computer-Vision-KI, die sich „als Person mit natürlicher Sprache ausgibt“. https://twitter.com/karpathy/status/1980397031542989305 Karpathy glaubt, dass diese Visual-First-Methode eine überlegene Eingabe für große Sprachmodelle ist. Er schlug vor, dass LLMs Bilder als primäre Eingabe verwenden und selbst bei der Verarbeitung von reinem Text diesen zunächst in ein Bild umwandeln sollten. Seiner Ansicht nach würde dies zu einer viel höheren Informationskomprimierung und einem allgemeineren Informationsfluss führen. Karpathy betonte auch, dass der DeepSeek-OCR-Ansatz Probleme mit herkömmlichen „Wortsegmentierern“ oder Tokenisierern lösen könnte. Er argumentierte, dass Wortsegmentierer „hässlich und eigenständig“ seien, Unicode- und Byte-Codierungsprobleme mit sich brachten und sogar die Sicherheitsrisiken erhöhen könnten. Er betrachtet OCR nur als eine von vielen visuellen Textaufgaben und schlägt vor, dass Text-zu-Text-Aufgaben in visuelle Textaufgaben umgewandelt werden könnten, aber nicht umgekehrt. Diese Meinung wurde von Xie Saining, einem Assistenzprofessor an der New York University, bestätigt, der Karpathys Ansichten zur Integration von Computer Vision und natürlicher Sprachverarbeitung zustimmte.
So greifen Sie auf DeepSeek-OCR zu
Das DeepSeek-OCR-Modell ist als Open-Source-Projekt verfügbar unter GitHub Und Umarmendes Gesicht unter dem Namen deepseek-ai/DeepSeek-OCR. Das Modell mit 3 Milliarden Parametern steht zum Download und zur Verwendung mit dem Hugging Face zur Verfügung transformers Bibliothek. Die Ersteller haben Codebeispiele für Rückschlüsse auf NVIDIA-GPUs bereitgestellt, und das Repository enthält auch Anleitungen zur PDF-Verarbeitung und Modellbeschleunigung mithilfe von vLLM.





