Deepseek-OCR
-
DeepSeek开源视觉压缩模型引爆业界,单GPU实现高效长文本处理
DeepSeek-OCR创新性地提出“视觉压缩文本”范式,通过将文本信息转化为图像表征,有效解决大模型处理长文本时的算力瓶颈。该3B参数模型采用DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器双组件架构,实现用少量视觉token高效表示海量文本内容。实验表明,在10倍压缩率下解码准确率达97%,20倍压缩率仍保持60%准确率。仅需单张A100 GPU即可每日生成超20万页训练数据,在OmniDocBench基准上以最少token数达到SOTA性能。这一突破性方法不仅被业界誉为“AI的JPEG时刻”,更为统一视觉与语言处理、构建类人记忆机制提供了新路径。