Deepseek-OCR

AI产业动态

DeepSeek开源视觉压缩模型引爆业界，单GPU实现高效长文本处理

DeepSeek-OCR创新性地提出“视觉压缩文本”范式，通过将文本信息转化为图像表征，有效解决大模型处理长文本时的算力瓶颈。该3B参数模型采用DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器双组件架构，实现用少量视觉token高效表示海量文本内容。实验表明，在10倍压缩率下解码准确率达97%，20倍压缩率仍保持60%准确率。仅需单张A100 GPU即可每日生成超20万页训练数据，在OmniDocBench基准上以最少token数达到SOTA性能。这一突破性方法不仅被业界誉为“AI的JPEG时刻”，更为统一视觉与语言处理、构建类人记忆机制提供了新路径。

2025年10月21日
451000