DeepSeek最新开源模型DeepSeek-OCR引发广泛关注,以创新性的“视觉压缩文本”思路解决长文本算力难题。
核心突破:
将文本压缩为图像处理,大幅减少token使用
3B参数实现SOTA性能,单GPU可运行
压缩率10倍时准确率仍达97%
技术亮点:
编码器实现高压缩比视觉token
支持复杂文档解析
为无限长上下文处理提供新思路
该项目已在GitHub获3.3K星,HuggingFace热榜第二,被业内誉为“AI的JPEG时刻”。
项目地址:GitHub & HuggingFace搜索DeepSeek-OCR