大模型爆料

DeepSeek开源视觉压缩模型引爆业界，单GPU实现高效长文本处理

DeepSeek-OCR创新性地提出“视觉压缩文本”范式，通过将文本信息转化为图像表征，有效解决大模型处理长文本时的算力瓶颈。该3B参数模型采用DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器双组件架构，实现用少量视觉token高效表示海量文本内容。实验表明，在10倍压缩率下解码准确率达97%，20倍压缩率仍保持60%准确率。仅需单张A100 GPU即可每日生成超20万页训练数据，在OmniDocBench基准上以最少token数达到SOTA性能。这一突破性方法不仅被业界誉为“AI的JPEG时刻”，更为统一视觉与语言处理、构建类人记忆机制提供了新路径。

2025年10月21日

454000

AI产业动态

Gemini 3.0 Pro内测流出，编程实力惊人！下周上线

谷歌Gemini 3.0 Pro即将上线，实测表现惊艳。新一代模型在编程、视觉生成和多模态能力上大幅提升，不仅轻松通过“小球六边形重力摩擦”等经典测试，更被开发者盛赞为“有史以来最强前端开发模型”。与此同时，谷歌正全面整合Gemini生态系统，从即将推出的轻量级Gemma 3到全新的视觉化界面设计，预示着AI竞赛将进入全新阶段。

2025年10月4日

422022

AI产业动态

Sora 2 来袭：生成20秒逼真视频，正面碾压谷歌Veo 3？

OpenAI 正式推出新一代 AI 视频模型 Sora 2，能直接生成长达 20 秒的 1080p 高清视频，在物理真实感、可控性和音画同步方面显著提升。实测显示，其生成效果逼真，但在复杂动作和中文理解上仍有瑕疵。与竞争对手谷歌 Veo 3 相比，双方在各场景下互有胜负。同时，OpenAI 推出了类似 TikTok 的 Sora 应用，旨在建立产品生态，但其“全 AI 视频流”模式能否成功，仍有待观察。

2025年10月1日

713000