DeepSeek V4 视觉功能灰度测试:真实图像理解能力上线,多模态拼图补齐
DeepSeek 的视觉能力终于来了!
研究员陈小康在社交媒体上发布了一条消息——
“Now, we see you.”
随后,另一位研究员陈德里也跟进确认,V4 的视觉模式已开始灰度测试。
看来,那条小鲸鱼的多模态拼图,即将完整。
已经具备真实图像理解能力
过去,用户上传图片后,模型只能识别其中的文字,主要做 OCR 工作。
但在今天的小更新后,被灰度到的用户首页出现了“识图模式”,下方还标注了“图片理解能力内测中”的字样。
从测试用户分享的截图来看,DeepSeek 视觉测试版已具备真实图像理解能力:它能识别出图片中的饮品、杯型等信息,思考 4 秒后输出完整描述。
这张图片没有明显文字,与之前仅识别文字的模式截然不同。
V4,满血归来
发布消息的两位研究员中,陈小康是 DeepSeek 多模态研究组负责人,北大博士毕业。他是 DeepSeek 两个重磅多模态项目的核心作者:
- Janus系列:统一多模态理解与生成模型;
- DeepSeek-VL2:基于 MoE 架构的视觉语言模型。
简单来说,DeepSeek 的视觉能力,正是由他带队研发出来的。
另一位研究员陈德里主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向。在过去两年里,DeepSeek 发布的 V2、V3、R1 等重要成果中,几乎都能看到他的名字,这次 V4 也不例外。
价格打骨折之后,视觉功能又来了——请问还有什么惊喜是我们不知道的?!
不得不说,DeepSeek V4,这次是真满血归来了。
参考链接:
[1] https://x.com/victor207755822
[2] https://x.com/PKUCXK/status/2049381471669080209
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32684

