DeepSeek V4视觉功能灰度测试:真实图像理解能力上线,多模态拼图补齐

DeepSeek V4 视觉功能灰度测试:真实图像理解能力上线,多模态拼图补齐

DeepSeek 的视觉能力终于来了!

研究员陈小康在社交媒体上发布了一条消息——
“Now, we see you.”

随后,另一位研究员陈德里也跟进确认,V4 的视觉模式已开始灰度测试。

看来,那条小鲸鱼的多模态拼图,即将完整。


已经具备真实图像理解能力

过去,用户上传图片后,模型只能识别其中的文字,主要做 OCR 工作。

但在今天的小更新后,被灰度到的用户首页出现了“识图模式”,下方还标注了“图片理解能力内测中”的字样。

从测试用户分享的截图来看,DeepSeek 视觉测试版已具备真实图像理解能力:它能识别出图片中的饮品、杯型等信息,思考 4 秒后输出完整描述。

这张图片没有明显文字,与之前仅识别文字的模式截然不同。


V4,满血归来

发布消息的两位研究员中,陈小康是 DeepSeek 多模态研究组负责人,北大博士毕业。他是 DeepSeek 两个重磅多模态项目的核心作者:

  • Janus系列:统一多模态理解与生成模型;
  • DeepSeek-VL2:基于 MoE 架构的视觉语言模型。

简单来说,DeepSeek 的视觉能力,正是由他带队研发出来的。

另一位研究员陈德里主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向。在过去两年里,DeepSeek 发布的 V2、V3、R1 等重要成果中,几乎都能看到他的名字,这次 V4 也不例外。

价格打骨折之后,视觉功能又来了——请问还有什么惊喜是我们不知道的?!

不得不说,DeepSeek V4,这次是真满血归来了。

参考链接:
[1] https://x.com/victor207755822
[2] https://x.com/PKUCXK/status/2049381471669080209


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32684

(0)
上一篇 3小时前
下一篇 2026年4月8日 下午1:45

相关推荐

  • 阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

    2025年,视频生成技术迎来突破性进展,行业范式正在重塑。9月,OpenAI发布的Sora 2通过“客串”功能攻克了长期困扰行业的角色一致性难题,使AI视频从随机生成转向可控创作。商业应用同步加速:B端AI短剧与漫剧批量上线,显著降低制作成本;C端社交平台涌现“粘土滤镜”等爆款特效,众多博主开始常态化使用AI制作剧情短片。 然而,顶尖技术对普通用户而言仍存在…

    2025年12月17日
    52500
  • 阿里Meoo:1分钟零代码打造实时互动应用,AI开发工具让编程小白也能轻松上线产品

    阿里Meoo:1分钟零代码打造实时互动应用,AI开发工具让编程小白也能轻松上线产品 你是说这个便利贴留言墙,聊着天就做出来了? 还能分享链接,所有人点开就能实时互动、同步看到彼此的留言? 没错!用的就是阿里ATH新推出的AI开发工具Meoo(秒悟)。 整个过程无需编写一行代码、无需配置环境、无需购买服务器、无需搭建数据库—— 只需通过自然语言描述需求,1分钟…

    2026年4月16日
    29400
  • Luma发布Uni-1图像生成模型:统一理解与生成,中文文字渲染能力突出

    上周,谷歌推出了 Nano Banana 2 模型,以其快速且经济的特性在社交平台上引发了广泛关注。 与此同时,海外 AI 初创公司 Luma 发布了一款全新的图像生成模型 Uni-1。 Uni-1 是 Luma 首个将“理解”与“生成”功能统一在同一架构下的模型,旨在使 AI 不仅能够生成图像,还能更好地理解指令。 例如,它可以生成极具视觉冲击力的时尚杂志…

    2026年3月6日
    61800
  • 宇树科技发布Unitree As2机器狗:越野性能颠覆想象,仿生大模型赋能智能伙伴

    新年假期刚刚结束,AI与机器人已成为全民热议的焦点。在春晚舞台上,宇树科技的机器人凭借高动态、高协同的全自主集群控制技术,完成了全球首次公开表演,成为备受瞩目的科技明星。 当大众的目光聚焦于宇树的人形机器人时,其最初的产品形态——机器狗,似乎被暂时遗忘。就在昨日,宇树科技正式发布了其最新四足机器人产品:Unitree As2。 Unitree As2集超强越…

    2026年2月25日
    40500
  • 腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

    一句话让照片变大片,比专业软件简单、比AI修图更可控! 腾讯混元携手厦门大学推出JarvisEvo——一个统一的图像编辑智能体,旨在模拟人类专家设计师,通过迭代编辑、视觉感知、自我评估和自我反思来完成图像处理。 “像专家一样思考,像工匠一样打磨”。JarvisEvo不仅能调用Lightroom等专业工具进行修图,更能“看见”修图后的变化并进行自我评判,从而实…

    2025年12月26日
    30300