DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

本以为DeepSeek这轮疯狂的AI更新已经暂告段落,但谁也没想到,就在上周刚刚发布V4版本之后,它又猝不及防地抛出了一个更大的惊喜。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

就在刚刚,DeepSeek正式上线了识图模式,目前正处于灰度测试阶段。这意味着,被业界热议了一整年的DeepSeek多模态能力,终于落地了!

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

目前,DeepSeek网页版和App更新后,部分用户都有可能被灰度到这一新功能。APPSO第一时间进行了实测。DeepSeek负责多模态的研究员陈小康在X上发文:“Now, we see you”,并配上了一张图。我们让DeepSeek自己来解读这张图背后的含义。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

结果显示,它能识别出图中隐含的隐喻。尽管图片中没有任何直接提及DeepSeek的文字,但通过结合发布者身份和图像内容,它推断出这是一次关于DeepSeek多模态能力的更新。最后,它给出了一句非常精准的总结:“那只看不见世界的鲸鱼,现在终于睁开眼了。”

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

比起最终的答案,APPSO发现DeepSeek识图模式的思考过程反而更有趣。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

上下滑动查看完整思考过程。过去,AI看到那张推特截图,大概率只会老老实实地描述:“两只蓝色鲸鱼,左边戴眼罩,右边没戴。”但DeepSeek一上来就开始追问:这人是谁?他为什么发这个?鲸鱼logo代表什么?眼罩上的XX又在暗示什么?

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

这才是我们刷到一张梗图时大脑里真正发生的事情。没人会先数鲸鱼有几只,我们关心的是谁在对谁说话,话里藏着什么潜台词。而且,它还会反复进行自我纠正。比如,它一度把图中的眼罩联想到《天元突破》里卡米那的眼镜,随后又自己打脸:“不,这太宅男向了。”“等等,仔细看……”“再换个角度……”前面的推理、联想和自我纠正已经足够精彩,但整段思考过程中最反常识的部分,是在推理接近尾声时,它突然自己喊了个暂停,给自己开了一场小型的答辩会。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

它列出了三个问题自问自答:先确认客观事实,再推测事件性质,最后才做解读。DeepSeek把这种连我们自己都没意识到的思维习惯,直接做成了识图的思考逻辑。就像我们平时在得出结论前,脑子里也会过一遍:“等等,这个前提对吗?那个假设站得住吗?万一我理解错了方向呢?”我们还把经典的AI测试题——数手指——抛给了DeepSeek。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

它思考了一番,还是答错了,中间还吐槽了一句:“我真的是数晕了。”不过,如果我再稍加引导,它还是能给出正确答案。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

在另一个数手指的测试中,第一次回答错误后,我没有提供答案,只是让它再想想,它也能正确回答。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

我们还尝试了一个经典的“爱心”测试。这张图此前难倒了所有AI,DeepSeek同样没能识别出来。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

抛开这些难度较高的极限测试,APPSO初步测试下来,DeepSeek识图的准确率其实相当高。如果不开启思考模式,甚至半秒就能给出答案。比如,这张电影剧照的识别,应该已经在其数据库内了。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

对抽象图片的理解也十分到位。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

优衣库这个商品图的理解也没有问题。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

不过,识图过程似乎没有联网搜索,只能基于知识库回答。因此,一些较新的内容无法识别,比如苹果的新吉祥物Finder酱。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

此外,识图模式上传的文件格式也有限制,例如不支持HEIF格式。

DeepSeek突然上线识图模式,AI圈炸了:这只鲸鱼终于睁眼了!

DeepSeek识图模式的上线,意味着这只鲸鱼终于睁开了眼睛,但这或许只是一个开始。DeepSeek多模态的更多能力很可能很快会陆续更新。补齐这块短板后,整个国产模型的格局也可能再次迎来微妙的变化。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32716

(0)
上一篇 11小时前
下一篇 3小时前

相关推荐

  • 算力基建危机:从微软GPU闲置到太空数据中心革命

    当前全球AI算力竞赛正面临一个被长期忽视的底层危机:芯片制造能力已远超基础设施承载极限。近期两则看似独立的新闻——微软囤积GPU却无法部署、英伟达H100被发射至太空组建数据中心——实则共同揭示了算力生态系统的结构性失衡。本文将深入剖析这一困境的技术根源、产业影响与创新解决方案。 微软CEO萨提亚·纳德拉在与OpenAI山姆·奥特曼的对话中透露,公司手握大量…

    2025年11月4日
    29100
  • 谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,统一文本、图像、视频、音频、文档嵌入空间

    谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2,这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前,该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。 统一的多模态嵌入空间 与此前仅支持文本向量化的嵌入模型不同,Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多…

    2026年3月11日
    39800
  • 2025人工智能年度评选深度解析:五大奖项如何定义行业标杆与未来趋势

    随着人工智能技术从实验室走向规模化应用,行业亟需权威的评估体系来识别真正的创新力量与商业价值。2025人工智能年度评选的设立,正是对这一需求的系统性回应。本次评选从企业、产品、人物三大维度设立五类奖项,不仅是对过去一年成果的总结,更是对未来发展方向的指引。 从企业维度看,评选分为“领航企业”与“潜力创业公司”两类,这反映了行业成熟度与创新活力的双重关注。领航…

    2025年11月17日
    33000
  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    34100
  • 工业智算2026:万亿规模下的技术融合与生态突围

    在第四次工业革命纵深推进的背景下,工业智算作为连接人工智能与实体经济的核心枢纽,正从技术探索阶段迈入规模化应用的关键周期。 本报告基于全球工业智算产业发展现状,结合2025-2026年最新行业数据与技术突破,系统阐释工业智算的核心内涵、技术架构与产业价值,深度剖析美欧等发达国家产业链布局与发展路径,全面梳理我国工业智算在市场规模、技术创新、国产替代等方面的进…

    2026年1月26日
    50700