视觉推理
-
DeepSeek多模态模型发布:用坐标“锚定”视觉推理,破解大模型“指代鸿沟”
五一假期将至,DeepSeek 选择在这个时间点公开一项新技术,引发了广泛关注。 昨天,DeepSeek 的陈小康在 X 平台上发布了一条消息,让人们开始聚焦 DeepSeek 在多模态领域的最新进展。 随后,部分用户已能在 DeepSeek 的网页端和 App 中体验到其多模态能力。 就在刚刚,DeepSeek 在 Github 上正式发布了多模态模型,并…
-
AI首次跨过门萨智商门槛:GPT-5.5 Pro文本IQ 130,视觉IQ 145,人类最高智商俱乐部迎来首位非人类成员
1946年至今,「人类最高智商俱乐部」门萨即将首次迎来一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro的文本智商达到130,恰好踩上门萨会员线;视觉智商更是飙升至145,直接杀入天才区。就在一年前,「LLM过不了130」还是技术圈的普遍共识,如今这堵墙被彻底砸碎! 这是AI第一次正式跨越门萨的入会门槛。 门萨130这道墙,这一脚踢得最…
-
自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。 当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。 为此,本文提出了 Mixture-of-Vi…
