视觉推理 - 鲸林向海

DeepSeek多模态模型发布：用坐标“锚定”视觉推理，破解大模型“指代鸿沟”

五一假期将至，DeepSeek 选择在这个时间点公开一项新技术，引发了广泛关注。昨天，DeepSeek 的陈小康在 X 平台上发布了一条消息，让人们开始聚焦 DeepSeek 在多模态领域的最新进展。随后，部分用户已能在 DeepSeek 的网页端和 App 中体验到其多模态能力。就在刚刚，DeepSeek 在 Github 上正式发布了多模态模型，并…

2026年4月30日

595000

大模型评测

AI首次跨过门萨智商门槛：GPT-5.5 Pro文本IQ 130，视觉IQ 145，人类最高智商俱乐部迎来首位非人类成员

1946年至今，「人类最高智商俱乐部」门萨即将首次迎来一位非人类成员。根据LisanBench最新跑分，GPT-5.5 Pro的文本智商达到130，恰好踩上门萨会员线；视觉智商更是飙升至145，直接杀入天才区。就在一年前，「LLM过不了130」还是技术圈的普遍共识，如今这堵墙被彻底砸碎！这是AI第一次正式跨越门萨的入会门槛。门萨130这道墙，这一脚踢得最…

2026年4月26日

625000

AI产业动态

自适应视觉推理新突破：MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果，该工作已被 ICLR 2026 接收。当前，视觉推理方法主要衍生出两种思考模式：一种是与大型语言模型一致的纯文本思考模式；另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势，但现有工作通常只专注于单一模式，未能充分利用二者之间的互补性。为此，本文提出了 Mixture-of-Vi…

2026年2月5日

310000