Yann LeCun力推的世界模型技术路线,如今已被一家深圳初创公司提前布局。
这家公司名为视启未来,正是打造全球首个视觉大模型——Grounding DINO和DINO-X——的核心团队。
他们不满足于让AI仅仅“看见世界”,而是致力于将其推向“预见未来”的能力边界。

如今,他们的战略重心落在了隐空间世界模型上。
值得注意的是,LeCun为了深耕这一技术方向,毅然离开Meta,创立AMI Labs,并成功完成10.3亿美元融资,创下欧洲史上最大种子轮融资纪录。
与主流世界模型专注于预测下一帧画面不同,隐空间世界模型要求AI在更抽象的表征空间内,学习动作与状态变化之间的因果规律。
5月15日,在2026全球人工智能终端展暨第七届深圳国际人工智能展览会的“AGI前夜:大模型的觉醒时刻”论坛上,视启未来创始人张磊在主题演讲中明确表态:
构建世界模型极具挑战,打造隐空间世界模型更是难上加难,但我们选择迎难而上。

为何隐空间世界模型被视为更艰难的道路?其难点究竟在哪里?
一旦成功,又将带来怎样的突破?
“隐空间世界模型很难,但我们一定要做”
随着人工智能加速从数字世界向物理世界渗透,智能体面临的核心任务已发生根本性转变。
它不仅要“看见”,更要“预见”——理解因果关系,把握时空动态,在稀疏反馈与复杂约束下完成规划、决策与学习。
强化学习为从交互经验中学习提供了基本范式。以大型语言模型为例,从ChatGPT应用强化学习,到o系列模型及编码能力的突破,本质上都是强化学习算法应用的持续演进。
然而,物理世界存在样本效率低、安全约束严、交互成本高、环境不可重置等特性,单纯依赖在线试错的方法难以扩展到真实场景。

△ AI生成
张磊认为,真正的智能绝不能仅停留在“看到当前状态就输出动作”的层面。
如果缺乏对未来状态的预判和对行动后果的想象,智能体就无法在物理世界中持续展开决策链条,更难以真正融入现实环境。
这正是世界模型的核心价值所在:让AI从经验数据中学习动作、状态与结果之间的因果关系,在行动前先“想象”下一步可能发生什么,为强化学习提供可扩展的内部预演空间。
在张磊看来,当前各类世界模型路线都在不同方向上快速推进。但对机器人和物理智能而言,一个核心挑战依然存在:
模型学到的究竟是像素级相关性,还是可用于规划和控制的物理规律与因果关系?
如果模型在像素层面学习,很容易被纹理、光照、背景等细节干扰,导致学习效率低下,难以真实掌握因果关系和物理规律。
这正是LeCun所说的“在输入空间做预测是糟糕的”的原因,也是隐空间世界模型的出发点。

Latent表征的价值在于,它可以将高维、冗余的视觉输入压缩为更抽象的状态表示,过滤掉大量与决策无关的像素细节,将学习重点聚焦于更本质的变化规律。
可以说,表征学习是世界模型中最核心的问题。
换言之,隐空间世界模型不执着于“未来画面长什么样”,而更关注“世界状态如何演化”,因此更适合学习物理规律和因果关系。
但视启发现,现有隐空间方案仍缺少关键一步。
大多数latent表征虽已脱离像素,却并未真正“理解物体”。
如果模型无法识别场景中的独立物体、物体间的关系、哪些变化来自视角、哪些变化来自交互,那么它要在隐空间中直接学习物理规律,难度依然极高。
原因很简单:物理规律本质上并不作用于像素,而是作用于物体、结构和关系上。
我们制作了一张图,以便理解:

△ AI生成
张磊认为,latent表征必须具备理解物体的能力,才能更好地学习物理规律。
视启的解决方案是将物体理解能力引入latent表征学习,通过2D感知、3D表征、分割与语义理解,让latent表征具备“世界由哪些物体构成、它们处于什么空间位置、具有什么语义属性”的基础认知,再进一步学习动作驱动下的状态转移与物理演化。
通过引入物体理解的结构信息,模型可以更高效地压缩数据,从海量数据中学习到内在、更本质的规律。
这样,模型学习的不再是黑盒式表征,而是一个更具对象性、空间性和物理性的结构化latent世界。
因此,视启将自己的路线称为“视觉原生世界模型”,这也是他们与其他隐空间世界模型的关键区别。
为了实现真正可落地的物理世界模型,张磊认为,这类模型需要同时具备三个核心特征:
Object-Centric,以物体为中心。
表征不能停留在像素层面,必须具备对物体的理解能力,能够识别世界由哪些对象构成、它们之间如何交互。只有这样,模型才有可能从海量数据中学习到更稳定、更可泛化的物理规律,而非停留在表面的视觉相关性上。

Action-Aligned,跨本体动作对齐。
将人手动作、机械臂操作以及不同机器人本体的数据对齐到统一表示空间,从而更高效地利用大量人类交互数据,帮助机器人更快学会如何与环境互动。
Causality-Driven,因果驱动。
世界模型要学习的是“执行某个动作之后,世界状态将如何变化”。只有具备这种因果建模能力,世界模型才能真正与强化学习结合,支持机器人在与环境持续交互中不断提升决策、学习和泛化能力。
张磊表示,视启对方向的判断始终准确,只是赛道的热闹程度确实超出了当初的预想。
不过,这反而印证了视启坚守隐空间路线的前瞻性——当所有人都冲向像素空间时,视启已在更难、也更正确的方向上积累了先发优势。
从全球第一视觉大模型,到视觉原生世界模型
张磊对世界模型的深刻见解并非凭空而来。
这背后是视启长期构建的以物体为中心的视觉理解能力,也是团队多年积累的成果。
视启未来,其核心团队来自粤港澳大湾区数字经济研究院计算机视觉与机器人研究中心(IDEA CVR)孵化的DINO-X团队。
该团队已连续推出DINO、Grounding DINO、DINO-X等代表性工作,持续推动开放世界目标检测与物体级视觉理解的发展。

Grounding DINO已成为开放集检测领域的重要里程碑之一,而DINO-X则是面向开放世界物体理解的全球领先视觉大模型。

今年4月,谷歌DeepMind发表的Vision Banana论文中,多次提及视启未来的DINO-X模型。
这篇论文的署名作者包括何恺明和谢赛宁,在SA-CO/Gold instance segmentation任务上,强调DINO-X是zero-shot transfer物体理解的全球SOTA。

此外,DINO系列论文也被Meta的SAM2/SAM3、阿里的Qwen系列、字节的Seed系列广泛引用。这表明视觉物体理解基模门槛极高,依赖强大的视觉基座大模型预训练能力。
自2023年以来,视启未来凭借Grounding-DINO与DINO-X系列,在开放物体理解榜单上保持了最长的连续领先时间。
有趣的是,DINO意为“恐龙”,恐龙也成为该团队各类模型的标志。
他们还推出了一款基于视觉提示做物体检测的模型T-Rex2(ECCV 2024),即恐龙家族的霸王龙。
DINO系列解决的核心问题,正是Object-Centric世界模型最需要的底层能力:让机器真正“看懂”世界由哪些物体构成、它们在哪里、它们之间是什么关系。

视启未来的路线更强调面向真实世界交互的Object-Centric表征能力,即围绕“物体是什么、在哪里、如何被引用、如何与环境发生关系”建立统一建模能力。
在此基础上,视启未来不仅在2D物体检测与分割、3D物体理解与语义理解方面建立了显著优势,还持续向3D动作理解延伸,形成了从看见物体,到理解物体,再到理解动作与物体交互的完整能力栈。

从这个意义上说,视启做世界模型并非转型,而是在其原有技术基础上的顺势延伸。
单个模型的成功或许可以归结为运气,但连续打造出Grounding DINO、DINO-X等全球领先的物体理解视觉基座大模型,更能证明团队已经具备了成熟的底层能力。
对于一家专注于基础模型的团队而言,这意味着它不仅会“做模型”,更掌握了系统化的数据组织、预训练范式、能力迁移和任务扩展方法。这恰恰是基模训练能力最具说服力的体现。
这种能力已经开始在产品层面落地。5月15日,视启未来与百度智能云在2026全球人工智能终端展上联合发布了EgoTwin——全球最新的高质量Ego人手3D对齐引擎。

如果说视觉原生世界模型是视启未来的长期技术路线,那么EgoTwin就是这条路线在具身智能数据领域的首个产品化抓手。
EgoTwin直击行业最棘手的难题——将人类手部操作数据转化为机器人可用的训练数据,其数据采集效率是行业主流方案的3.75倍。
更重要的是,EgoTwin不仅是一个数据采集工具。它一方面将人类Ego操作视频转化为机器人可学习的数据资产,另一方面也为世界模型提供了Action-Aligned的训练底座,成为“数据引擎—模型迭代—本体落地”闭环的第一步。

更大的愿景,张磊直言:世界模型将成为物理世界AI的核心基础设施。
在他看来,在数字世界中,大语言模型正扮演着类似OS(操作系统)的角色:底层是GPU算力,中间是大语言模型,上层是各类Agent。
这一路径已被充分验证,无论是在Coding领域还是其他Agent形态,都证明了其可行性。
物理世界中,类似的范式转变正在发生。不过,物理世界的基础设施除了算力,还加入了机器人本体。
在这一层之上,张磊带领的世界模型团队正在打通Learning From Experience的范式。机器人在学习过程中可以变得更加自主、高效,从而获得更强的物理任务技能。
英伟达科学家Jim Fan年初指出,下一个词预测是第一种预训练范式,现在我们正经历第二次范式转变:下一个物理状态预测。
他预言,2026年将被载入史册,成为世界模型为机器人技术奠定真正基础的第一年。

张磊认同这一判断,同时强调:视觉,是物理智能最主要的信息入口,也是通向世界模型的关键优势方向。
视启未来长期积累的检测、识别、分割、跟踪、3D物体理解、3D动作理解与开放世界感知能力,不仅让机器更好地“看见”世界,也为其进一步建模世界、预演未来、支撑行动提供了坚实基础。
世界级目标,吸引世界级人才
要做世界级的模型,首先需要世界级的团队。
视启未来创始人兼CEO张磊,是这支团队最重要的底色。

张磊博士,师从中国人工智能奠基人张钹院士,并曾长期在计算机科学与人工智能领域世界级专家、美国国家工程院外籍院士沈向洋先生领导下工作。
作为IEEE Fellow,他累计发表了200余篇顶级会议和期刊论文,Google Scholar总引用已超过7.3万次。
他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门担任首席研究员,带领团队从事计算机视觉基础研究,及其在大规模图像分析、物体检测、视觉语言多模态理解方面的应用。研究成果被广泛用于微软必应搜索及认知服务云计算平台。

值得一提的是,在张磊攻读博士学位之前,他是国内最早一批参与室内移动机器人研究的人员之一。
绕了一大圈,从机器人到计算机视觉,再从视觉回到机器人,这条轨迹并非偶然,而是他对物理世界AI判断的一贯逻辑在驱动。
2021年,张磊加入IDEA研究院,带领团队研发DINO-X视觉大模型,为机器赋予物体级理解能力。
随后,他孵化视启未来,将这套能力推向世界模型赛道。
视启未来还邀请了张钹院士、沈向洋院士担任科学顾问。团队核心成员主要来自清华大学、微软、腾讯等顶尖高校与国内外科技大厂。
据视启透露,团队中约50%具有清华背景,约20%拥有智能驾驶相关经验,80%为90后青年人才,100%具备海外或国内头部科技企业经历。
近期,视启在北京进一步吸引了多位国内机器人和强化学习方向的优秀年轻算法人才加入。
他们的主动选择加入,本身就是一种投票——投的是视启在世界模型方向上的技术判断,也是他们对这支团队能够再创辉煌的信心。

做世界模型很难,做隐空间世界模型更难。
曾经打造出世界第一视觉大模型的视启团队,正把同样的信念,押注在隐空间世界模型上。
张磊和他的视启未来,正走在将隐空间世界模型贯彻到底、知难而进的路上。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36091

