蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

大模型的革命行将结束,即将开启的会是物理 AI 时代?

上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。

蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演,只有具备了这种「预测未来」的能力,AI 才能进行复杂的规划。

在 2026 年开年,率先把物理 AI 这一最前沿的方向推进一步的,是一家中国公司。

在刚刚过去的一周,蚂蚁集团旗下的蚂蚁灵波科技(Robbyant)连续四天开源发布了四款具身智能模型:高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA、世界模型 LingBot-World 到具身世界模型 LingBot-VA。

蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

蚂蚁正在通过一套独特的「逆向思维」,试图探索具身智能(Embodied AI)新路径 —— 从物理交互出发,在真实世界中构建智能。

蚂蚁的 AI First,不止于数字世界

蚂蚁灵波认为,下一个 AI 技术的突破将会是物理世界的 AI:世界模型、因果关系、真正的规划。

蚂蚁灵波 CEO 朱兴表示,蚂蚁的 AGI 版图包括数字智能与物理智能。在设立灵波科技前,蚂蚁已布局多家具身智能及机器人相关企业,覆盖整机、核心零部件、灵巧手、具身大模型等多个关键环节。2025 年,蚂蚁灵波科技正式成立,承担在具身领域探索 AGI 的使命。经过一年的研发,团队端出了四款具身模型,在一周内集中开源。

朱兴介绍,灵波的工作「从真实硬件出发」,希望从数字世界迈向物理世界,为机器人打造更聪明的大脑。

「我们笃定数字世界的智能还远没有达到上限,语言模型、多模态模型、视频生成模型还会进一步发展」,朱兴说,「蚂蚁的百灵团队负责数字智能的技术演进,灵波也积极参与其中,因为很多基础技术在具身模型的训练中可以复用。同时灵波还负责另一条路径的探索。」

他表示,「物理世界智能跟数字世界智能最大的不同,就是前者可以拿到真实世界的反馈。从真实反馈中学习往往是『智能』产生的必要条件。」

因此,灵波过去一年核心聚焦在具身基模的训练。「我们希望具身智能领域能和大语言模型一样,随着基模能力的提升让物理世界整体智能水涨船高。」

技术路线:真实数据优先

本次发布中最值得玩味的,是蚂蚁灵波对具身智能技术路线的「非主流」选择。

目前,具身智能领域的流行路径之一是「Sim-to-Real」(从仿真到现实):其核心思路是,为了解决机器人训练数据稀缺、试错成本高等问题,先在仿真的虚拟环境中海量、安全地训练机器人(或 AI 智能体),再将习得的策略「迁移」到现实世界的机器人身上。

然而,蚂蚁灵波对此路径给出了不一样的观点。

「Sim-to-Real 不是我们选择的主技术路线,」首席科学家沈宇军在采访中表示。「我们坚定认为基模的训练应该更多地使用互联网数据和真实数据。所谓的『真实数据成本高』也只是阶段性的,随着产业发展会有序解决,比如可以通过更低成本更加高效的数采方式等等。」

同时,沈宇军认为「仿真数据很多场景还无法模拟」的挑战是切实存在的 —— 流体、柔性物体、传感器误差,这些仿真很难搞定,解决周期可能比降低真实数据的采集成本更久。

相比于在虚拟温室里「造梦」,蚂蚁灵波选择了一条更艰难但可能更正确的路:互联网数据 + 真实数据。

这一思路在 LingBot-VLA 上得到了验证。基于九种主流构型的超两万小时高质量真机数据的预训练,该模型在权威评测中超越了一系列国际顶尖基线。

蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

而作为本次发布的「压轴」,LingBot-VA 则彻底展现了灵波的技术野心。这是全球首个用于通用机器人控制的因果视频 – 动作世界模型。它学会了利用视频生成模型来实现「想象」,结合多模态模型的逻辑推理,再叠加真实环境的反馈。

蚂蚁灵波正在试图构建视频预测与现实世界行动之间的闭环。现在具身智能的 AI 已经可以基于单一模型预测未来的景象,并生成实现该视频所需的操作,仅通过 30-50 次真实世界的演示就能学习新技能,其成功率还要比常见的基准模型(如 π0.5)高出约 20%。

蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

「我们发现,利用物理世界的数据叠加一层预训练,对具身模型能力的提升非常有帮助,」沈宇军表示。这解释了为什么 LingBot-VA 能在业界第一个实现「边推演、边行动」—— 它不是在死记硬背仿真数据,而是在试图理解物理规律。这似乎刚好回应了 Yann LeCun 对于 AI 在物理世界里实现预测的呼吁。

除此之外,在上周发布的深度视觉模型 LingBot-Depth 上,蚂蚁灵波探索了通过深度传感器误差作为掩码来优化深度图的深度补全模型,大幅降低了当前主流视觉深度相机的误差,让机器人「看的更清楚」。

而在 LingBot-World 上,该团队开源了视觉效果堪比谷歌 Genie 3 的实时可交互世界模型,其生成的世界严格遵循物理规律,也为具身智能的模拟打好了基础。

这些技术在全球机器学习社区吸引了大量关注。

蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

不过在朱兴看来,蚂蚁灵波目前所做的还是打好基础:「具身智能总体技术阶段目前还处于早期,且技术路线也没有收敛,从这点来说(蚂蚁灵波的技术)没有什么是其他家一定做不到的。我们反而更关注模型本身能力的上限探索以及如何让生态伙伴用的更好。我们之所以做基模,很大的考量反而就是为了降低生态伙伴后训练的成本。而我们这次发布,也同步开源了高效的后训练代码,也是这一想法的落地。」

机器人的「DeepSeek 时刻」还在路上

在 2025 年的 1 月,DeepSeek R1 横空出世,用开源证明了低成本 + 强推理的可行性。如今随着灵波等公司的模型开源,具身智能领域是否也会迎来它的 R1 时刻?

对此,朱兴表示:「DeepSeek 时刻对具身智能来说还为时尚早,应该说 ChatGPT 时刻都还没有到来。面向下一步,我们会持续加强对具身世界模型的投入,探索具身智能的新上限。」

但也正是因为如此,蚂蚁灵波可以成为那个「点火者」。通过 InclusionAI 社区,灵波将这四款核心模型全部开源。朱兴的逻辑非常清晰:在路线尚未收敛的早期阶段,开源是推进行业进步的最优解,因此未来蚂蚁灵波的技术还会继续全面开放。

更深层的野心在于生态位。

不同于特斯拉 Optimus「造脑也造驱干」的封闭模式,蚂蚁灵波希望构建起机器人领域的「安卓系统」。「我们更侧重基模研发,初期就坚定选择了跨构型的路径,通过跟行业内相关数据提供商深入合作来满足模型训练数据多样性的需要,」朱兴解释道。

当然,机器人的本体千差万别,基于统一的基础模型,任务执行的成功率还会受到影响。蚂蚁灵波的策略是提供高效的「后训练工具链」,让硬件厂商能用更低的数据量和 GPU 成本,将灵波的「大脑」适配到自己的「身体」上。

这或许才是开源背后的真正商业护城河。

终局猜想

蚂蚁造的具身智能,最终会去哪?

虽然商业模式会「自然而来」,但蚂蚁基因中的服务业属性,或许可以让我们猜测一下灵波「大脑」加持的机器人会是什么样子。从民生服务到普惠金融,蚂蚁的优势在于连接人与服务。

蚂蚁灵波期待随着技术成熟,以具身智能形式呈现的服务能够更好地融入物理世界,服务于人。

当然,眼前的挑战依然巨大。沈宇军表示,从技术角度看,强化学习(RL)的具体落地范式尚未收敛,AI推理中至关重要的System 2(慢思考)能力仍在探索中,这些都可能是制约技术下一步大规模落地的瓶颈。

但背靠蚂蚁集团的AGI整体战略、业界一梯队的AI基础设施支持以及坚定的资金投入,灵波显然已经做好了打持久战的准备。

随着蚂蚁灵波最近四款模型的连续发布与开源,蚂蚁的AI战略实现了从数字世界向物理世界的关键延伸,标志着其“基础模型-通用应用-实体交互”的全栈路径已逐渐清晰。下一步,蚂蚁灵波计划持续探索模型能力的提升,尤其是世界模型与具身智能的深度结合,并积极拓展生态,协助合作伙伴实现落地应用,推动机器人真正走入商业场景。

一个深度融合、开源开放并服务于真实场景的AGI生态,正在加速成型。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20364

(0)
上一篇 2026年2月5日 上午11:47
下一篇 2026年2月5日 下午12:12

相关推荐

  • 移动传感器隐私防护新突破:PATN框架实现实时对抗扰动与数据保真双赢

    在移动互联网时代,智能手机已成为人们日常生活中不可或缺的智能终端。移动应用通过Android和iOS系统接口获取加速度计、陀螺仪等运动传感器数据,这些数据支撑了活动识别、计步、手势交互、游戏控制、健康监测等众多核心功能,构成了现代移动服务的技术基石。然而,传感器数据的高度细粒度特性在带来丰富应用可能性的同时,也埋下了严重的隐私安全隐患。近年来多项研究表明,看…

    2025年12月8日
    23000
  • TCDiff++:突破群体舞蹈生成瓶颈,端到端模型实现虚拟群舞新高度

    在元宇宙与数字人技术快速发展的今天,群体舞蹈生成已成为虚拟演唱会、数字人集体表演等场景的核心需求。然而,现有技术在多人生成、动作协调和长序列稳定性方面面临严峻挑战。近期,由南京理工大学、清华大学和南京大学联合研发的端到端模型TCDiff++,通过创新性的架构设计,成功突破了这些技术壁垒,为高质量、长时序的群体舞蹈自动生成提供了完整解决方案。 当前群体舞蹈生成…

    2025年11月27日
    20300
  • 上交、清华提出面向 LLM 推理的多核 NPU 创新策略:全栈多维度优化实现1.32x-6.03x超 SOTA 加速

    关键词:多核NPU、LLM推理、NpuSim模拟器、张量并行、内存管理、PD分拆与融合 随着 ChatGPT、Qwen、DeepSeek 等大型语言模型(LLM)的广泛应用,AI 应用正在经历一场前所未有的变革。从智能助手、代码生成到自动驾驶,LLM 正在成为数字时代的“新电力”。然而,这场变革的背后隐藏着一个严峻的挑战:如何高效地运行这些庞然大物? 传统的…

    2026年1月18日
    26800
  • 从特征拼接失败到策略共识突破:多模态机器人感知的范式转移

    在机器人技术快速发展的今天,多模态感知融合已成为提升机器人环境交互能力的关键路径。然而,传统方法在处理稀疏模态任务时暴露出的严重缺陷,正推动着研究范式的根本性转变。由伊利诺伊大学香槟分校、哈佛大学、哥伦比亚大学和麻省理工学院联合完成的这项研究,通过《Multi-Modal Manipulation via Policy Consensus》论文(链接:htt…

    2025年12月3日
    22300
  • AI外教革命:斑马口语如何用“千人千面”技术重塑儿童英语教育

    在人工智能技术快速发展的今天,教育领域正迎来一场深刻的变革。其中,儿童英语口语学习作为长期存在痛点的细分市场,率先成为AI技术落地的试验田。斑马口语作为一款专为儿童设计的AI外教产品,不仅展现了技术应用的成熟度,更揭示了AI在教育个性化领域的巨大潜力。 从技术架构层面分析,斑马口语的核心突破在于其基于猿力大模型的智能基座。与ChatGPT等通用大模型不同,猿…

    2025年11月18日
    20700