
2025年被业界普遍视为具身智能的爆发元年,这一领域正经历从概念验证到产业落地的关键转折。在北京鼎好大厦举行的智源具身2025 OpenDay现场,30余家顶尖具身智能企业的创始人、技术负责人齐聚一堂,围绕行业核心议题展开了长达四小时的深度辩论。这场汇聚产学研用各方的对话,不仅揭示了当前行业的技术分歧,更勾勒出未来发展的清晰路径。
在智源研究院院长王仲远的主持下,会议聚焦四大核心议题:具身智能是否需要专属架构范式、数据飞轮的实现路径、硬件与软件的协同关系,以及从演示到实际应用的跨越障碍。每个议题都触及行业发展的本质矛盾,与会者的观点交锋呈现出多元而深刻的行业洞察。

**架构之争:告别语言中心主义,迈向动作优先范式**
首场辩论直指技术根本——具身智能是否需要自己的“Transformer”架构。招商局集团AI首席科学家张家兴率先提出颠覆性观点:当前基于视觉-语言-动作(VLA)的架构存在根本缺陷。他指出,人类在物理世界中的操作本质是视觉与动作的直接连接,语言仅作为辅助沟通工具。VLA架构将语言置于视觉与动作之间,这种“语言中心主义”违背了具身智能的物理交互本质。张家兴主张构建“动作优先”架构,让视觉信息直接驱动动作生成,语言仅作为高层规划模块。
清华大学助理教授赵行进一步阐释了这一理念,提出“大动作模型”的构想。这种模型以视觉感知为基础,以动作为核心输出,语言仅作为辅助接口。更重要的是,赵行强调具身智能必须是闭环系统——与大型语言模型的一问一答开环模式不同,具身系统需要持续接收环境反馈并实时调整动作,形成感知-决策-执行-反馈的完整循环。这种闭环特性要求架构具备更强的实时性和适应性。
然而,北京大学助理教授王鹤从现实约束角度提出质疑。他指出,Transformer架构在处理多模态数据方面已证明其有效性,但动作输出的标准化路径尚未收敛。关键瓶颈在于数据稀缺:当前全球人形机器人数量可能仅百万级别,且分布分散,难以支撑全新架构的探索。王鹤认为,在数据规模爆发之前,行业仍需在现有框架内优化。
智源研究院院长王仲远则从终局视角提出“具身智能互联网”概念。他认为,只有当数以千万计的机器人接入统一网络,持续产生海量交互数据时,才可能催生真正统一的架构范式。在此之前,Emu系列多模态世界模型等尝试将为过渡期提供技术支撑。这场辩论揭示了一个共识:VLA架构仅是过渡方案,行业正朝着剥离语言中心、强化动作直接性的方向演进,但数据规模将决定这一进程的速度。

**数据路径:仿真、真机与视频的三元协同**
如果说架构是骨架,数据则是血液。在数据获取路径上,与会者分裂为鲜明阵营。星海图赵行和智元机器人罗剑岚代表“真实派”,强调物理世界数据的不可替代性。赵行指出,缩放定律的有效性依赖于真实数据的规模和质量,仅靠实验室采集无法覆盖现实场景的复杂性。罗剑岚进一步提出“自主数据飞轮”概念:机器人应通过与环境交互自主产生数据,形成动作-反馈-优化的正循环,而非依赖人工遥控。
“仿真派”则以加速进化程昊为代表,强调效率优势。程昊坦言,仿真环境能快速生成大量训练数据,特别适用于基础运动技能的学习。王鹤补充道,足式行走、灵巧手操作等复杂技能在真实世界中训练成本极高,仿真提供了安全的试错空间。但他同时强调,仿真不应取代真实数据,而是作为“基础控制器”,为真实环境中的学习奠定能力基础。
智源研究院提出了第三条路径:从海量互联网视频数据中学习通识能力。王仲远指出,人类婴儿首先通过观察世界学习,然后才通过互动精炼技能。Emu3.5多模态世界模型正是基于这一理念,从数亿小时的长视频中学习物理常识和动作模式,再结合真机数据进行微调。这种“视频预训练+真机微调”的范式,可能平衡数据规模与真实性的矛盾。
最终共识是:没有任何单一数据源能解决所有问题。视频数据提供通识理解,仿真数据训练基础运动能力,真机数据则是最稀缺的“黄金标准”,三者将形成协同进化的数据生态。

**硬件瓶颈:线性进步与非线性突破的辩证关系**
当讨论转向硬件,议题变得更加务实。智元机器人姚卯青将硬件瓶颈分为两类:线性瓶颈和非线性瓶颈。关节发热、扭矩密度、电池续航等属于线性瓶颈,随着材料科学和工程技术的进步逐年改善;而软件算法的泛化能力、大模型与硬件的适配效率则属于非线性瓶颈,其突破难以预测时间点。姚卯青坦言,尽管算法快速发展,但硬件在灵巧度、可靠性方面仍远落后于人类能力,“硬件依然是关键制约因素”。
因时机器人蔡颖鹏从供应链角度指出,硬件受物理定律和材料极限的严格约束,突破周期远长于软件迭代。一旦涉及底层物理原理,进步往往以十年为单位。
关于“模型定义硬件还是硬件定义模型”的经典争论,与会者达成了微妙共识:既非模型也非硬件,而是应用场景在定义一切。原力灵机唐文斌直言:“不存在能解决所有问题的统一构型。”不同场景对机器人的形态、能力、成本要求截然不同,工业巡检、家庭服务、医疗康复等场景将催生差异化的硬件方案。北京人形机器人创新中心唐剑补充道,硬件与软件必须“双向奔赴”:软件团队需明确硬件性能需求,硬件团队则需理解算法约束,这种协同设计将成为行业标配。

**落地挑战:从技术演示到价值闭环的艰难跨越**
最后一场辩论聚焦最现实的落地问题。尽管技术演示令人振奋,但真正的“杀手级应用”尚未出现。与会者一致认为,当前主要挑战在于价值闭环的建立:技术必须为用户创造可量化的经济或体验价值,而非停留在概念验证阶段。

工业场景被普遍视为率先突破的领域,但即使在这里也面临多重障碍。首先是成本效益比:机器人解决方案必须显著优于人工或其他自动化方案。其次是可靠性要求:工业环境对故障率的要求远高于实验室演示。第三是场景适配性:同一工厂的不同工序可能需求迥异,需要高度定制化的解决方案。
家庭服务场景则面临更复杂的挑战。除了技术可靠性,还需解决安全伦理、用户接受度、隐私保护等社会维度问题。与会者指出,具身智能进入家庭可能遵循“从工具到伴侣”的渐进路径:先解决特定高频任务(如清洁、搬运),再逐步扩展交互能力。
[[VIDEO_0]]
**未来展望:2025年的关键转折点**
综合四场辩论,2025年将成为具身智能产业的分水岭。技术层面,架构创新、数据生态、硬件协同将并行推进;产业层面,首批规模化应用有望在工业领域落地,家庭场景则进入产品化探索阶段。智源研究院的开放平台策略,通过Emu系列模型和RoboBrain2.0具身大脑,试图为行业提供基础设施,降低创新门槛。
然而,共识中也蕴含分歧:统一架构与场景定制化如何平衡?数据飞轮应以仿真效率还是真实质量为优先?硬件突破应聚焦通用平台还是专用优化?这些问题的答案将决定未来三年的产业格局。

最终,所有辩论都指向同一个核心:具身智能的价值必须通过解决真实世界问题来体现。无论是架构革命、数据路径还是硬件创新,只有最终转化为可落地、可规模化的应用,才能真正推动机器人走进千家万户。这场“全明星日”的激辩,不仅是技术路线的碰撞,更是产业方向的集体思考——在喧嚣与分歧中,中国具身智能产业正在寻找属于自己的发展道路。
— 图片补充 —





关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/11159
