IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

2026年,“数据”正成为具身智能领域竞赛的新焦点,京东、百度等科技巨头纷纷入局。然而,在喧嚣背后,一个根本性问题依然悬而未决:究竟什么样的数据,才是具身智能真正需要的?

近日,全球最大的工程与应用科学专业组织IEEE(电气电子工程师学会)旗下的旗舰出版物IEEE Spectrum,对机器人学家王煜进行了一次深度专访。

这位深耕机器人领域近40年的学者给出了自己的判断:当前主流的VLA(视觉-语言-动作)架构,不足以支撑机器人真正实现落地应用。包含物理交互信息的数据,才是机器人理解现实世界、实现稳定操作的关键所在。

IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

上世纪80年代,作为中国首批公派留学生,王煜进入卡内基梅隆大学机器人研究所,成为时任所长Matt Mason教授招收的第一位博士生,专攻机器人抓取力学与操作规划——这正是当下具身智能操作能力的学术源头。他曾先后在多所院校任教,并与李泽湘共同创办香港科技大学机器人研究院,培养了大批活跃于今日产业一线的人才。

王煜被斯坦福大学评为全球前2%顶尖科学家,并以IEEE机器人与自动化协会管理委员会唯一代表中国机构的学者身份,持续在国际具身智能领域传递中国声音。

从液压到电动、从工业到生活场景,再到如今的人工智能时代,王煜亲历了现代机器人学的每一次范式转换。因此,他对当下狂热中的思考,格外值得倾听。

在王煜看来,机器人下一个亟待解锁的能力是“操作”(manipulation),且时机已日趋成熟。

如今机器人能完成惊艳的演示,却仍难以在真实环境中自主感知、决策并稳定执行操作。根本原因在于对视觉的过度依赖——当机器人尝试拿起一只玻璃杯、采摘一颗草莓、插拔一根电线时,视觉只能告诉它“物体在哪儿”,却无法告知它力度是否恰当、角度是否到位、操作是否完成。

材质、摩擦、接触力、形变——这些决定操作成败的物理反馈信息,恰恰是视觉的盲区,也是机器人操作中长期缺失的一环。

王煜认为,触觉是打开这扇大门的钥匙。触觉包含了接触力、接触状态、形变、纹理与材质等信息,能够填补视觉的盲区与错觉,让机器人从“识别物体”走向“理解物体、操控物体”。

基于这一判断,他与团队提出了VTLA(视觉-触觉-语言-动作)框架,在主流VLA架构中引入触觉,将其视作与视觉同等重要的感知模态。

IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

王煜教授

这些主张并未停留在论文里。几年前,王煜与博士后段江哗共同创立“戴盟机器人”,将多年积累的触觉感知研究推向工程化落地。这家公司过去以含触觉感知的硬件研发闻名,2026年第一季度的营收已超过去年全年。

上个月,戴盟正式发布含触觉模态的物理世界具身数据集Daimon Infinity,并开源其中10000小时数据,正式入场眼下最热的具身数据赛道。

一位以“操作”为研究命题的学者,为何在此刻选择加入数据之争?这背后的判断,或许能让我们窥见未来几年的具身智能走向。

在这次专访中,王煜系统阐释了他对机器人操作、触觉感知、具身数据与物理AI的思考:为什么VLA架构会遭遇瓶颈?触觉数据为何被长期忽视,又为何不可或缺?所谓“物理智能”究竟意味着什么?作为一位见证了机器人学半个世纪发展的研究者,他如何看待人形机器人未来的可能性与边界?

以下为IEEE Spectrum专访王煜的译文,出于篇幅考虑略有删减:

提问:今年4月,戴盟机器人联合多家头部学术机构和企业,共同发布规模最大、最全面的具身操作数据集。为何选择现在发布数据集,而不是继续专注硬件开发?

王煜:随着具身智能的发展,越来越多人意识到数据的重要性:数据不足是目前具身智能发展的瓶颈,尤其是包含物理交互信息的数据,这将是提升机器人在现实世界操作能力的关键。数据的质量、可靠性和成本,已成为研发和商业落地需要重点关注的问题。

这恰好也是戴盟擅长的事。依托领先的视触觉技术,我们能够提供含多模态触觉的高质量数据——不仅包含接触力,还有接触形变、接触状态、滑移摩擦、物体材质与纹理等信息,完整还原物理交互的过程。基于过往的技术积累,我们也研发了数据处理管线,将触觉与视觉、动作轨迹、语音文本等模态精准融合,转化为模型训练可用的数据。面对行业的数据空缺,我想采集数据是我们戴盟能做好、也应该做的事情。

IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

今年4月,戴盟发布含触觉全模态物理世界数据集Daimon-Infinity

提问:戴盟声称数据集年底能达到超百万小时规模,你们是如何做到这一点的?

王煜:我们打造了全球最大规模的外发式具身数据采集网络——依托于轻便化设备,数据采集不再局限于数采场,而是可以进入各类真实场景,不受空间限制,实现了低成本、跨场景、高度真实性的采集,从而具备了每年数百万小时数据的生产能力。

提问:Daimon-Infinity由多家机构联合发布,他们如何参与其中?

王煜:此次数据集,我们联合了全球数十家机构合作共建,包括北京大学、清华大学、香港科技大学等中国高校,以及DeepMind、美国西北大学、新加坡国立大学等全球顶尖研究团队,另外还有中国移动、汇川技术、上声电子等产业方。他们选择与戴盟合作,是对我们将触觉加入具身数据这一路线的认可。通过在科研、制造等实际场景下进行采集,这些合作方帮助我们收集到了高度真实、以实际场景为驱动的数据;反过来,他们将这些数据用于自己的模型训练。此外,我们开源了10000小时数据,希望含触觉的数据能推动更多具身模型的进化。

提问:目前机器人领域的主流范式是VLA模型,但戴盟团队提出了VTLA框架。为什么加入了触觉?

王煜:触觉信息对于机器人的操作能力至关重要,它能提供与物体接触时的物理反馈,引导机器人手进行可靠的操作。如果没有触觉,机器人可能无法在黑暗环境中判断物体的位置,可能因无法感知滑移状态而导致玻璃杯掉落,更有可能因为无法控制力度而导致操作任务失败,甚至造成损害。VLA已经不足以满足机器人操作的需求,因此我们扩展了框架,纳入触觉数据,创建了VTLA。重要的是,我们采用的视触觉感知技术,与VLA所基于的视觉框架非常契合。它捕捉指尖表面的形变,将触觉信息转化为视觉图像,并从中推断出力和其他接触状态——而图像数据天然适合集成到VLA中,这降低了框架扩展的门槛。

IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

搭载视触觉传感器的夹爪,通过精准感知触觉,赋能精细操作

提问:您和团队开发了世界上首个单色光视触觉技术,为什么选择了这条技术路线?

王煜:从开始研究触觉感知时,我们就明确了自身需求:我们想要的是能够高度模拟人类指尖皮肤触觉的传感器。生理学研究已充分证实人类指尖所具备的能力——知道我们触摸了什么、是什么材质、力如何分布,以及当大脑控制手时,它是否移动到正确的位置。我们知道,在机器人手上复制这些能力将大有裨益。在调研现有技术时,我们发现了多种类型的触觉感知技术,包括三色光视触觉传感及其他更简单的设计。我们将这些技术的优势整合到一个解决方案中,使其在保持良好性能的同时又不会过于复杂,并将成本、可靠性和灵敏度控制在令人满意的范围内,最终研发了单色光视触觉技术。随着人们对触觉认知的日益加深,这些技术将携手并进。

IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

全模态触觉信息,包含力/力矩、形状、材质、接触信息四大维度

提问:你们的视触觉传感器正是基于这一技术,相比传统触觉传感器有什么核心优势?

王煜:去年,我们发布了全球首款具备多维、高分辨率与高频率特性的视触觉传感器。在指尖大小的模块中,集成了多达 11 万个感知单元,这一密度目前处于行业最高水平。

另一个核心优势在于频率与带宽,也就是我们检测触觉变化、传输数据并实时处理信号的速度。其余优势主要涉及工程技术层面,例如可靠性、漂移控制、硅胶表面的耐用性,以及对电磁、光学及其他环境因素的抗干扰能力。

触觉的重要性正被越来越多人所认识,我们的视触觉传感器也因此获得了更广泛的应用。我相信,这将推动整个行业迈上一个新台阶。

我们有一位潜在客户,正在便利店内部署人形机器人。在货架密集的环境中,机器人需要伸入极狭窄的空间才能取出商品——人类至少需要三根纤细的手指才能完成这类抓取任务。这类场景让我们看到了对触觉功能的迫切需求。

IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

戴盟视触觉传感器具备高感知单元密度

提问:戴盟目前的商业模式和战略重点是什么?数据集在其中扮演什么角色?

王煜:我们最初专注于制造高性能的触觉感知设备,尤其是安装在机器人手上的传感器。但随着具身智能的发展,大家逐渐认识到,行业需要的不仅仅是一个组件,而是完整的技术链条:包括设备、大规模高质量的数据,以及最终能在实际应用环境中构建、训练和部署机器人模型的框架。

如今,我们将自己的商业战略定位为“3D”:设备(Devices)、数据(Data)和部署(Deployment)。我们研发用于数据采集和构建触觉生态的设备,并通过在合作伙伴的应用场景中完成部署,实现含触觉数据的落地与闭环验证。在这个模式中,任何一个环节都不可或缺。

提问:您之前提出了“具身技能”的概念,认为这是人形机器人超越“仅拥有先进人工智能大脑”的关键。您为什么会提出这一观点?过去两年行业快速发展,您对具身技能的定义是否有所改变?

王煜:机器人的发展历程中,如今已进入电气、电子和机电一体化硬件技术融合的阶段,这是过去20年取得的巨大进步。由于硬件的快速发展,机器人现在完全采用电动驱动,不再需要液压系统。现代电子技术提供了高带宽和高扭矩,如果我们能将智能融入这些机械系统,就能创造出真正意义上的人形机器人——能够在非结构化环境中运行、决策并自主稳定地执行操作。

人工智能的出现恰逢其时,大量资源投入其中,尤其是大语言模型。它们如今被推广到世界模型中,赋能物理智能(physical AI)——我们希望这些能力最终能在现实世界中落地。目前研究重点更加明确,例如在家庭环境中,人们更倾向于使用人形机器人。这是一个令人兴奋的领域,如果我们最终能制造出安全、可靠且经济高效的机器人,它将为社会带来巨大的益处。

IEEE深度专访:机器人学泰斗王煜断言VLA架构难撑落地,触觉数据才是具身智能破局关键

搭载了戴盟触觉感知技术的机器人在工厂线上部署

提问:机器人如今能进行令人印象深刻的演示,但距离真正进入实际应用仍存在差距。什么因素可能触发实际部署?哪些场景最有可能率先实现大规模部署?

王煜:我认为通用机器人的大规模部署之路仍然漫长,但我们已经看到特定领域的可行性。

这与自动驾驶汽车非常相似:无人驾驶出租车尚未全面部署,但移动机器人在酒店业已经得到广泛应用。在中国,几乎所有大型酒店都配备了送餐机器人——没有机械臂,只是一台从酒店大堂取外卖的小型机器人。外卖员只需放置食物并选择房间号,机器人便会自行导航、自行使用电梯,最终将食物送达客房。

酒店及餐厅的机器人,为其他场景的应用提供了范本,例如夜间药店和便利店。我预计在短期内,这些场所将全面部署人形机器人,并在之后扩展到其他领域。我们可以期待,在未来,包括人形机器人在内的自主机器人将逐步渗透到特定行业,为行业创造价值。

我们的愿景始终是让机器人实现强大的操控能力,并发展成为人类可靠的合作伙伴。未来,机器人或许会无缝融入我们的日常生活,真正造福并服务于人类。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33458

(0)
上一篇 2026年5月6日 上午11:41
下一篇 2026年5月6日 下午10:44

相关推荐

  • AI赋能SOC:从岗位替代到人机协同的战略转型

    在人工智能技术浪潮席卷全球的背景下,网络安全领域正经历着前所未有的变革。传统观点往往将AI视为人类工作的潜在威胁,尤其是在技术密集型的安全运营中心(SOC)环境中。然而,最新行业研究揭示了一个截然不同的趋势:AI在SOC中的深度应用,非但没有引发大规模裁员,反而催生了岗位角色的系统性重构与专业能力的战略升级。这一转变标志着网络安全行业从“人力密集型”向“智能…

    2025年7月22日
    34500
  • LimiX:结构化数据处理的通用革命,开启工业AI新纪元

    在科幻作家刘慈欣的《超新星纪元》中,一个关于盐和味精供应量的场景深刻揭示了现代工业社会运转的本质——它建立在海量精确数据的处理之上。从生产计划到机器监控,再到电力调度,结构化数据如同社会的神经网络,支撑着工业化便利的每一个环节。这些以固定行列格式组织、关系预先定义的数据,构成了现代社会高效运转的基石。 然而,在人工智能浪潮席卷全球的今天,处理这些最基础的结构…

    2025年11月21日
    40500
  • GLM-5引领中国AI成熟期:从炫技到系统工程的跨越

    我们每天都在见证「全球大模型第一股」智谱的历史新高。 2026 年的春节档,注定将被写入中国 AI 的发展史。 过去半个月,AI 社区被两颗「超新星」彻底点燃:一颗是字节跳动发布的 Seedance 2.0,它用震撼的视频生成能力横扫了全球社交网络,代表了 AI 在感性与创意维度的大爆发;而另一颗,则是这几天让开发者们彻夜未眠的智谱 GLM-5。 可以说,S…

    2026年2月13日
    61100
  • OpenAI突然关停Sora,全力押注超级App与秘密大模型Spud

    Sora的服务已于今日终止。 OpenAI正式宣布关停Sora,这款曾引发全球关注的AI视频生成应用现已下线。 根据周二的内部信,首席执行官萨姆·奥特曼(Sam Altman)宣布,此次关停范围包括Sora独立应用、其开发者API版本,以及集成在ChatGPT中的视频生成功能。 官方在致谢信中确认Sora将不再以原有形式提供服务,并对所有创作者表达了感谢与歉…

    2026年3月25日
    57900
  • 从零构建高级AI Agent:Python实战指南与架构设计解析

    如果你问我2026年学习AI Agent的最佳方式是什么,我会说:绝对是从零自己动手构建。这不仅对学习至关重要,如果你要打造一个高效、个性化且健壮的生产级AI Agent,从零开始往往是最佳选择。例如,你能找到的所有代码生成Agent(如Claude Code、Codex、Cursor等),都是基于其产品需求定制架构构建的。 当然,这并非否定现有框架的价值。…

    2026年2月1日
    70200