机器人“内卷”新高度:Gen-1模型成功率99%,效率提升3倍,具备“即兴”处理能力
具身智能公司Generalist发布了其最新研究成果——Gen-1模型。该模型在精细操作任务上表现卓越,将机器人执行的成功率从64%大幅提升至99%,同时效率也显著提高。

以折叠标准纸箱为例,此前完成该任务平均耗时约34秒,而Gen-1仅需12.1秒即可完成,效率提升近3倍。

Gen-1的表现,也验证了机器人领域同样存在性能随规模扩展而提升的规律。
机器人模型性能突破
Gen-1在执行任务时不仅速度更快,而且稳定性极高。无论是连续执行200次扫地机器人维护这类重复性工作,还是完成1800次连续装箱任务,它都能保持稳定可靠的表现。


更值得注意的是其处理突发状况的能力。当流水线上的零件被意外撞歪时,Gen-1不会因报错而停滞,而是能够自主调整抓取角度,甚至协调使用双手协作完成任务。

这种基于对物理世界理解的“即兴”处理能力,使其在面对杂乱物体或非预设场景时,表现得更为灵活自然,摆脱了传统程序化执行的僵硬感。
基于人类活动记录的训练方法
为使机器人获得更通用的能力,研发团队重构了数据处理架构。他们放弃了成本高昂且难以扩展的传统机器人遥操作数据采集方式,转而通过低成本穿戴设备,采集了数百万项人类日常活动记录,用于训练AI理解物理世界的潜在规律。
这种“去机器人化”的预训练策略,有效规避了机器人数据规模的瓶颈,让基础模型在接触真实机械臂之前,就已从人类视角学习了空间、时间与物理因果关系。
基于超过50万小时高保真物理交互数据训练出的模型底座,其学习效率达到前代模型的10倍。即使面对从未见过的任务或新型机器人本体,仅需约一小时的现场演示,Gen-1便能快速适应并开始工作。
此外,为实现流畅、实时的动作控制,团队在推理端引入了两项关键技术:
首先是专为物理世界设计的分页注意力(Paged Attention)机制。在处理海量物理交互数据流时,该机制通过更高效的计算资源调度,解决了指令响应延迟问题,确保动作指令能在毫秒级时间内发出,使AI的反应速度能与现实物理节奏同步。
另一项是Harmonic Reasoning系统。作为推理核心,它改变了以往单一、固定的动作预测模式,允许模型通过多尺度动态调节来优化输出指令的权重分配,从而在执行包装、折叠等复杂动态任务时,展现出超越固定权重模型的性能。
机器人领域的规模扩展定律
Gen-1的性能飞跃证明,在机器人领域,规模扩展定律(Scaling Law) 同样适用:当提供足够的数据和计算资源时,机器人模型的能力会出现质的提升。
通过大规模预训练,机器人不再仅仅是机械地模仿动作序列,而是能够自主领悟空间、时间及因果关系,理解物体间的相互影响。
这种对物理世界的“直觉”理解,赋予了机器人一定的任务灵活性。当任务过程中出现未曾预见的障碍时,它能自发尝试解决方案,例如在物品难以放入时,会像人类一样晃动容器进行调整。
这种即兴解决问题的能力,源于其对“动作-后果”逻辑的真正理解。即使现场发生意外干扰,它也能凭借直觉调整策略,无需人类步步干预。
研发团队还通过对齐技术,为这种自主能力设置了安全边界,确保机器人的“临场发挥”始终符合用户设定的操作规范。
技术背景与团队
Gen-1模型的底层技术源于团队在机器人领域的长期积累。其创始人Pete Florence曾担任Google DeepMind高级研究科学家,在视觉引导的机器人端到端学习方面有深入研究。

在谷歌PaLM团队工作期间,他作为核心成员参与了PaLM-E、RT-2等具有代际意义的机器人项目。2024年,Pete Florence离开谷歌并创立了Generalist。其此前的研究成果在业内持续产生影响,例如DeepMind在2025年3月发布的Gemini Robotics相关论文中,仍多次引用了其合著工作。
参考链接:
https://generalistai.com/blog/apr-02-2026-GEN-1
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28798


