机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

机器人“内卷”新高度:Gen-1模型成功率99%,效率提升3倍,具备“即兴”处理能力

具身智能公司Generalist发布了其最新研究成果——Gen-1模型。该模型在精细操作任务上表现卓越,将机器人执行的成功率从64%大幅提升至99%,同时效率也显著提高。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

以折叠标准纸箱为例,此前完成该任务平均耗时约34秒,而Gen-1仅需12.1秒即可完成,效率提升近3倍。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

Gen-1的表现,也验证了机器人领域同样存在性能随规模扩展而提升的规律。

机器人模型性能突破

Gen-1在执行任务时不仅速度更快,而且稳定性极高。无论是连续执行200次扫地机器人维护这类重复性工作,还是完成1800次连续装箱任务,它都能保持稳定可靠的表现。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

更值得注意的是其处理突发状况的能力。当流水线上的零件被意外撞歪时,Gen-1不会因报错而停滞,而是能够自主调整抓取角度,甚至协调使用双手协作完成任务。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

这种基于对物理世界理解的“即兴”处理能力,使其在面对杂乱物体或非预设场景时,表现得更为灵活自然,摆脱了传统程序化执行的僵硬感。

基于人类活动记录的训练方法

为使机器人获得更通用的能力,研发团队重构了数据处理架构。他们放弃了成本高昂且难以扩展的传统机器人遥操作数据采集方式,转而通过低成本穿戴设备,采集了数百万项人类日常活动记录,用于训练AI理解物理世界的潜在规律。

这种“去机器人化”的预训练策略,有效规避了机器人数据规模的瓶颈,让基础模型在接触真实机械臂之前,就已从人类视角学习了空间、时间与物理因果关系。

基于超过50万小时高保真物理交互数据训练出的模型底座,其学习效率达到前代模型的10倍。即使面对从未见过的任务或新型机器人本体,仅需约一小时的现场演示,Gen-1便能快速适应并开始工作。

此外,为实现流畅、实时的动作控制,团队在推理端引入了两项关键技术:

首先是专为物理世界设计的分页注意力(Paged Attention)机制。在处理海量物理交互数据流时,该机制通过更高效的计算资源调度,解决了指令响应延迟问题,确保动作指令能在毫秒级时间内发出,使AI的反应速度能与现实物理节奏同步。

另一项是Harmonic Reasoning系统。作为推理核心,它改变了以往单一、固定的动作预测模式,允许模型通过多尺度动态调节来优化输出指令的权重分配,从而在执行包装、折叠等复杂动态任务时,展现出超越固定权重模型的性能。

机器人领域的规模扩展定律

Gen-1的性能飞跃证明,在机器人领域,规模扩展定律(Scaling Law 同样适用:当提供足够的数据和计算资源时,机器人模型的能力会出现质的提升。

通过大规模预训练,机器人不再仅仅是机械地模仿动作序列,而是能够自主领悟空间、时间及因果关系,理解物体间的相互影响。

这种对物理世界的“直觉”理解,赋予了机器人一定的任务灵活性。当任务过程中出现未曾预见的障碍时,它能自发尝试解决方案,例如在物品难以放入时,会像人类一样晃动容器进行调整。

这种即兴解决问题的能力,源于其对“动作-后果”逻辑的真正理解。即使现场发生意外干扰,它也能凭借直觉调整策略,无需人类步步干预。

研发团队还通过对齐技术,为这种自主能力设置了安全边界,确保机器人的“临场发挥”始终符合用户设定的操作规范。

技术背景与团队

Gen-1模型的底层技术源于团队在机器人领域的长期积累。其创始人Pete Florence曾担任Google DeepMind高级研究科学家,在视觉引导的机器人端到端学习方面有深入研究。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

在谷歌PaLM团队工作期间,他作为核心成员参与了PaLM-E、RT-2等具有代际意义的机器人项目。2024年,Pete Florence离开谷歌并创立了Generalist。其此前的研究成果在业内持续产生影响,例如DeepMind在2025年3月发布的Gemini Robotics相关论文中,仍多次引用了其合著工作。

参考链接:
https://generalistai.com/blog/apr-02-2026-GEN-1


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28798

(0)
上一篇 2026年4月7日 上午8:31
下一篇 2026年4月7日 上午8:33

相关推荐

  • AI Agent评测全指南:Anthropic官方实战经验

    原文链接:https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents 引言 Anthropic 近期发布了一篇关于 AI Agent 评测的长文,系统性地总结了其在内部研发与客户落地过程中积累的实战经验。 文章开篇即点明核心:高质量的评测是团队发布 Agent 的信心基石。若缺…

    2026年1月10日
    1.1K00
  • Meta裁员风暴背后:AI降本增效的双刃剑与CEO智能体的崛起

    如果说 Meta 去年的关键词是「砸钱抢人」,今年则转向了「为 AI 降本增效」。 前两周,路透社援引知情人士消息称,Meta 正在酝酿大规模裁员,可能影响公司 20% 甚至更多员工。按照 Meta 截至 2025 年底接近 7.9 万人的规模计算,潜在受影响人数可能超过 1.6 万。 近日,《华尔街日报》的一则报道揭示了另一层变化:据知情人士透露,扎克伯格…

    2026年3月23日
    29000
  • AI驱动财富重构:2026福布斯中国富豪榜揭示硬科技制造崛起与平台经济转型

    2026年2月2日,福布斯官方发布了截至2026年1月的中国富豪榜单。这份被视为“中国经济晴雨表”的榜单一经发布,便引发了广泛关注。 榜单呈现出剧烈的结构性变动:* 张一鸣凭借字节跳动在AI领域的全面布局,以693亿美元财富首次登顶,终结了钟睒睒连续五年的榜首地位。* 雷军则受益于小米汽车的爆发式增长,以304亿美元身家首次跻身前十,并以8亿美元的优势超越了…

    2026年2月4日
    67700
  • 人机协作新突破:仅凭本体感知实现无缝搬运,COLA方法引领具身智能新范式

    在机器人技术快速发展的今天,人机协作搬运一直是学术界和工业界关注的重点领域。传统方法通常依赖外部传感器(如摄像头、激光雷达)或遥控设备来实现机器人与人类的交互,但这些方案存在成本高、易受环境干扰、交互不自然等局限。近期,一项由中国研究团队提出的创新方法COLA(Collaborative Lifting with Adaptive roles)引起了广泛关注…

    2025年11月8日
    28800
  • 大脑中的语言处理器:MIT神经科学家揭示人类语言网络的生物LLM本质

    麻省理工学院神经科学家Ev Fedorenko通过一项历时15年、涉及约1400名受试者的大规模脑成像研究,揭示了一个被称为“语言网络”的专门神经系统。这个网络在功能上类似于大型语言模型(LLM),但作为生物系统独立于高级认知过程,专门负责词语与意义的映射以及句子结构的组合。这一发现不仅挑战了语言与思维不可分割的传统观念,更为理解人类语言处理的神经机制提供了…

    2025年12月6日
    29900