机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

机器人“内卷”新高度:Gen-1模型成功率99%,效率提升3倍,具备“即兴”处理能力

具身智能公司Generalist发布了其最新研究成果——Gen-1模型。该模型在精细操作任务上表现卓越,将机器人执行的成功率从64%大幅提升至99%,同时效率也显著提高。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

以折叠标准纸箱为例,此前完成该任务平均耗时约34秒,而Gen-1仅需12.1秒即可完成,效率提升近3倍。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

Gen-1的表现,也验证了机器人领域同样存在性能随规模扩展而提升的规律。

机器人模型性能突破

Gen-1在执行任务时不仅速度更快,而且稳定性极高。无论是连续执行200次扫地机器人维护这类重复性工作,还是完成1800次连续装箱任务,它都能保持稳定可靠的表现。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

更值得注意的是其处理突发状况的能力。当流水线上的零件被意外撞歪时,Gen-1不会因报错而停滞,而是能够自主调整抓取角度,甚至协调使用双手协作完成任务。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

这种基于对物理世界理解的“即兴”处理能力,使其在面对杂乱物体或非预设场景时,表现得更为灵活自然,摆脱了传统程序化执行的僵硬感。

基于人类活动记录的训练方法

为使机器人获得更通用的能力,研发团队重构了数据处理架构。他们放弃了成本高昂且难以扩展的传统机器人遥操作数据采集方式,转而通过低成本穿戴设备,采集了数百万项人类日常活动记录,用于训练AI理解物理世界的潜在规律。

这种“去机器人化”的预训练策略,有效规避了机器人数据规模的瓶颈,让基础模型在接触真实机械臂之前,就已从人类视角学习了空间、时间与物理因果关系。

基于超过50万小时高保真物理交互数据训练出的模型底座,其学习效率达到前代模型的10倍。即使面对从未见过的任务或新型机器人本体,仅需约一小时的现场演示,Gen-1便能快速适应并开始工作。

此外,为实现流畅、实时的动作控制,团队在推理端引入了两项关键技术:

首先是专为物理世界设计的分页注意力(Paged Attention)机制。在处理海量物理交互数据流时,该机制通过更高效的计算资源调度,解决了指令响应延迟问题,确保动作指令能在毫秒级时间内发出,使AI的反应速度能与现实物理节奏同步。

另一项是Harmonic Reasoning系统。作为推理核心,它改变了以往单一、固定的动作预测模式,允许模型通过多尺度动态调节来优化输出指令的权重分配,从而在执行包装、折叠等复杂动态任务时,展现出超越固定权重模型的性能。

机器人领域的规模扩展定律

Gen-1的性能飞跃证明,在机器人领域,规模扩展定律(Scaling Law 同样适用:当提供足够的数据和计算资源时,机器人模型的能力会出现质的提升。

通过大规模预训练,机器人不再仅仅是机械地模仿动作序列,而是能够自主领悟空间、时间及因果关系,理解物体间的相互影响。

这种对物理世界的“直觉”理解,赋予了机器人一定的任务灵活性。当任务过程中出现未曾预见的障碍时,它能自发尝试解决方案,例如在物品难以放入时,会像人类一样晃动容器进行调整。

这种即兴解决问题的能力,源于其对“动作-后果”逻辑的真正理解。即使现场发生意外干扰,它也能凭借直觉调整策略,无需人类步步干预。

研发团队还通过对齐技术,为这种自主能力设置了安全边界,确保机器人的“临场发挥”始终符合用户设定的操作规范。

技术背景与团队

Gen-1模型的底层技术源于团队在机器人领域的长期积累。其创始人Pete Florence曾担任Google DeepMind高级研究科学家,在视觉引导的机器人端到端学习方面有深入研究。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

在谷歌PaLM团队工作期间,他作为核心成员参与了PaLM-E、RT-2等具有代际意义的机器人项目。2024年,Pete Florence离开谷歌并创立了Generalist。其此前的研究成果在业内持续产生影响,例如DeepMind在2025年3月发布的Gemini Robotics相关论文中,仍多次引用了其合著工作。

参考链接:
https://generalistai.com/blog/apr-02-2026-GEN-1


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28798

(0)
上一篇 2026年4月7日 上午8:31
下一篇 2026年4月7日 上午8:33

相关推荐

  • PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

    你负责写方法,AI负责画 Figure。科研打工人,终于等来「画图解放日」。 还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗? 一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的「隐藏副本」不是实验,而是画图。 既要忠于论文原意,又得暗暗符合顶会那套心照不宣的「学术审美」:颜色不能土,布局不能乱,箭头更不能连错。 看起来只是一张图…

    2026年2月5日
    64200
  • 快手CroPS:跨视角正样本引擎打破搜索信息茧房,AAAI 2026 Oral成果引领向量检索新范式

    短视频搜索是向量检索在工业界最核心的应用场景之一。然而,当前业界普遍采用的「自强化」训练范式过度依赖历史点击数据,导致系统陷入信息茧房,难以召回潜在相关的新鲜内容。 针对这一问题,快手搜索团队提出了一套全新的检索数据引擎 CroPS(Cross-Perspective Positive Samples)。该方法通过引入用户换 Query 数据、推荐流数据以及…

    2026年1月12日
    36000
  • AI产业格局重构:从技术神话到商业现实的残酷博弈

    在人工智能浪潮席卷全球的背景下,OpenAI与谷歌的竞争格局正在发生深刻变化。这一转变不仅反映了技术迭代的挑战,更揭示了资本、产业生态与商业可持续性之间的复杂博弈。本文将从财务压力、技术瓶颈、产业生态三个维度,深入分析当前AI产业的现实困境与未来走向。 ### 财务压力:2070亿美元缺口的商业警示 汇丰银行的分析报告揭示了一个严峻现实:OpenAI在203…

    2025年12月8日
    37300
  • 林俊旸离职阿里千问后首次发声:从“推理模型时代”到“智能体时代”的思考转变

    林俊旸在离开阿里千问后首次公开发声。他没有回应离职的具体情况或宣布未来去向,而是撰写长文,深入探讨了人工智能领域从“推理模型时代的思考”向“智能体时代的思考”的范式转变。 整篇文章着眼于技术与AI的未来发展方向,但字里行间亦透露出对千问过往技术路线的反思。 他坦率承认:“我们没有全做对”(We did not get everything right)。 千…

    2026年3月27日
    43400
  • LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式

    关键词:LLM、内核生成、自动化优化、智能体、基准测试 现代人工智能系统的性能从根本上受制于底层内核的质量,这类内核可将高层算法语义转化为底层硬件操作。要实现接近最优性能的内核,需要研发人员具备专家级的硬件架构知识与编程模型认知,这使得内核工程成为一项至关重要但耗时冗长且不具备可扩展性的工作。 Towards Automated Kernel Generat…

    2026年1月27日
    48100