机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

机器人“内卷”新高度:Gen-1模型成功率99%,效率提升3倍,具备“即兴”处理能力

具身智能公司Generalist发布了其最新研究成果——Gen-1模型。该模型在精细操作任务上表现卓越,将机器人执行的成功率从64%大幅提升至99%,同时效率也显著提高。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

以折叠标准纸箱为例,此前完成该任务平均耗时约34秒,而Gen-1仅需12.1秒即可完成,效率提升近3倍。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

Gen-1的表现,也验证了机器人领域同样存在性能随规模扩展而提升的规律。

机器人模型性能突破

Gen-1在执行任务时不仅速度更快,而且稳定性极高。无论是连续执行200次扫地机器人维护这类重复性工作,还是完成1800次连续装箱任务,它都能保持稳定可靠的表现。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

更值得注意的是其处理突发状况的能力。当流水线上的零件被意外撞歪时,Gen-1不会因报错而停滞,而是能够自主调整抓取角度,甚至协调使用双手协作完成任务。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

这种基于对物理世界理解的“即兴”处理能力,使其在面对杂乱物体或非预设场景时,表现得更为灵活自然,摆脱了传统程序化执行的僵硬感。

基于人类活动记录的训练方法

为使机器人获得更通用的能力,研发团队重构了数据处理架构。他们放弃了成本高昂且难以扩展的传统机器人遥操作数据采集方式,转而通过低成本穿戴设备,采集了数百万项人类日常活动记录,用于训练AI理解物理世界的潜在规律。

这种“去机器人化”的预训练策略,有效规避了机器人数据规模的瓶颈,让基础模型在接触真实机械臂之前,就已从人类视角学习了空间、时间与物理因果关系。

基于超过50万小时高保真物理交互数据训练出的模型底座,其学习效率达到前代模型的10倍。即使面对从未见过的任务或新型机器人本体,仅需约一小时的现场演示,Gen-1便能快速适应并开始工作。

此外,为实现流畅、实时的动作控制,团队在推理端引入了两项关键技术:

首先是专为物理世界设计的分页注意力(Paged Attention)机制。在处理海量物理交互数据流时,该机制通过更高效的计算资源调度,解决了指令响应延迟问题,确保动作指令能在毫秒级时间内发出,使AI的反应速度能与现实物理节奏同步。

另一项是Harmonic Reasoning系统。作为推理核心,它改变了以往单一、固定的动作预测模式,允许模型通过多尺度动态调节来优化输出指令的权重分配,从而在执行包装、折叠等复杂动态任务时,展现出超越固定权重模型的性能。

机器人领域的规模扩展定律

Gen-1的性能飞跃证明,在机器人领域,规模扩展定律(Scaling Law 同样适用:当提供足够的数据和计算资源时,机器人模型的能力会出现质的提升。

通过大规模预训练,机器人不再仅仅是机械地模仿动作序列,而是能够自主领悟空间、时间及因果关系,理解物体间的相互影响。

这种对物理世界的“直觉”理解,赋予了机器人一定的任务灵活性。当任务过程中出现未曾预见的障碍时,它能自发尝试解决方案,例如在物品难以放入时,会像人类一样晃动容器进行调整。

这种即兴解决问题的能力,源于其对“动作-后果”逻辑的真正理解。即使现场发生意外干扰,它也能凭借直觉调整策略,无需人类步步干预。

研发团队还通过对齐技术,为这种自主能力设置了安全边界,确保机器人的“临场发挥”始终符合用户设定的操作规范。

技术背景与团队

Gen-1模型的底层技术源于团队在机器人领域的长期积累。其创始人Pete Florence曾担任Google DeepMind高级研究科学家,在视觉引导的机器人端到端学习方面有深入研究。

机器人内卷新高度!Gen-1模型成功率99%,效率提升3倍,还能“即兴”处理突发状况

在谷歌PaLM团队工作期间,他作为核心成员参与了PaLM-E、RT-2等具有代际意义的机器人项目。2024年,Pete Florence离开谷歌并创立了Generalist。其此前的研究成果在业内持续产生影响,例如DeepMind在2025年3月发布的Gemini Robotics相关论文中,仍多次引用了其合著工作。

参考链接:
https://generalistai.com/blog/apr-02-2026-GEN-1


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28798

(0)
上一篇 12小时前
下一篇 12小时前

相关推荐

  • 英伟达财报深度解析:2026年AI算力万亿市场,数据中心业务占比超88%引领增长

    2026年AI算力市场的竞争格局与增长轨迹,与英伟达的战略动向紧密相连。从2025财年财报的超预期表现,到2026财年的强劲业绩指引,再到管理层对远期芯片收入预期的上调,英伟达不仅以财务数据验证了全球AI算力需求的持续性与韧性,更通过其技术路线与业务布局,揭示了万亿级市场的未来轮廓。 本文将以英伟达2025财年财报为核心切入点,系统分析其各业务板块表现,解读…

    2026年3月2日
    51600
  • Video-As-Prompt:统一语义控制新范式,开启视频生成“克隆”时代

    在当前的AI视频生成领域,实现抽象语义的精确控制一直是个技术难题。无论是复刻Labubu特效、重现吉卜力风格,还是模仿希区柯克运镜,这些依赖高层次语义理解的创作任务,往往因缺乏统一的条件表征而难以实现。传统方法通常采用两种路径:一是针对每种语义单独训练LoRA模型,二是为特定语义类别设计专用架构。然而,前者面临语义条件无穷无尽、模型复杂度爆炸、泛化能力缺失的…

    2025年11月18日
    21400
  • 字节豆包AI全面升级:多模态Agent、图像视频生成大版本革新,引爆春节AI大战

    「2026 年或将成为人类历史上最忙碌、也最具决定性的一年。」xAI 联创 Jimmy Ba 在离职宣言中如是说。 这话并非夸张。1 月初,Anthropic 推出 Agent 工具 Claude Cowork,并发布 11 个配套插件;一周前,Anthropic 与 OpenAI 又几乎同时推出新版本基础大模型 Claude Opus 4.6 与 GPT-…

    2026年2月14日
    27700
  • GPT-4o之母离职,OpenAI灵魂工程师告别,AI界白月光或将永逝

    为GPT-4o注入“灵魂”的核心工程师已离开OpenAI。 近日,被社区称为“4o之母”的Joanne Jang发布长文,宣布结束其在OpenAI四年半的职业生涯。 嗨!在待了4年半之后,我要离开OpenAI了。 随着GPT-4o模型此前下线,这位亲手塑造其独特“人格”的灵魂工程师的离去,引发了广泛关注。 核心人物离职 在首席财务官(CFO)内讧、首席运营官…

    3小时前
    8200
  • Fast3Dcache:突破3D生成瓶颈,无需训练的几何感知加速框架

    在AIGC技术迅猛发展的浪潮中,3D内容生成正成为人工智能领域的重要前沿。以TRELLIS为代表的3D生成模型,通过扩散过程逐步构建三维几何结构,其生成质量已取得显著进步。然而,这类模型普遍面临一个核心挑战:生成过程缓慢且计算密集。复杂的去噪迭代与庞大的体素计算,使得生成一个高质量3D资产往往耗时数十分钟甚至数小时,严重制约了其在实时应用、游戏开发、影视制作…

    2025年12月4日
    24900