กฎการขยายขนาดของปัญญาประดิษฐ์แบบมีกาย (Embodied AI) ก้าวกระโดดครั้งใหม่: LDA-1B ของ Galaxy General รวมข้อมูลต่างชนิดกันเป็นหนึ่งเดียว ฝึกฝน 30,000 ชั่วโมง แซงหน้า GR00T

2 hours ago • ข่าวสารอุตสาหกรรม AI • 10 views

เมื่อเร็วๆ นี้ วงการหุ่นยนต์อัจฉริยะแบบมีกายภาพ (Embodied AI) มีการแข่งขันที่ดุเดือด เรียกได้ว่าเป็น “ศึกเทพประลอง”

เริ่มจาก Generalist AI เปิดตัว GEN-1 ซึ่งสร้างความสั่นสะเทือนให้วงการด้วยประสิทธิภาพด้านข้อมูลที่สูงมากและความสามารถในการควบคุมแบบวงปิด ทำลายสถิติการปฏิบัติงานหลายรายการ

สองสัปดาห์ต่อมา ผู้เล่นตัวสำคัญอีกรายในวงการหุ่นยนต์อัจฉริยะ Physical Intelligence ก็ได้เปิดตัวโมเดลใหม่ π 0.7 ที่เน้น “การประกอบและการสรุปทั่วไป” (Composition and Generalization) พร้อมอัปเกรดสถาปัตยกรรม VLA เพิ่มเติม

แม้ว่าปรัชญาทางเทคนิคของทั้งสองจะแตกต่างกันโดยสิ้นเชิง แต่ทั้งคู่ก็พยายามแก้ไขจุดเจ็บปวดหลักเดียวกัน นั่นคือ: ข้อมูล

ในประวัติศาสตร์การพัฒนาโมเดลภาษา GPT-2 กลายเป็นจุดเปลี่ยนสำคัญเพราะมันทำให้โมเดลภาษาหลุดพ้นจากการพึ่งพาข้อมูลติดป้ายกำกับคุณภาพสูงจำนวนน้อย และก้าวเข้าสู่ยุคของการขยายขนาด (Scaling) อย่างต่อเนื่อง

แต่ในวงการหุ่นยนต์อัจฉริยะ ปัญหานี้ยังไม่ถูกแก้ไขอย่างแท้จริง: หุ่นยนต์จะ “ย่อย” ข้อมูลโลกแห่งความจริงที่กระจัดกระจายเหล่านี้ได้อย่างไร?

正是在这一背景下，银河通用联合清华、北大、英伟达等众多机构，共同发布了跨本体“隐式世界-动作基础模型”LDA-1B，目光直指具身智能 Scaling Law 的终极命题：如何让模型有效利用互联网规模的异构数据。

简单来说，LDA-1B 是一个在隐空间中统一世界模型与 VLA 的基础模型。通过全面整合异构数据，它处理了超过 3 万小时的各类具身数据。其最核心的突破在于：无论是虚拟与现实的数据（虚实共融）、人类操作与机器采集的记录（人机混合）、优质示范与低质量的“脏数据”（质量参差），甚至是有无动作标签的素材，它都能实现统一且高效的利用。

换句话说：一个模型，开始能够“充分利用全部数据，并让所有数据各尽其用”。

กฎการขยายขนาดของปัญญาประดิษฐ์แบบมีกาย (Embodied AI) ก้าวกระโดดครั้งใหม่: LDA-1B ของ Galaxy General รวมข้อมูลต่างชนิดกันเป็นหนึ่งเดียว ฝึกฝน 30,000 ชั่วโมง แซงหน้า GR00T

LDA-1B 核心架构总览：通过统一的隐空间动力学，实现对 3 万小时海量异构数据的通用摄取。

在 RoboCasa-GR1 基准测试中，LDA-1B 以 55.4% 的成功率超越了 GR00T-N1.6（47.6%）和 π 0.5，并在真实世界的灵巧操作与长程任务中展现出显著优势。

值得一提的是，该研究论文已被机器人领域顶级会议 RSS 接收（今年仅有 210 篇录用），目前模型代码已正式开源。

论文标题：LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
论文地址：https://arxiv.org/abs/2602.12215
项目链接：https://pku-epic.github.io/LDA/
代码地址：https://github.com/jiangranlv/LDA-1B

喂什么，怎么喂？

要理解 LDA-1B 的突破，首先要看它“吃”下了什么。

长期以来，真实机器人数据规模有限，人类视频缺乏动作标注，而仿真数据又面临真实性约束，导致不同类型的数据彼此割裂。

这次银河通用的突破，离不开其构建的完整数据基础设施——银河星数（AstraData）。基于这一体系，他们搭建了一个“五层数据金字塔”：囊括了互联网数据（底层）、人类行为数据（次底层）、多本体合成仿真数据（中间层）、真实遥操数据（高层）以及真机自主运行数据（顶层）。

为了支撑这个 1.6B 参数的基础模型，研究团队基于这套体系构建了极具规模的通用具身交互数据集 EI-30K。

但在把数据喂给模型之前，有两个棘手的问题必须解决。

第一个问题是格式与动作对齐。

机器人数据和人类数据来自不同设备，执行器更是五花八门（夹爪、灵巧手、吸盘）。团队不仅将其全部转换成标准的 LeRobot 格式，更首次系统性地提出了“统一末端执行器动作空间”的跨本体解决方案。

对于机器人，这被定义为 6-DoF 末端执行器位姿加上夹爪宽度或灵巧手关节；对于人类，则是 6-DoF 手腕位姿和完整的 MANO 手部参数。

这使得模型不再需要去死记硬背“某台机器人的关节怎么动”，而是将所有动作统一映射到“手如何与物体发生作用”的物理本质上，为跨本体泛化扫清了障碍。

第二个问题是，数据质量良莠不齐，怎么用？

传统做法是只用专家数据，把低质量的直接丢弃。LDA-1B 的选择不一样，它采用按质分配，让每一类数据做它最适合的事：

高质量带动作数据：全面参与策略学习和动力学训练，享有最高权限。
次优/嘈杂动作数据：不参与策略学习，专门用于动力学和视觉预测训练。动作做错了没关系，杯子掉在地上、重力导致的碰撞等物理规律是真实可靠的。它通过动力学分支从这些低质量数据中汲取有效信息，实验显示，加入 30% 的低质量轨迹后，模型任务成功率反而提升了 10%。
无动作纯视频：主要是人类第一视角视频。它们全被投入到视觉预测任务中，让模型在没有动作标签的情况下，纯靠“看”来吸收关于物理世界如何自然演化的视觉先验。

这带来的变化非常大：低质量数据不再是废料、无标注视频也能直接参与训练。

正是这种最科学的数据分工，让具身智能的数据规模得以直接放大，也真正在逻辑上为通用机器人走向零售拣选、工业搬运和家庭服务等大规模商业部署铺平了道路。

VLA 和世界模型，能不能不二选一？

有了海量数据，接下来就是用什么模型来消化它们。

过去几年，主流答案是前文 π 0.7 所代表的 VLA：看图、听指令、输出动作，链路干净，响应也快。但它本质上是在做海量数据的模式匹配，缺乏真正的物理常识。一旦遇到重心偏移、摩擦力突变等没见过的物理边界情况，就极易翻车。

另一条路是世界模型。它不急着输出动作，而是先在脑子里预测未来：如果我这么做，世界会怎么变？但在“如何表征这个世界”上，大多世界模型主要侧重像素级视频的生成，虽然视频逼真，但物理动力学并不是学习的重点。

LDA-1B 的思路，是干脆别选了，直接在隐空间里深度融合。

它引入了将 World Model 与 Action Model 统一的 WAM 框架。虽然这一方向如今已是大热点，但早在 2025 年 3 月，银河通用就发表了论文，在全球范围内首次对 WAM 的概念进行了结构化定义，详见机器之心往期报道《机器人不只会抓和放！北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能》。

LDA-1B 正是这一前瞻路线的自然延伸，它让模型在统一框架下同时学习四类能力：策略学习、前向动力学、逆向动力学、视觉预测。

从命名就能看出这一点——Latent Dynamics Action Model：隐空间中建模世界的状态变化，同时直接输出可执行的动作策略。

怎么实现“一个模型，四种能力”？

具体到执行层面，LDA-1B 是如何让一切运转起来的？答案在于三个统一。

第一步：统一任务形式

在 LDA-1B 里，策略学习、前向动力学、逆向动力学与视觉预测全部被改写成同一种形式：预测未来的状态 + 预测未来的动作。

为了在同一个网络里搞定这件事，模型引入了“任务嵌入（Task Embedding）”和“寄存器 Token（Register Token）”机制。

通过激活不同的 Task Embedding，模型可以在四种模式间灵活切换。比如专心做“策略控制”时，就用一个视觉 Register Token 占住未来画面的坑位，全力推演动作；做“视觉预测”时则反过来。

这就意味着，模型不再僵硬地划分为“控制”与“建模”两大模块。通过巧妙的Token切换，所有任务都被转化为同一道“填空题”的不同变体，在同一套网络底层中自由流转。

第二步：统一表征空间

任务统一之后，还面临一个问题：究竟在哪个空间里进行统一？

LDA-1B 的答案是：放弃像素，采用 DINO latent。

传统的像素级模型或依赖 VAE 重构的隐空间，很容易将物体的几何结构、外观和动态变化混为一谈（例如，将算力浪费在预测背景墙纸的光影变化上），导致大规模训练效率极其低下。

DINO 特征的核心优势是：对杂乱背景不敏感，但对物体的语义和空间几何结构极度敏感。这使得模型在推演物理规律时，能够专注于“物体的交互与状态改变”，而非外观本身。

换句话说：LDA-1B 不是在“看世界”，而是在“理解结构化的世界”。这一步从根本上决定了它为何能够实现 Scale。

第三步：统一模型架构

任务统一与表征统一之后，最后一步是：用什么模型去学习？

LDA-1B 选择了多模态 Diffusion Transformer（MM-DiT）。它同时处理两条数据流：动作序列和未来视觉，通过共享注意力机制让两者相互影响。

一句话总结就是：动作和视觉是分开的，但“思考过程”是共享的。

这带来了一个关键效果：模型在预测动作时，会参考“未来世界会变成什么样”；在预测世界时，也会考虑“动作会带来什么影响”。

其本质在于：将因果关系写入了注意力结构之中。

三步合在一起——统一任务形式、统一表征空间、统一模型架构——让模型在同一套框架内，同时学会了“怎么动”和“世界会怎么变”。此时，它才真正拥有了一个统一的“大脑”：既能成为敏锐的行动者，又能化身精准的预测家。

理论讲完了，看看实战效果

在实验部分，LDA-1B 从多个维度展现了这种一体化架构带来的降维打击。

得益于这种结构化隐空间所支撑的一体化架构，LDA-1B 在任务成功率和泛化表现上，都以极具说服力的数据，直接超越了包括大参数 GR00T、π 0.5 在内的众多现有模型。

团队进行了一项消融实验：将 LDA-1B 中的 DINO 隐空间替换回传统的 VAE 像素级重构，其他条件保持不变。结果：成功率从 55.4% 骤降至 20.0%，几乎腰斩。由此可见，DINO 隐空间并非加分项，而是 Scaling Law 在具身智能领域得以生效的前提。

走进工厂与家庭

在真实世界（Galbot 和 Unitree 机器人）中，LDA-1B 所展现出的“灵性”，才是其最具震撼力的地方。

通过演示视频，我们可以清晰地看到该模型如何突破传统具身智能的瓶颈，真正解决商业落地的痛点。

面对此前从未出现在预训练数据集中的 Galbot 机器人，LDA-1B 展现了极强的少样本跨本体泛化能力。这打破了以往机器人换个底座就需要重新训练周期的困境。

LDA-1B 仅需约 1 小时的后训练数据，就能迅速理解新硬件的动力学特性。这种极高的适配效率，是模型能够从实验室走向零售门店、物流仓库等多元环境的基础。

在典型的长程任务中，机器人需要应对严格的步骤依赖：

接到指令后，机器人必须按序完成叠放、转移、摆盘与加料，任意一步抓取或放置失误都会导致后续全乱；当用户改变指令后，它也能理解意图变更并实时调整动作序列，自主纠偏完成新目标。

同时，在高自由度灵巧手方面，面对摩擦力极度复杂的“翻牛排”任务，LDA-1B 凭借对物理常识的深刻理解，实现了极高成功率。这证明它并非单纯的动作模仿，而是真正掌握了接触性任务的物理逻辑。

将一排杯子精确叠成金字塔形，每一层的堆叠都依赖上一层的稳定，对双臂协同与力控提出了极高要求。

传统模型常因单步误差累积导致全盘失败，而 LDA-1B 凭借在隐空间进行的动力学推演，能够预测动作的物理后果并实时纠偏。

结语

回顾这一波具身智能的浪潮，其轨迹与 LLM 的发展惊人地相似。

最早，大家手工编写规则；后来发现“大力出奇迹”，开始用海量数据做行为克隆；而现在，单靠模仿已经触及了物理常识的天花板。银河通用的 LDA-1B 提供了一种颇具启发性的思路：通过一个统一的模型，充分利用所有异构数据，既能“深思熟虑”，又能“说动就动”，终于能够像语言模型一样，从海量异构数据中持续学习世界本身。

目前，银河通用已将 LDA-1B 的核心算法与代码体系全面开源，希望推动行业从封闭优化走向开放共建。更重要的是，这一能力并非孤立存在，它将作为核心的通用数据吞吐与跨本体学习能力，快速汇入银河通用的全人形通用基础模型——“银河星脑（AstraBrain）”中。

在未来的路线图里，团队已明确了几个关键的进化方向：首先是尝试将视觉表示与隐空间动力学进行端到端的联合学习，不再受限于固定特征；其次是引入更丰富的感知模态，并探索如何自动优化不同质量数据在训练中的分工角色。

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/32555

Like (0)

0 0

การฝึกพารามิเตอร์ระดับล้านล้านไม่ใช่เรื่องยากอีกต่อไป: GraphPP ใช้การแปลงกราฟเพื่อกำจัดฟองในไปป์ไลน์อย่างสมบูรณ์ เพิ่มความเร็ว 70%

Previous 2 hours ago

SLM ทีมดังไขปริศนาสามประการของหน่วยความจำ Agent: LightMem เพิ่มประสิทธิภาพการค้นหาในระดับมิลลิวินาทีและเพิ่ม F1 ถึง 2.5 เท่า

Next 2 hours ago

ข่าวสารอุตสาหกรรม AI

ซีอีโอ OpenAI ออกเสียงหายากหลังบ้านถูกโจมตีด้วยระเบิดเพลิง: AI ต้องเป็นประโยชน์ต่อทุกคน ทบทวนความขัดแย้งในอุตสาหกรรมและการเติบโตส่วนบุคคล

เวลา 03:45 น. ตามเวลาท้องถิ่น บ้านพักของแซม อัลต์แมน ซีอีโอของ OpenAI ถูกโจมตีด้วยระเบิดเพลิงแบบง่าย ตามรายงานมีชายอายุ 20 ปีถูกจับกุมแล้ว อัลต์แมนโพสต์ข้อความแจ้งว่าปลอดภัย ระบุว่…

2026年4月11日
97000
ข่าวสารอุตสาหกรรม AI

Baidu ERNIE-5.0 (Wenxin 5.0) ทดลองใช้งาน (พร้อม prompt แบบเต็ม)

เมื่อเร็วๆ นี้ Baidu ได้เปิดตัวโมเดลขนาดใหญ่แบบโมดอลครบ (Native Full-Modal Large Model) อย่างเป็นทางการ นั่นคือ ERNIE-5.0 (Wenxin 5.0) โมเดลนี้มีพารามิเตอร์ขนาด 2.4 ล้านล้าน ใช้เทค…

2026年2月5日
230000
ข่าวสารอุตสาหกรรม AI

AI และหุ่นยนต์ครองจอในงานฉลองเทศกาลฤดูใบไม้ผลิ: เผยเบื้องหลังสงครามอุตสาหกรรมของงานเลี้ยงเทคโนโลยีปี 2026

智东西2月17日报道，刚刚过去的马年春晚，因AI与机器人成为绝对主角，引爆全网热议。从唯美的“十二花神”歌咏秀，到小品、武术、歌曲、喜剧短剧及贺岁微电影，众多节目都成了前沿科技的集中秀场。网友戏称，2026年春晚堪称“机器人春晚元年”。在央视春晚主会场，松延动力的多款机器人不仅与“机器人祖师奶”蔡明同台演小品，更推出了高度逼真的“蔡明仿生机器人”；宇树的机…

2026年2月17日
180000
ข่าวสารอุตสาหกรรม AI

AI ขับเคลื่อนการปรับโครงสร้างความมั่งคั่ง: รายชื่อมหาเศรษฐีจีนของฟอบส์ปี 2026 เผยให้เห็นการเติบโตของอุตสาหกรรมการผลิตเทคโนโลยีขั้นสูงและการเปลี่ยนแปลงเศรษฐกิจแพลตฟอร์ม

วันที่ 2 กุมภาพันธ์ 2026 ฟอร์บส์ได้เผยแพร่รายชื่อมหาเศรษฐีจีนล่าสุด ณ เดือนมกราคม 2026 รายชื่อที่ถูกมองว่าเป็น “บารอมิเตอร์เศรษฐกิจจีน” นี้ ได้รับความสนใจอย่างกว้างขวาง…

2026年2月4日
277000
นโยบายใหม่ปี 2025 ของกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศ: ศูนย์แลกเปลี่ยนอินเทอร์เน็ตรูปแบบใหม่จะปรับโครงสร้างเครือข่ายพลังการประมวลผลและรูปแบบการไหลเวียนข้อมูลอย่างไร?

สำนักงานกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศได้ออก “คำแนะนำเกี่ยวกับการเร่งส่งเสริมการพัฒนานวัตกรรมของศูนย์แลกเปลี่ยนอินเทอร์เน็ตรูปแบบใหม่แห่งชาติ” (MIIT Information …

ข่าวสารอุตสาหกรรม AI 2026年2月20日
261000

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

Baidu ERNIE-5.0 (Wenxin 5.0) ทดลองใช้งาน (พร้อม prompt แบบเต็ม)

AI และหุ่นยนต์ครองจอในงานฉลองเทศกาลฤดูใบไม้ผลิ: เผยเบื้องหลังสงครามอุตสาหกรรมของงานเลี้ยงเทคโนโลยีปี 2026