具身智能
-
智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?
一场押注AI未来的技术豪赌。 北京时间1月29日,北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊。这是继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇围绕多模态大模型路线的Nature论文。 Nature编辑在点评中指出:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,…
-
具身智能革命:人形机器人如何跨越死亡谷,开启百万亿市场新纪元
引言:具身智能,AI从“认知”到“行动”的革命 当ChatGPT开启了通用人工智能的“认知时代”,AI实现了从“听懂、看懂”到“理解、思考”的跨越;而具身智能的崛起,则正在推开AI“行动时代”的大门,让人工智能真正走出屏幕、走进物理世界,实现“能做、会做、做好”的终极突破。 人形机器人作为具身智能的终极载体,凭借类人的形态、灵活的运动能力和自主决策能力,不仅…
-
蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
蚂蚁开源世界模型,为机器人造“元宇宙训练场”。 智东西1月29日报道,蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。 ▲LingBot-World开源页面(来源:Hugging Face) LingBot-Worl…
-
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3 在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果: 通用的世界模型——LingBot-World。 该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与…
-
蚂蚁灵波开源最强具身智能大脑LingBot-VLA:20000小时真实数据验证Scaling Law,实现“一个大脑,多个身体”
从3000小时到20000小时:真实数据验证Scaling Law 从3000小时到整整20000小时。 真实世界数据中的Scaling Law,直接催生了一个强大的VLA(视觉-语言-动作)基座模型! 这就是蚂蚁灵波最新开源的具身智能基座模型——LingBot-VLA。 为何称其为当前最强?首先看数据。 仅从“20000小时”这个规模来看,LingBot-…
-
突破数据孤岛:Being-H0.5全栈开源具身模型以3.5万小时训练实现跨机器人零样本技能迁移
BeingBeyond团队 投稿 量子位 | 公众号 QbitAI 近年来爆火的具身智能领域长期面对着数据孤立导致的训练困境,一线厂商凭借高投入建立独属于自研型号机器的“数据护城河”,而小厂的资产规模直接反映在数据体量上,限制了其产品专用模型的训练。 BeingBeyond团队 近日发布的Being-H0.5有望改变这一局面。 Being-H0.5是目前训练…
-
OpenAI首席财务官与投资人揭秘:2026年AI三大趋势与算力变现之道
OpenAI首席财务官与投资人展望2026:多智能体、算力变现与行业变革 OpenAI首席财务官Sarah Friar与著名投资人Vinod Khosla在最新播客中,深入探讨了2026年AI发展的核心趋势。 讨论涵盖广泛,包括多智能体系统即将正式登场、AI行业如何将算力转化为收入、大模型能力的边界突破,以及对医疗健康与具身智能等领域的深远影响。 此次访谈的…
-
清华&伯克利联手突破:BOOM框架让具身智能性能翻倍,世界模型+强化学习实现双向奔赴
具身智能的样本效率瓶颈 在具身智能(Embodied AI)的快速发展中,样本效率已成为制约智能体从实验室环境走向复杂开放世界的瓶颈问题。 不同于纯数字域的对话任务,具身任务通常涉及极度复杂的物理环境感知以及高维度的连续控制输出。这意味着智能体面临着巨大的状态-动作搜索空间,导致学习效率低下且难以收敛。 传统的无模型强化学习由于缺乏对底层物理逻辑的理解,完全…
-
评测驱动时代开启:李飞飞World Labs联手光轮智能,破解具身智能规模化评测难题
最火世界模型,最火具身智能基建,联手了! 前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。 具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。 而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。 在这个赛道上,光轮智能基于全栈自研仿真技术体系所构…
-
BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长
01|“看懂世界”这关,大模型还没上幼儿园 过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …