世界模型 - 鲸林向海

迈向AGI新范式：视频空间超感知如何突破LLM感知瓶颈

在人工智能迈向通用智能（AGI）的漫长征程中，一个根本性的哲学问题日益凸显：在构建超级智能之前，我们首先需要什么？近期，由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S：迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向，更可能重新定义AI感知能力的演进路径。三位作者的组合…

2025年11月10日

263000

AI产业动态

自动驾驶范式迁移：从数据闭环到训练闭环的深度技术解析

在自动驾驶技术发展的关键转折点，行业正经历一场深刻的范式迁移。端到端架构虽曾统一技术栈并释放Scaling Law潜力，但随着数据瓶颈日益凸显，单纯依赖模仿学习已难以突破人类司机能力上限。ICCV 2025的最新动向显示，头部企业正形成共识：强化学习与云端生成式世界模型将成为下一代自动驾驶系统的核心基座。特斯拉与理想汽车在顶会现场的实践分享，揭示了这一转型…

2025年11月8日

366000

AI产业动态

Emu3.5：原生多模态世界模型的范式革命与第三种Scaling路径

2025年，人工智能领域正经历一场从语言智能向物理世界智能的深刻范式转移。”世界模型”这一概念已从学术构想演变为科技巨头竞逐的核心战场，其目标在于构建能够理解、预测并生成动态物理环境的AI系统。谷歌的Genie 3凭借一句话生成720p实时模拟世界的能力，被业界喻为”游戏引擎2.0″；李飞飞团队推出的RTFM模…

2025年11月3日

384000

AI产业动态

世界模型：GPT-5推理能力跃迁的底层逻辑与AI智能进化的关键地图

近期，GPT-5展现出的强大推理能力引发了广泛关注，其逻辑水平被媒体评价为“堪比专家”，用户甚至感觉“像是在和博士讨论问题”。这种能力的跃迁并非偶然，而是源于AI智能体在训练过程中悄然构建的“世界模型”。这一发现不仅揭示了通用智能体推理能力的本质，也正在重塑我们对AI智能进化的理解。长期以来，学界围绕AI能否仅通过模仿学习解决复杂任务展开了激烈争论。“模仿…

2025年10月31日

356000

AI产业动态

从数据闭环到训练闭环：理想汽车世界模型如何重塑自动驾驶AI范式

近期，人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出，AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”，强调需要为现实世界任务开发新的评估体系，并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下，自动驾驶作为AI技术落地的前沿阵地，其范…

2025年10月31日

363000

AI产业动态

悟界·Emu3.5：世界模型基座如何重塑多模态AI的物理认知与时空一致性

在AI技术快速迭代的浪潮中，多模态模型正从简单的图文生成向更复杂的物理世界理解演进。北京智源人工智能研究院（BAAI）最新开源的悟界·Emu3.5，作为一款原生多模态世界模型，不仅在图、文、视频任务上展现出全面能力，更在模拟动态物理世界、保持时空一致性方面实现了突破性进展。这标志着AI正从“表象生成”迈向“本质理解”的新阶段。 Emu3.5的核心突破在于其作…

2025年10月30日

310000

AI产业动态

美团视频生成模型来了！一出手就是开源SOTA

美团推出开源视频生成模型LongCat-Video，该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平，通过技术创新实现了高质量、长时序的视频内容生成，为视频创作和AI世界模型研究提供了新的工具和思路。

2025年10月27日

474000

AI产业动态

李飞飞发布全新世界模型，单GPU就能跑！实时生成永不消逝的3D宇宙

“AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM（Real-Time Frame Model）。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界，首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构，不依赖显式 3D 表征，而是从海量视频里端到端“学会渲染”，支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线，被视为空间智能赛道的又一次“ChatGPT 时刻”

2025年10月17日

981000