世界模型

  • 世界模型破解VLA监督稀疏难题:DriveVLA-W0如何放大自动驾驶数据规模定律

    在自动驾驶技术从实验室走向商业化的关键阶段,视觉-语言-动作(VLA)大模型正面临着一个根本性的发展瓶颈:监督稀疏问题。特斯拉在ICCV会议上公开指出,当前VLA模型虽然能够处理高维、稠密的视觉信息流,但其训练监督信号却仅限于低维、稀疏的驾驶动作(如转向角度、加速度等路径点指令)。这种输入与监督之间的维度不匹配,导致模型无法充分利用PB级海量数据的潜力,严重…

    2025年11月17日
    18500
  • Yann LeCun离职Meta:世界模型与LLM的路线之争,AI未来何去何从?

    近日,AI界传来重磅消息:图灵奖得主、Meta首席AI科学家Yann LeCun即将离职。这一事件不仅标志着Meta内部AI战略的重大调整,更折射出当前人工智能领域关于技术路线的深刻分歧。LeCun作为深度学习奠基人之一,其离职背后是LLM(大语言模型)与“世界模型”两种AI发展路径的激烈碰撞,值得我们深入分析。 LeCun离职的直接导火索,是Meta内部A…

    2025年11月16日
    18400
  • 华为战略投资极佳视界:世界模型如何重塑自动驾驶与具身智能的数据范式

    近日,华为哈勃与华控基金联合完成对物理AI公司极佳视界的亿元级A1轮投资,这是该公司两个月内连续完成的第三轮融资。这一动作不仅标志着华为在自动驾驶和具身智能领域的战略深化,更揭示了世界模型作为下一代AI基础设施的核心价值。 极佳视界成立于2023年,是国内首家以“世界模型”为核心定位的纯血物理AI公司。在短短两年内,该公司已构建覆盖自动驾驶世界模型、具身基础…

    2025年11月12日
    23600
  • 迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

    在人工智能迈向通用智能(AGI)的漫长征程中,一个根本性的哲学问题日益凸显:在构建超级智能之前,我们首先需要什么?近期,由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S:迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向,更可能重新定义AI感知能力的演进路径。 三位作者的组合…

    2025年11月10日
    15000
  • 自动驾驶范式迁移:从数据闭环到训练闭环的深度技术解析

    在自动驾驶技术发展的关键转折点,行业正经历一场深刻的范式迁移。端到端架构虽曾统一技术栈并释放Scaling Law潜力,但随着数据瓶颈日益凸显,单纯依赖模仿学习已难以突破人类司机能力上限。ICCV 2025的最新动向显示,头部企业正形成共识:强化学习与云端生成式世界模型将成为下一代自动驾驶系统的核心基座。 特斯拉与理想汽车在顶会现场的实践分享,揭示了这一转型…

    2025年11月8日
    19600
  • Emu3.5:原生多模态世界模型的范式革命与第三种Scaling路径

    2025年,人工智能领域正经历一场从语言智能向物理世界智能的深刻范式转移。”世界模型”这一概念已从学术构想演变为科技巨头竞逐的核心战场,其目标在于构建能够理解、预测并生成动态物理环境的AI系统。谷歌的Genie 3凭借一句话生成720p实时模拟世界的能力,被业界喻为”游戏引擎2.0″;李飞飞团队推出的RTFM模…

    2025年11月3日
    18100
  • 世界模型:GPT-5推理能力跃迁的底层逻辑与AI智能进化的关键地图

    近期,GPT-5展现出的强大推理能力引发了广泛关注,其逻辑水平被媒体评价为“堪比专家”,用户甚至感觉“像是在和博士讨论问题”。这种能力的跃迁并非偶然,而是源于AI智能体在训练过程中悄然构建的“世界模型”。这一发现不仅揭示了通用智能体推理能力的本质,也正在重塑我们对AI智能进化的理解。 长期以来,学界围绕AI能否仅通过模仿学习解决复杂任务展开了激烈争论。“模仿…

    2025年10月31日
    19300
  • 从数据闭环到训练闭环:理想汽车世界模型如何重塑自动驾驶AI范式

    近期,人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出,AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”,强调需要为现实世界任务开发新的评估体系,并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下,自动驾驶作为AI技术落地的前沿阵地,其范…

    2025年10月31日
    16900
  • 悟界·Emu3.5:世界模型基座如何重塑多模态AI的物理认知与时空一致性

    在AI技术快速迭代的浪潮中,多模态模型正从简单的图文生成向更复杂的物理世界理解演进。北京智源人工智能研究院(BAAI)最新开源的悟界·Emu3.5,作为一款原生多模态世界模型,不仅在图、文、视频任务上展现出全面能力,更在模拟动态物理世界、保持时空一致性方面实现了突破性进展。这标志着AI正从“表象生成”迈向“本质理解”的新阶段。 Emu3.5的核心突破在于其作…

    2025年10月30日
    16000
  • 美团视频生成模型来了!一出手就是开源SOTA

    美团推出开源视频生成模型LongCat-Video,该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平,通过技术创新实现了高质量、长时序的视频内容生成,为视频创作和AI世界模型研究提供了新的工具和思路。

    2025年10月27日
    32200