何恺明
-
谷歌DeepMind发布Vision Banana:图像生成预训练统一视觉感知任务
谷歌DeepMind以Nano Banana Pro为底座,最新发布通用多模态视觉大模型Vision Banana —— 何恺明、谢赛宁 参与,证明图像生成预训练,可以成为通用视觉学习的统一范式 。 一个通用模型,零样本迁移下,击败SAM 3、Depth Anything 3等专用模型,分割、深度、法线核心任务刷新多项SOTA。 就像LLM用文本生成统一所有…
-
何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据
何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据 静态3D资产缺少动力学信息,而真实的物理仿真标签又极其昂贵——如何高效扩展物理仿真模型的训练? 何恺明团队的最新论文GeoPT 提出了一种新思路。该研究引入了一种名为动力学提升几何预训练 的全新范式,通过合成动力学 将静态几何“提升”到动态空间,使模型能够在无标签数据…
-
何恺明团队颠覆生成模型范式:漂移模型实现单步推理,告别迭代训练
训练生成模型是一项复杂的任务。 从底层逻辑看,生成模型是一个逐步拟合的过程。与常见的判别模型不同,判别模型关注将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。 以大家熟悉的扩散模型为例,扩散模型及其基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映射。然而,训练扩散模型耗时费力,其核心…
