近日,厦门大学与腾讯联合发布的研究论文《FlashWorld: High-quality 3D Scene Generation within Seconds》在学术界和工业界引发广泛关注。该论文不仅登上Huggingface Daily Paper榜单首位,更获得包括AK、Midjourney创始人、SuperSplat创始人在内的多位AI领域专家在X平台上的高度评价。

FlashWorld技术的突破性体现在多个维度:首先,在单张GPU上实现了5-10秒的3D场景生成速度,相比传统方法提升百倍;其次,统一支持单张图片或文本输入,生成场景可直接在网页端实时渲染;最令人瞩目的是,其生成质量超越了同类闭源模型,展现出开源模型的强大竞争力。

技术实现路径方面,FlashWorld选择了基于3D高斯泼溅(3DGS)的场景输出形式,这一选择使其能够在本地网页端实现实时渲染。当前3DGS场景生成方法主要分为两大流派:一是以多视角为中心(MV)的方案,如CAT3D、Wonderland等,采用先通过扩散模型生成多视角图像/视频,再进行三维重建的两步框架,但容易因视角不一致产生纹理细节杂乱问题;二是以三维为中心(3D)的方案,如Director3D、DiffusionGS等,将3DGS直接用于多视角去噪流程,却因相机标注不准确和模型知识不足导致渲染效果模糊。

FlashWorld的核心创新在于提出跨模式蒸馏框架:通过将以多视角为中心的教师模型的知识蒸馏到以三维为中心的学生模型中,既保证了多视角一致性,又提升了图像质量,同时大幅减少了去噪步数。这一技术路径巧妙地平衡了生成效率与质量之间的矛盾。



从技术架构看,FlashWorld包含两个关键训练阶段:第一阶段进行双模式预训练,基于视频扩散先验训练同时支持MV和3D模式的多视图扩散模型;第二阶段实施跨模式后训练,以MV模式为教师、3D模式为学生,通过分布匹配蒸馏实现高保真与3D一致性的统一。



值得注意的是,FlashWorld充分利用了分布匹配蒸馏无需真实标注的特性,将随机图像、文本和轨迹组合成分布外输入进行训练,显著提升了模型对各种场景、风格和轨迹的泛化能力。这种训练策略使其能够适应更广泛的应用场景。

在实验验证方面,FlashWorld进行了全面系统的性能评估。在图生三维场景任务中,模型成功生成了整齐的栅栏结构,这在以往工作中几乎不可能实现;在文生三维场景任务中,对毛发等细粒度细节展现出卓越的生成能力,而传统密集视角重建方法往往难以处理此类问题。


在Feifei Li团队提出的WorldScore Benchmark评估中,FlashWorld在场景风格、语义理解和三维特性保持方面表现优异。定量指标显示,FlashWorld以最快的生成速度获得最高平均分,在效率和质量两个维度均领先于其他方法。



更令人印象深刻的是,FlashWorld在仅使用RGB监督的情况下自然学习到了深度信息,展现出强大的表征学习能力。同时,模型对卡通风格场景的生成也游刃有余,所有展示图像均为3DGS渲染结果,验证了其广泛的应用适应性。


目前,研究团队已在Huggingface Spaces上提供基于SparkJS的交互式Demo,用户可免费体验这一前沿技术。开源代码和项目页面也已公开,为学术界和工业界的进一步研究与应用提供了坚实基础。

从技术发展趋势看,FlashWorld的成功标志着3D场景生成技术正朝着更高效、更开放、更实用的方向发展。其采用的跨模式蒸馏框架为解决生成质量与效率的平衡问题提供了新思路,而开源策略则有望加速整个领域的创新步伐。随着计算资源的不断优化和算法技术的持续突破,秒级高质量3D场景生成有望在游戏开发、虚拟现实、影视制作、建筑设计等多个领域实现规模化应用,推动数字内容创作进入全新阶段。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8772
