Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构

该工作由上海人工智能实验室钟志航团队联合四川大学、东京大学、上海交通大学、西北工业大学共同完成。

在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后,一个现实问题逐渐浮出水面:世界模型的可视化与交互,依然严重受限于底层 Web 端渲染能力。

Marble 所依赖的基于 WebGL 的 3D Gaussian Splatting (3DGS) 渲染器 SparkJS,让世界模型首次在浏览器中「跑起来」,但也暴露出明显瓶颈:大场景以及复杂场景下,CPU 排序成为性能天花板,动态场景与生成模型难以接入。

近日,开源项目 Visionary 给出了一个截然不同的答案:基于 WebGPUONNX,在浏览器中实现真正的动态 3DGS / 4DGS 实时渲染,并在多项测试中全面超越 SparkJS。

Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构
  • 论文标题:Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
  • 技术报告:https://arxiv.org/abs/2512.08478
  • GitHub:https://github.com/Visionary-Laboratory/visionary
  • 在线 Editor:https://visionary-laboratory.github.io/visionary/index_visionary.html

World Model 的「最后一公里」,卡在 Web 端渲染

相比 Genie3 等视频生成范式的世界模型,其对算力的依赖极为庞大,距离在 Web 端实现高质量、实时运行仍有不小差距。反观神经渲染路线,尤其是 3D Gaussian Splatting,凭借其高效性,已经成为构建世界模型的重要表示形式。

3DGS 让高质量、实时的 3D 世界成为可能,但在实际落地中,仍存在明显断层:

  • 桌面端 / 引擎方案(SIBR、Unity、Unreal):性能强,但依赖沉重、部署复杂,难以传播与复现;
  • 现有 Web 端方案(SparkJS、SuperSplat):受限于 WebGL 管线,主要支持静态或预计算高斯,难以承载实时推理的动态 3DGS、Neural Avatar,更难引入生成式模型。

World Model 想要真正「被看见、被交互」,Web 端渲染底座成为关键瓶颈。

Visionary:不是 Viewer,而是 World Model 的 Web 渲染基座

Visionary 的定位并非「又一个 3DGS 查看器」,而是一个面向 World Model / 空间智能的 Web 原生渲染基座 (Rendering Substrate):

  • WebGPU 原生架构:将 GPU 计算与渲染真正带入浏览器,替代 WebGL;
  • ONNX 驱动的统一接口:将「每帧高斯生成 / 更新」抽象为标准化的模型契约;
  • 动态友好设计:3DGS、4DGS、Neural Avatar 以及生成式后处理均可在线运行。

Visionary 的核心设计在于提出了 Gaussian Generator Contract

Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构

将各类 3DGS、4DGS 及 Avatar 方法统一导出为 ONNX 标准,每帧仅需输入相机、时间等轻量控制信号,即可由 ONNX 输出完整的高斯属性缓冲。

这种设计使得渲染器不再受限于具体的算法细节,首次在浏览器端实现了每帧动态生成与更新高斯、同一渲染器承载多种 3DGS 变体以及接入生成式后处理(如风格化、增强)的能力。

性能实测:全面超越 SparkJS

Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构

实验数据显示,在相同 3DGS 资源条件下,Visionary 的渲染效率显著优于当前主流 Web 端查看器。

在包含数百万高斯点的典型场景中,Visionary 将排序与预处理完全迁移至 GPU (WebGPU),显著降低端到端延迟,而 SparkJS 的性能瓶颈主要集中在 CPU 排序阶段。

不止更快:渲染正确性与画质同样重要

Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构

Visionary 采用逐帧 GPU 全局排序,彻底避免了类似 SparkJS 在快速视角变化下出现的 lazy sorting 视觉伪影。在 Mip-NeRF360 等基准上,画质指标与 SparkJS 持平甚至略有提升。

同时避免了 SuperSplat 等方案中的逐物体排序混合错误。在多模型混合场景下,仍能保证透明度渲染正确。

面向研究、创作与工业的统一平台

Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构
  • 对研究者:任意 3DGS 变体只要能导出 ONNX,即可快速复现、对比与展示;
  • 对创作者:无需安装专业软件,即可在浏览器中完成编辑、录制与渲染;
  • 对工业界:可将其应用于数字孪生、仿真、XR、具身智能等大规模实时场景。

Visionary 已在 GitHub 完全开源,采用宽松协议,并已获得 Firefox / Chrome WebGPU 相关开发者的关注与反馈。

Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构

目前已原生支持:MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R³-Avatar 等)、ONNX 生成式后处理(风格化、增强),全部渲染流程均在浏览器端完成。

团队表示,Visionary 只是迈向统一世界模型框架的第一步。未来将进一步探索:

  • 物理交互增强(碰撞检测与 Mesh 管线融合)
  • 物理感知建模(结合 MPM 等方法模拟真实动力学)
  • 空间智能体(基于多模态大模型的空间推理与交互)
  • 下游应用桥接(支持具身 AI 的 Sim-to-Real 迁移)

结语

World Model 的竞争,最终会回到一个问题:谁能把复杂世界,稳定、快速、低门槛地呈现出来?

Visionary 给出的答案是:用 WebGPU + ONNX,把世界模型真正带到 Web。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14300

(0)
上一篇 2025年12月21日 下午12:19
下一篇 2025年12月21日 下午1:25

相关推荐

  • AI大模型2026新生态:技术迭代与资本分野重塑行业格局

    2026 年初春,AI 大模型行业正经历一场深刻的结构性变革。 随着智谱 AI 与 MiniMax 相继登陆资本市场,曾被市场集体看好的“AI 大模型六小虎”正式结束同质化竞争阶段,踏上差异化发展的分岔路。 一边是头部企业借助资本杠杆加速生态扩张,一边是未上市独角兽凭借充足现金储备深耕技术壁垒;一边是通用人工智能(AGI)赛道的白热化竞逐,一边是垂直领域的精…

    AI产业动态 2026年1月18日
    80000
  • 华为战略投资极佳视界:世界模型如何重塑自动驾驶与具身智能的数据范式

    近日,华为哈勃与华控基金联合完成对物理AI公司极佳视界的亿元级A1轮投资,这是该公司两个月内连续完成的第三轮融资。这一动作不仅标志着华为在自动驾驶和具身智能领域的战略深化,更揭示了世界模型作为下一代AI基础设施的核心价值。 极佳视界成立于2023年,是国内首家以“世界模型”为核心定位的纯血物理AI公司。在短短两年内,该公司已构建覆盖自动驾驶世界模型、具身基础…

    2025年11月12日
    55700
  • AI资本内循环:从万亿美元市值到信息平权的技术革命

    在人工智能浪潮席卷全球的当下,一个引人深思的现象正在硅谷乃至全球科技界上演:AI产业的资本流动形成了一个精密的闭环系统,几家科技巨头通过复杂的交易与合作,共同撑起了万亿美元的市值。这不仅是市场层面的繁荣写照,更揭示了AI技术发展背后的资本逻辑与产业生态的深刻变革。 这一资本内循环的核心驱动力,源于AI技术对算力的巨大需求。今年9月,OpenAI与Oracle…

    2025年11月29日
    42100
  • 阿里开源Qwen3-Coder-Next:3B激活参数硬刚Sonnet4.5,智能体训练范式颠覆编程AI

    今天凌晨,阿里开源了最新的编程模型 Qwen3-Coder-Next。其最引人注目的特点在于:一个仅激活 30亿参数 的模型,在编程智能体任务上达到了与 Claude Sonnet 4.5 等顶级模型相当的水平。 Qwen团队在同步公开的技术报告中,提出了一个反行业直觉的核心结论: “扩展智能体训练规模,而非仅仅扩大模型规模,才是提升现实世界编码智能体能力的…

    2026年2月4日
    49300
  • Transformers v5.0.0rc0发布:AI基础设施的范式重构与生态演进

    近日,Hugging Face正式发布了Transformers库的v5.0.0rc0候选版本,标志着这一全球最流行的AI基础设施库完成了从v4到v5长达五年的技术周期跨越。作为AI开源生态系统的核心支柱,Transformers的这次重大更新不仅体现了技术架构的深度重构,更预示着AI开发范式的系统性演进。 自2020年11月v4版本发布以来,Transfo…

    2025年12月2日
    36300