通用导航新纪元：NavFoM如何用统一范式突破机器人跨任务跨本体壁垒

在机器人技术快速演进的今天，导航能力被视为移动操作系统的基石，直接决定了机器人的工作半径与应用场景的广度。然而，长期以来，导航算法的研发往往陷入“专用化”的窠臼——针对特定任务（如视觉语言导航、目标搜索）或特定机器人本体（如四足机器狗、轮式机器人、无人机）进行定制化设计。这种割裂的研究范式虽然能在单一领域取得进展，却严重忽视了不同任务与不同机器人平台之间存在的导航能力共性（synergy），导致算法层面的可扩展性受到极大限制，研究成果难以迁移和泛化。

为此，由北京大学、银河通用、阿德莱德大学、浙江大学等机构组成的联合研究团队，提出了一个开创性的解决方案：构建具身导航的基座模型（Embodied Navigation Foundation Model），即NavFoM。该模型旨在实现从“专用导航”到“通用导航”的技术跃迁，其核心目标可概括为三个维度：

**多任务统一**：将视觉语言导航、目标搜索、目标跟随、自动驾驶等异构任务纳入同一框架。

**全场景覆盖**：无缝适应室内结构化环境与室外复杂开放场景。

**跨本体兼容**：支持四足机器人、轮式底盘、人形机器人、无人机乃至汽车等多种载体平台。

这一愿景的实现，依赖于NavFoM所提出的一套**统一导航范式**。其根本思想在于，将多样化的机器人导航任务抽象为相同的输入-输出映射：**机器人实时采集的流式视频数据 + 自然语言描述的导航指令 → 预测出的未来动作轨迹**。通过用文本指令统一描述不同导航任务的目标，并用视频流统一表征导航历史状态，模型得以学习预测跨域的运动轨迹。这种范式剥离了任务与载体的特异性，聚焦于导航的本质——基于感知与指令规划行动。

NavFoM的模型架构为实现这一范式提供了关键技术支撑。其核心创新之一是引入了**时空视角指示符（Temporal-viewpoint Indicator Tokens, TVI Tokens）**。这些通过端到端学习得到的Token，用于编码图像帧的时间和相机视角两个维度信息。对于导航任务，TVI Tokens同时标记时间序列和视角变化，从而兼容单目、多目环视（如无人机、车辆）等多种相机配置的输入。对于视频问答（Video QA）任务，则仅使用时间维度进行标记；对于图像问答（Image QA），可直接处理单帧。

TVI Tokens提供了一套可扩展的表示方法，使模型能更好地理解不同任务和相机设置下的视觉内容。通过混合训练Image QA和Video QA数据，NavFoM保留了强大的开放世界理解能力，避免了过度拟合到狭窄的导航任务中，增强了模型的泛化性。

另一关键设计是**双分支结构（Dual-Branch）**。在执行导航任务时，规划头（planning head）输出由一系列路径点（waypoints）构成的轨迹；在执行QA任务时，语言模型头（LM head）则进行下一个词预测，输出文本响应。这种结构允许单一模型以最优形式处理两种差异显著的任务，并保持训练与测试流程的一致性。

然而，将参数量达70亿（7B）的导航基座模型部署到真实机器人上，面临严峻的实时性挑战。导航过程中持续产生的视频历史帧会带来巨大的计算负载，严重影响推理效率与性能。为此，团队提出了**预算感知的令牌采样策略（Budget-Aware Token Sampling Strategy, BATS）**。该策略在给定的计算预算（最大Token数量限制）下，自适应地采样关键视频帧：优先保留靠近当前时刻的帧（信息时效性高），逐步遗忘遥远的历史帧。

具体而言，团队设计了一套可自适应调整的“遗忘曲线”。当视频总帧数变化时，曲线自动调整采样分布（如图左）；当Token预算（对应硬件算力）变化时，曲线也能动态调整——预算充足时保留更多历史关键帧（曲线平缓），预算紧张时则聚焦于最新帧（曲线陡峭）（如图右）。这种动态采样机制确保了在有限算力下，既能维持导航性能，又能实现高效稳定的实时运行，为长程导航任务落地真实场景扫清了障碍。

模型的强大能力离不开大规模高质量数据的滋养。研究团队构建了迄今为止规模最大的跨任务跨本体导航数据集，包含约八百万条数据，覆盖视觉语言导航、目标导航、目标跟踪、自动驾驶及网络导航等多种任务，并涉及轮式机器人、四足机器狗、无人机和汽车等多种载体。此外，还融合了约四百万条开放世界问答数据，以增强模型的常识与推理能力。

在数据预处理方面，团队采用了创新的图像缓存（cache）技术，显著降低了训练过程中的硬件I/O需求，从而支持了更大规模的模型训练。数据显示，其训练数据量约为以往同类工作的两倍，为模型性能奠定了坚实基础。

在算法评估中，NavFoM在多个公开基准测试（涵盖不同任务与不同机器人本体）上取得了领先（SOTA）或可比肩领先水平（SOTA-comparable）的性能。尤为重要的是，这些成绩是在**无需针对任何特定任务或机器人进行微调**的情况下取得的，仅通过修改输入指令和相机配置即可直接适配，充分证明了其卓越的泛化能力与通用性。

可视化结果进一步印证了其强大性能：

更令人印象深刻的是，NavFoM能够使用**同一套模型参数**，同时驱动机器狗、轮式机器人和无人机完成复杂的跟随任务，展现了其跨本体控制的统一能力：

研究团队并未止步于此，他们进一步探索了NavFoM作为基座模型在更复杂场景下的潜力。例如，在TrackVLA++工作中，实现了在复杂环境中超过30分钟的稳定长程目标跟随；在UrbanVLA项目中，探索了基于第三方地图引导的机器人城市自主出行。这些延伸研究验证了NavFoM框架的可扩展性与应用前景。

NavFoM的出现，标志着机器人导航研究范式的一个重要转折点。它通过统一的架构、创新的TVI Tokens、双分支设计以及实用的BATS采样策略，成功地将分散的导航任务与载体整合到一个通用的基座模型中。这不仅在学术上实现了多个基准的突破，更在工程层面为开发真正通用、可扩展的机器人导航系统提供了可行的技术路径。随着具身智能的不断发展，像NavFoM这样的通用导航基座模型，有望成为未来机器人融入多样化现实场景的核心引擎，推动从单一功能机器人向多任务通用智能体的演进。

— 图片补充 —