让大模型真正走进并理解物理世界,是当前人工智能领域最迫切的挑战之一。然而,通用视觉语言模型(VLM)在文本和图像理解上表现出色,一旦应用于需要与物理环境精确交互的机器人等具身智能体时,却常常显得“笨手笨脚”。
核心问题在于,物理世界容不得半点含糊。通用模型通常满足于“大致正确”的图像理解,而具身智能则需要极度精细的三维空间感知,以及对真实物理交互的预测和规划能力。用“做题家”的思维去干“体力活”,自然水土不服。
针对这一行业痛点,腾讯混元团队联合腾讯Robotics X实验室,推出了专为具身智能量身定制的HY-Embodied-0.5系列基础模型。这并非对通用大模型的简单微调,而是一次从底层架构到训练范式的系统性重构。

该系列首批发布了两款主力模型:
* MoT-2B:采用创新的混合Transformer(MoT)架构,总参数量4B,激活参数量仅2B,主打端侧部署与实时响应。
* MoE-32B:采用混合专家(MoE)架构,总参数量407B,激活参数量32B,旨在追求复杂的推理与极致性能。
为实现AI对物理空间的精准“理解”与“反应”,团队在模型架构、数据组织和训练流程上进行了多项创新。模型采用了原生分辨率的视觉编码器,并引入混合Transformer(MoT)架构与视觉潜在Token机制,以强化视觉与语言表征的对齐。
在训练层面,模型首先基于超过1亿条高质量具身专属数据进行预训练,并采用迭代式后训练范式,结合拒绝采样微调、强化学习与在线蒸馏等技术,驱动模型思维链自主进化,同时将大模型能力高效“压缩”至轻量级变体。
HY-Embodied系列不仅在开源评测基准上取得了显著领先优势,更在物理实操中证明了其价值:通过将VLM作为底座应用于视觉-语言-动作(VLA)模型,可直接用于现实世界中的机器人控制。

在涵盖感知、推理、规划的22项权威评测中,HY-Embodied-0.5表现突出。轻量级的MoT-2B模型共取得16项最佳成绩,超越了参数规模更大的通用底座Qwen3-VL-4B及多个具身专用模型。

△ HY-Embodied-0.5 (2B) 评测结果
而旗舰模型MoE-32B在具身智能综合评测标准下,其表现可与当前行业标杆模型相抗衡。

△ HY-Embodied-0.5 (旗舰模型) 评测结果
除了评测优势,参数量仅2B的轻量模型也具备良好的实用体验,在视觉感知和具身任务上不仅能输出准确结果,还能提供清晰合理的推理过程。

将更强的VLM基座应用于机器人实机任务能带来显著效果提升。在相同的动作训练数据下,采用HY-Embodied-0.5预训练基座(右图)相比基线模型(左图),在打包、堆叠、悬挂等多个实际任务中表现更优。


视觉-语言混合MoT架构
在多模态训练中,信息量巨大的视觉信号往往会挤占语言模型的参数空间,导致“视觉能力提升,语言能力下降”的灾难性遗忘问题,这在参数量有限的端侧模型上尤为突出。
HY-Embodied-0.5的架构设计旨在实现模态自适应与无损感知。其目标是让端侧模型(如MoT-2B)在不丢失关键信息的前提下精准理解视觉输入,同时确保视觉与语言处理“各司其职”,在互不干扰中实现整体性能提升。

△ HY-Embodied-0.5 MoT-2B 架构图
为突破端侧小模型的性能瓶颈,HY-Embodied对基础VLM架构进行了深度重构,核心包含三部分:
HY-ViT 2.0(原生分辨率视觉编码器)
HY-ViT 2.0原生支持任意分辨率输入,并针对端侧部署专门优化了参数量(400M高效版本)。它通过从更强大的内部大模型进行知识蒸馏,并引入视觉重建监督和微型语言模型的监督,确保输入到大语言模型的视觉信号信息损失最小化。
MoT计算与双向注意力(混合Transformer架构)
为避免视觉与语言模态“打架”,模型引入了混合Transformer(MoT)机制,为视觉分支分配了独立的非共享参数。具体而言,它复制了语言模型前馈网络(FFN)和注意力(QKV)层的参数并用预训练权重初始化,专门用于处理视觉Token。这使得模型总参数量增加,但推理计算效率几乎不受影响。
同时,鉴于图像不具备语言序列的单向性,模型为视觉Token解锁了独立的全向(双向)注意力机制,并引入视觉Next-code预测任务(利用一个将每个8×8图像块编码为单一代码的2K离散词表进行监督),以提供更强的视觉表征学习信号。
Visual Latent Tokens(视觉潜在桥梁)
受潜在思维链机制启发,HY-Embodied-0.5在每个视觉输入序列(如图片或视频帧)的末尾,都附加了一个专属的“视觉潜在Token”。在预训练阶段,这些Token直接接收来自超大视觉Transformer(ViT)全局特征的监督。它们如同连接视觉与文本内容的桥梁,显著提升了端侧小模型的整体感知容量与细粒度理解能力。
大规模高质量具身与空间数据

△ HY-Embodied-0.5 训练数据组成
HY-Embodied-0.5旨在让模型像真实的物理智能体(Agent)一样,建立从“立体空间感知”到“逻辑规划执行”的完整认知链路。为此,团队摒弃了零散的数据堆砌,将海量基础视觉数据与高度专业的具身、空间认知数据进行了深度整合:
视觉感知
视觉感知数据系统性地为模型构建了全方位、多维度的底层视觉理解能力,涵盖二维与三维目标检测、深度估计、高分辨率语义分割,以及密集目标指向与精确计数等任务。这些数据让模型能对复杂场景进行像素级精准把控,为后续的物理操作奠定可靠的视觉基础。
空间感知
空间感知数据为模型注入了专为三维环境打造的“空间感”,包括几何深度、空间拓扑关系、跨视角物理对应以及绝对物理度量等。这些数据帮助模型突破二维像素的局限,建立起真实的立体几何直觉。
具身感知
HY-Embodied-0.5将真实世界的物理操作数据解构为三个严密层级:感知、语义理解与高级规划。数据涵盖从基础的视觉锚定、物体可供性预测,到从真实机械臂第一视角提取的长视野动作推理与轨迹预测。通过这些数据,模型不仅能评估当前任务状态,还能在包含视觉谜题和物理规律的复杂场景中,精确生成下一步动作序列。
多阶段长链推理后训练
HY-Embodied-0.5的训练范式致力于实现“从基础感知到深度思考,再到端侧部署”的闭环。模型不仅在海量数据中打好基础,还需通过自我演化掌握长链条逻辑推理能力。

△ HY-Embodied-0.5 训练流程
为培养出兼具常识与强大具身推理能力的模型,团队设计了一套多阶段、渐进式的深度训练方案。
首先,模型通过海量多模态语料以及空间和具身数据进行预训练(超过600B token)和中程训练(超过30M条数据),以夯实认知基础。随后,通过监督微调(SFT)在高质量推理数据上进一步激发模型的深度推理能力。
为了让模型在复杂的具身任务中找到最优行动策略、获得自我进化的推理能力,HY-Embodied-0.5 引入了一系列专为具身任务优化的后训练流程。
训练过程首先利用强化学习,鼓励模型通过自由探索发现更优的行为模式。随后,流程引入迭代式的自我演化范式。模型通过拒绝采样微调(RFT),将其自身评判出的高质量推理过程保留并固化,从而将偶然的成功转化为稳定可靠的能力。
此外,HY-Embodied-0.5 采用了在线蒸馏策略。该策略让端侧小模型先行尝试输出,大模型则针对小模型输出中的关键错误进行实时指导,从而将大模型的能力高效转移至更紧凑的端侧模型。
结语
基座模型是通向真实世界智能体的重要基础。大语言模型智能体在解决复杂抽象问题上已展现出强大的推演与想象能力,而业界更迫切的期望是模型能在广阔的物理现实中发挥作用。正如 HY-Embodied 系列模型的探索所示,大模型的认知链路正成功延伸至物理实操与机器人控制领域。
展望未来,随着具身智能基座的持续演进,AI 有望真正跨越虚实边界,在真实世界中实现更广泛、更深远的应用。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29434

