在机器人与具身智能领域,Transformer模型正变得越来越通用,同时也越来越“重”。我们渴望获得SOTA精度,但现实世界的边缘设备(如机器人端场景)却难以承受其高昂的计算成本和延迟。

由东南大学、中南大学、明略科技联合提出、被AAAI 2026接收为Oral的论文CompTrack,为“Efficient AI”的核心挑战——“模型是否真的需要处理所有输入数据?”——提供了一个深刻的答案。该研究以3D点云跟踪为应用案例,展示了压缩技术如何大幅降低计算开销,同时保持甚至提升模型性能。
当前AI模型在处理稀疏数据(如点云)时普遍面临“双重冗余”挑战。

首先是空间冗余:海量的无关背景点和空白区域(如天空、远处建筑物)被送入网络,这不仅浪费算力,还会污染特征,导致精度下降。其次是信息冗余:这一点更为致命且常被忽视。即便在真正关心的“前景目标”上,也充斥着大量重复和低价值信息。例如,在识别一辆车时,车辆引擎盖上的100个点和500个点提供的有效几何信息几乎等价;而车轮、边角等关键点的价值远高于这些平坦表面。

现有方法大多只处理了空间冗余(过滤背景),却对信息冗余(压缩前景)束手无策。CompTrack创新性地提出了一个端到端框架,从根本上同时解决这两种冗余。
针对空间冗余,CompTrack采用了一个空间前景预测器(SFP)。这是一个轻量级模块,基于信息熵理论,通过高斯热图监督学习,精准“筛除”那些信息含量极低、对任务无益的背景噪声。这一步为后续的精准压缩奠定了坚实基础。

该研究最核心的贡献是其信息瓶颈引导的动态令牌压缩(IB-DTC)模块,专为解决“前景信息冗余”而设计。

为什么这个模块是Efficient AI的一次重要探索?首先,它基于坚实的“信息瓶颈”原理,目标明确:只保留对最终预测(如目标运动)有价值的信息,丢弃所有不相关的冗余信息。研究进一步证明,这种信息冗余在数学上等价于特征矩阵的“低秩”特性。
其次,IB-DTC实现了“动态”压缩。它没有使用固定的、“一刀切”的压缩率,而是利用在线奇异值分解,在推理时实时分析当前输入前景数据的“内在秩”。这意味着:如果前景简单(如一辆侧面的卡车),模型自动使用高压缩率;如果前景复杂(如一个骑行者),模型自动使用低压缩率。这种数据依赖的动态压缩,在保留关键信息的同时,最大化了计算效率。
第三,CompTrack巧妙地绕过了SVD的不可微分问题,实现了“端到端”训练。SVD只在前向传播时提供最优的压缩率K和特征基,而真正的压缩则由一个可学习的、基于K的Cross-Attention模块完成,使整个高效压缩流程可以端到端训练。
CompTrack将该框架应用于极具挑战性的3D点云跟踪任务。结果证明,这种对“信息冗余”的系统性压缩极其高效:在RTX 3090上达到80 FPS的实时性能,相比SOTA方法(P2P)的65 FPS,实现了1.3倍的加速。计算量(FLOPs)显著降低至0.94G。消融实验证实,IB-DTC模块是实现效率飞跃(从48 FPS提升至75 FPS)的核心。在实现极致效率的同时,CompTrack在nuScenes和Waymo两个大规模数据集上均刷新了SOTA性能。
CompTrack的意义远不止于3D跟踪。它提供了一个“理论指导、动态自适应、端到端”的通用信息压缩范式。该工作证明,与其盲目让Transformer处理所有数据,不如先问一个更基本的问题:“哪些信息是真正有价值的?”CompTrack的技术预示着高效AI的更广泛范式转变。其动态、SVD引导的压缩易于适应其他涉及稀疏或冗余数据的领域,如机器人中的传感器融合,甚至视觉-语言模型中的多模态处理。通过优先考虑信息效率而非蛮力计算,CompTrack也为后续解决视频理解、多模态融合乃至大模型推理中的信息冗余问题,提供了极具前景的新思路。这正是Efficient AI未来的发展方向:不做无效计算,只为价值付费。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5692
