CompTrack：基于信息瓶颈的动态压缩范式，为具身智能开启高效AI新篇章

2025年12月2日下午2:23 • AI产业动态 • 阅读 84

在机器人与具身智能领域，Transformer模型正变得越来越通用，同时也越来越“重”。我们渴望获得SOTA精度，但现实世界的边缘设备（如机器人端场景）却难以承受其高昂的计算成本和延迟。

由东南大学、中南大学、明略科技联合提出、被AAAI 2026接收为Oral的论文CompTrack，为“Efficient AI”的核心挑战——“模型是否真的需要处理所有输入数据？”——提供了一个深刻的答案。该研究以3D点云跟踪为应用案例，展示了压缩技术如何大幅降低计算开销，同时保持甚至提升模型性能。

当前AI模型在处理稀疏数据（如点云）时普遍面临“双重冗余”挑战。

首先是空间冗余：海量的无关背景点和空白区域（如天空、远处建筑物）被送入网络，这不仅浪费算力，还会污染特征，导致精度下降。其次是信息冗余：这一点更为致命且常被忽视。即便在真正关心的“前景目标”上，也充斥着大量重复和低价值信息。例如，在识别一辆车时，车辆引擎盖上的100个点和500个点提供的有效几何信息几乎等价；而车轮、边角等关键点的价值远高于这些平坦表面。

现有方法大多只处理了空间冗余（过滤背景），却对信息冗余（压缩前景）束手无策。CompTrack创新性地提出了一个端到端框架，从根本上同时解决这两种冗余。

针对空间冗余，CompTrack采用了一个空间前景预测器（SFP）。这是一个轻量级模块，基于信息熵理论，通过高斯热图监督学习，精准“筛除”那些信息含量极低、对任务无益的背景噪声。这一步为后续的精准压缩奠定了坚实基础。

该研究最核心的贡献是其信息瓶颈引导的动态令牌压缩（IB-DTC）模块，专为解决“前景信息冗余”而设计。

为什么这个模块是Efficient AI的一次重要探索？首先，它基于坚实的“信息瓶颈”原理，目标明确：只保留对最终预测（如目标运动）有价值的信息，丢弃所有不相关的冗余信息。研究进一步证明，这种信息冗余在数学上等价于特征矩阵的“低秩”特性。

其次，IB-DTC实现了“动态”压缩。它没有使用固定的、“一刀切”的压缩率，而是利用在线奇异值分解，在推理时实时分析当前输入前景数据的“内在秩”。这意味着：如果前景简单（如一辆侧面的卡车），模型自动使用高压缩率；如果前景复杂（如一个骑行者），模型自动使用低压缩率。这种数据依赖的动态压缩，在保留关键信息的同时，最大化了计算效率。

第三，CompTrack巧妙地绕过了SVD的不可微分问题，实现了“端到端”训练。SVD只在前向传播时提供最优的压缩率K和特征基，而真正的压缩则由一个可学习的、基于K的Cross-Attention模块完成，使整个高效压缩流程可以端到端训练。

CompTrack将该框架应用于极具挑战性的3D点云跟踪任务。结果证明，这种对“信息冗余”的系统性压缩极其高效：在RTX 3090上达到80 FPS的实时性能，相比SOTA方法（P2P）的65 FPS，实现了1.3倍的加速。计算量（FLOPs）显著降低至0.94G。消融实验证实，IB-DTC模块是实现效率飞跃（从48 FPS提升至75 FPS）的核心。在实现极致效率的同时，CompTrack在nuScenes和Waymo两个大规模数据集上均刷新了SOTA性能。

CompTrack的意义远不止于3D跟踪。它提供了一个“理论指导、动态自适应、端到端”的通用信息压缩范式。该工作证明，与其盲目让Transformer处理所有数据，不如先问一个更基本的问题：“哪些信息是真正有价值的？”CompTrack的技术预示着高效AI的更广泛范式转变。其动态、SVD引导的压缩易于适应其他涉及稀疏或冗余数据的领域，如机器人中的传感器融合，甚至视觉-语言模型中的多模态处理。通过优先考虑信息效率而非蛮力计算，CompTrack也为后续解决视频理解、多模态融合乃至大模型推理中的信息冗余问题，提供了极具前景的新思路。这正是Efficient AI未来的发展方向：不做无效计算，只为价值付费。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/5692

CompTrack：基于信息瓶颈的动态压缩范式，为具身智能开启高效AI新篇章

相关推荐

从人工伪装到AI独角兽：Fireflies.ai的伦理争议与商业启示

突破文本桎梏：C2C通信范式如何重塑多智能体协作效率

从通用到专业：Libcom工作台如何重塑图像合成领域的精准编辑范式

AI意识之谜：当模型学会隐藏与欺骗——从AE Studio最新研究看语言模型的主观表达机制

AI大模型技术周报：阿里Qwen3-VL、DeepSeek-OCR、讯飞Spark-Scilit-X1、腾讯混元世界模型重磅更新

发表回复