跨模态知识解耦与对齐：北京大学团队突破终身行人重识别技术瓶颈

2025年12月6日上午11:47 • AI产业动态 • 阅读 75

终身行人重识别技术旨在通过持续学习不断涌现的新增行人数据，在保持对已知数据识别能力的同时，吸收新增的鉴别性信息。这一技术在公共安防监控、智慧社区管理、运动行为分析等实际场景中具有重要的研究价值和应用前景。随着监控系统全天候运行，白天采集的可见光图像和夜晚采集的红外图像数据不断积累，终身行人重识别方法需要持续学习特定模态中的新知识（例如仅适用于红外模态的热辐射特征）。然而，这种特定模态新知识的学习过程往往会干扰模态间公共旧知识（例如同时适用于可见光与红外模态的人体体态特征）的保留，形成了单模态专用知识获取与跨模态公共知识保留之间的根本性冲突。这种冲突严重限制了持续学习场景下平衡不同模态中行人鉴别性知识的能力，成为该领域长期存在的技术瓶颈。

针对这一核心挑战，北京大学彭宇新教授团队创新性地提出了跨模态知识解耦与对齐方法CKDA。该方法通过设计跨模态通用提示模块与单模态专用提示模块，显式地解耦并净化不同模态中的通用知识与特定模态专用知识，从根本上避免二者间的相互干扰。研究团队进一步构建了一对彼此独立的模态内与模态间特征空间，分别对齐解耦后的新旧知识，实现了跨模态知识的高效权衡与平衡。在由四个常用可见光-红外行人重识别数据集构成的终身学习基准测试中，CKDA方法均取得了当前最优的性能表现，验证了其技术路线的先进性与实用性。

终身行人重识别技术的核心目标是通过持续学习来自不同场景的行人数据，实现跨场景、跨时间的同一行人准确识别。在实际安防监控场景中，系统需要匹配白天可见光图像和夜晚红外图像中的同一行人，即可见光-红外终身行人重识别任务。传统方法为缓解模态间知识遗忘问题，多采用数据重放、模型参数隔离、知识蒸馏等策略。然而，这些方法未能从根本上解决单模态专用知识获取与跨模态通用知识保留之间的内在矛盾。

图1清晰展示了现有方法与CKDA方法的本质区别。在持续学习新增可见光与红外数据时，现有方法由于不断累积特定模态中的新知识（如红外热辐射特征），不可避免地阻碍了模态间公共旧知识（如人体体态特征）的保留。这种矛盾直接导致了跨模态知识难以平衡的技术困境。CKDA方法通过创新的解耦对齐机制，为这一难题提供了系统性解决方案。

技术方案层面，CKDA方法包含三个核心模块：跨模态通用提示模块、单模态专用提示模块和跨模态知识对齐模块。跨模态通用提示模块通过去除仅存在于单一模态的风格信息，提取在可见光与红外模态中共存的鉴别性知识，为后续的跨模态知识对齐奠定基础。单模态专用提示模块则通过放大模态间差异，促进特定模态知识的保留与净化，显式避免可见光与红外模态中行人鉴别性知识的相互干扰。跨模态知识对齐模块利用旧知识原型构建相互独立的特征空间，分别对齐解耦后的新旧知识，显著提升了模型对跨模态行人鉴别性知识的平衡能力。