终身行人重识别技术旨在通过持续学习不断涌现的新增行人数据,在保持对已知数据识别能力的同时,吸收新增的鉴别性信息。这一技术在公共安防监控、智慧社区管理、运动行为分析等实际场景中具有重要的研究价值和应用前景。随着监控系统全天候运行,白天采集的可见光图像和夜晚采集的红外图像数据不断积累,终身行人重识别方法需要持续学习特定模态中的新知识(例如仅适用于红外模态的热辐射特征)。然而,这种特定模态新知识的学习过程往往会干扰模态间公共旧知识(例如同时适用于可见光与红外模态的人体体态特征)的保留,形成了单模态专用知识获取与跨模态公共知识保留之间的根本性冲突。这种冲突严重限制了持续学习场景下平衡不同模态中行人鉴别性知识的能力,成为该领域长期存在的技术瓶颈。

针对这一核心挑战,北京大学彭宇新教授团队创新性地提出了跨模态知识解耦与对齐方法CKDA。该方法通过设计跨模态通用提示模块与单模态专用提示模块,显式地解耦并净化不同模态中的通用知识与特定模态专用知识,从根本上避免二者间的相互干扰。研究团队进一步构建了一对彼此独立的模态内与模态间特征空间,分别对齐解耦后的新旧知识,实现了跨模态知识的高效权衡与平衡。在由四个常用可见光-红外行人重识别数据集构成的终身学习基准测试中,CKDA方法均取得了当前最优的性能表现,验证了其技术路线的先进性与实用性。

终身行人重识别技术的核心目标是通过持续学习来自不同场景的行人数据,实现跨场景、跨时间的同一行人准确识别。在实际安防监控场景中,系统需要匹配白天可见光图像和夜晚红外图像中的同一行人,即可见光-红外终身行人重识别任务。传统方法为缓解模态间知识遗忘问题,多采用数据重放、模型参数隔离、知识蒸馏等策略。然而,这些方法未能从根本上解决单模态专用知识获取与跨模态通用知识保留之间的内在矛盾。

图1清晰展示了现有方法与CKDA方法的本质区别。在持续学习新增可见光与红外数据时,现有方法由于不断累积特定模态中的新知识(如红外热辐射特征),不可避免地阻碍了模态间公共旧知识(如人体体态特征)的保留。这种矛盾直接导致了跨模态知识难以平衡的技术困境。CKDA方法通过创新的解耦对齐机制,为这一难题提供了系统性解决方案。
技术方案层面,CKDA方法包含三个核心模块:跨模态通用提示模块、单模态专用提示模块和跨模态知识对齐模块。跨模态通用提示模块通过去除仅存在于单一模态的风格信息,提取在可见光与红外模态中共存的鉴别性知识,为后续的跨模态知识对齐奠定基础。单模态专用提示模块则通过放大模态间差异,促进特定模态知识的保留与净化,显式避免可见光与红外模态中行人鉴别性知识的相互干扰。跨模态知识对齐模块利用旧知识原型构建相互独立的特征空间,分别对齐解耦后的新旧知识,显著提升了模型对跨模态行人鉴别性知识的平衡能力。

图2展示了CKDA方法的整体框架。在跨模态通用提示模块中,给定输入图像

,首先将其划分为M个图像块

,每个图像块通过嵌入层映射为d维特征。特征图经过实例归一化处理缓解模态间风格差异,得到归一化特征

。随后通过生成的通道注意力计算跨模态通用知识分布,并通过自适应融合机制提升知识的鉴别性与一致性。最终生成的通用提示与原始特征图对齐,恢复输入维度后形成跨模态通用提示

。
单模态专用提示模块针对可见光或红外模态的图像块

,通过特定的计算流程生成专用提示

。该模块通过优化提示损失函数

,确保特定模态知识的有效保留与净化。跨模态知识对齐模块则利用旧数据的特征中心构建模态间特征空间,通过精心设计的对齐机制,实现新旧知识在解耦后的高效融合与平衡。
这一创新方法不仅在理论上突破了终身行人重识别的技术瓶颈,更在实际应用中展现出显著优势。论文链接、代码仓库和实验室网址为研究者提供了完整的技术资料与实现方案,有望推动该领域向更高效、更实用的方向发展。
— 图片补充 —



















































关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5464
