跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

终身行人重识别技术旨在通过持续学习不断涌现的新增行人数据,在保持对已知数据识别能力的同时,吸收新增的鉴别性信息。这一技术在公共安防监控、智慧社区管理、运动行为分析等实际场景中具有重要的研究价值和应用前景。随着监控系统全天候运行,白天采集的可见光图像和夜晚采集的红外图像数据不断积累,终身行人重识别方法需要持续学习特定模态中的新知识(例如仅适用于红外模态的热辐射特征)。然而,这种特定模态新知识的学习过程往往会干扰模态间公共旧知识(例如同时适用于可见光与红外模态的人体体态特征)的保留,形成了单模态专用知识获取与跨模态公共知识保留之间的根本性冲突。这种冲突严重限制了持续学习场景下平衡不同模态中行人鉴别性知识的能力,成为该领域长期存在的技术瓶颈。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

针对这一核心挑战,北京大学彭宇新教授团队创新性地提出了跨模态知识解耦与对齐方法CKDA。该方法通过设计跨模态通用提示模块与单模态专用提示模块,显式地解耦并净化不同模态中的通用知识与特定模态专用知识,从根本上避免二者间的相互干扰。研究团队进一步构建了一对彼此独立的模态内与模态间特征空间,分别对齐解耦后的新旧知识,实现了跨模态知识的高效权衡与平衡。在由四个常用可见光-红外行人重识别数据集构成的终身学习基准测试中,CKDA方法均取得了当前最优的性能表现,验证了其技术路线的先进性与实用性。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

终身行人重识别技术的核心目标是通过持续学习来自不同场景的行人数据,实现跨场景、跨时间的同一行人准确识别。在实际安防监控场景中,系统需要匹配白天可见光图像和夜晚红外图像中的同一行人,即可见光-红外终身行人重识别任务。传统方法为缓解模态间知识遗忘问题,多采用数据重放、模型参数隔离、知识蒸馏等策略。然而,这些方法未能从根本上解决单模态专用知识获取与跨模态通用知识保留之间的内在矛盾。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

图1清晰展示了现有方法与CKDA方法的本质区别。在持续学习新增可见光与红外数据时,现有方法由于不断累积特定模态中的新知识(如红外热辐射特征),不可避免地阻碍了模态间公共旧知识(如人体体态特征)的保留。这种矛盾直接导致了跨模态知识难以平衡的技术困境。CKDA方法通过创新的解耦对齐机制,为这一难题提供了系统性解决方案。

技术方案层面,CKDA方法包含三个核心模块:跨模态通用提示模块、单模态专用提示模块和跨模态知识对齐模块。跨模态通用提示模块通过去除仅存在于单一模态的风格信息,提取在可见光与红外模态中共存的鉴别性知识,为后续的跨模态知识对齐奠定基础。单模态专用提示模块则通过放大模态间差异,促进特定模态知识的保留与净化,显式避免可见光与红外模态中行人鉴别性知识的相互干扰。跨模态知识对齐模块利用旧知识原型构建相互独立的特征空间,分别对齐解耦后的新旧知识,显著提升了模型对跨模态行人鉴别性知识的平衡能力。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

图2展示了CKDA方法的整体框架。在跨模态通用提示模块中,给定输入图像

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,首先将其划分为M个图像块

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,每个图像块通过嵌入层映射为d维特征。特征图经过实例归一化处理缓解模态间风格差异,得到归一化特征

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

。随后通过生成的通道注意力计算跨模态通用知识分布,并通过自适应融合机制提升知识的鉴别性与一致性。最终生成的通用提示与原始特征图对齐,恢复输入维度后形成跨模态通用提示

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

单模态专用提示模块针对可见光或红外模态的图像块

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,通过特定的计算流程生成专用提示

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

。该模块通过优化提示损失函数

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,确保特定模态知识的有效保留与净化。跨模态知识对齐模块则利用旧数据的特征中心构建模态间特征空间,通过精心设计的对齐机制,实现新旧知识在解耦后的高效融合与平衡。

这一创新方法不仅在理论上突破了终身行人重识别的技术瓶颈,更在实际应用中展现出显著优势。论文链接、代码仓库和实验室网址为研究者提供了完整的技术资料与实现方案,有望推动该领域向更高效、更实用的方向发展。

— 图片补充 —

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5464

(0)
上一篇 2025年12月6日 上午11:43
下一篇 2025年12月6日 下午1:30

相关推荐

  • 大语言模型驱动的勒索软件3.0:AI如何重塑网络攻击范式

    当大语言模型(LLM)技术正广泛应用于代码生成、数据分析等生产力场景时,网络安全领域却悄然出现了一个令人警醒的转折点——黑客已开始将LLM改造为“全自动攻击指挥官”。纽约大学坦登工程学院的研究团队近期披露的第三代勒索软件概念形态(Ransomware 3.0),标志着首个由LLM全程编排的勒索软件诞生。这一新型攻击模式不再依赖预装恶意代码,而是在攻击过程中实…

    2025年10月31日
    7900
  • 谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

    做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。 为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。 那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。 如今,Google 将这个想法变成了现实。他们在 GitHub…

    2026年1月6日
    10100
  • 鸿蒙6开启A2A智能体协作时代:从“人找服务”到“服务找人”的交互革命

    在华为Mate80系列及MateX7发布会上,搭载鸿蒙6系统的折叠屏旗舰Mate X7展示了令人瞩目的AI交互新范式——Agent to Agent(A2A)智能体协作的商用落地。这不仅是华为在移动AI领域的一次重大突破,更标志着整个手机行业正迎来定义下一代应用交互规则的战略窗口期。 传统移动应用生态长期面临“功能孤岛”困境。APP之间相互独立、数据割裂的特…

    2025年12月6日
    8700
  • Neuralink脑机接口:从医疗康复到人类增强的范式革命

    马斯克旗下的Neuralink近期公布的数据显示,其脑机接口技术已为12名患者累计植入超过2000天,总活跃时间突破1.5万小时。这一里程碑不仅标志着脑机接口从实验室走向临床应用的实质性突破,更预示着人类与机器融合的新时代正在加速到来。 首位接受Neuralink植入的Noland Arbaugh的案例极具代表性。因脊髓损伤导致颈部以下瘫痪的他,曾依赖咬嘴棒…

    2025年11月2日
    8100
  • UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

    在人工智能领域,视频生成技术正经历从单一模态学习向多模态统一理解的深刻变革。近期,由香港科技大学、香港中文大学、清华大学与快手可灵团队联合提出的UnityVideo框架,通过整合深度图、光流、骨骼姿态、分割掩码等多种视觉模态,构建了一个能够“理解”物理世界规律的视频生成模型。这一突破不仅显著提升了生成视频的真实性与可控性,更实现了零样本泛化能力,为视觉大模型…

    2025年12月14日
    7600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注