跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

终身行人重识别技术旨在通过持续学习不断涌现的新增行人数据,在保持对已知数据识别能力的同时,吸收新增的鉴别性信息。这一技术在公共安防监控、智慧社区管理、运动行为分析等实际场景中具有重要的研究价值和应用前景。随着监控系统全天候运行,白天采集的可见光图像和夜晚采集的红外图像数据不断积累,终身行人重识别方法需要持续学习特定模态中的新知识(例如仅适用于红外模态的热辐射特征)。然而,这种特定模态新知识的学习过程往往会干扰模态间公共旧知识(例如同时适用于可见光与红外模态的人体体态特征)的保留,形成了单模态专用知识获取与跨模态公共知识保留之间的根本性冲突。这种冲突严重限制了持续学习场景下平衡不同模态中行人鉴别性知识的能力,成为该领域长期存在的技术瓶颈。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

针对这一核心挑战,北京大学彭宇新教授团队创新性地提出了跨模态知识解耦与对齐方法CKDA。该方法通过设计跨模态通用提示模块与单模态专用提示模块,显式地解耦并净化不同模态中的通用知识与特定模态专用知识,从根本上避免二者间的相互干扰。研究团队进一步构建了一对彼此独立的模态内与模态间特征空间,分别对齐解耦后的新旧知识,实现了跨模态知识的高效权衡与平衡。在由四个常用可见光-红外行人重识别数据集构成的终身学习基准测试中,CKDA方法均取得了当前最优的性能表现,验证了其技术路线的先进性与实用性。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

终身行人重识别技术的核心目标是通过持续学习来自不同场景的行人数据,实现跨场景、跨时间的同一行人准确识别。在实际安防监控场景中,系统需要匹配白天可见光图像和夜晚红外图像中的同一行人,即可见光-红外终身行人重识别任务。传统方法为缓解模态间知识遗忘问题,多采用数据重放、模型参数隔离、知识蒸馏等策略。然而,这些方法未能从根本上解决单模态专用知识获取与跨模态通用知识保留之间的内在矛盾。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

图1清晰展示了现有方法与CKDA方法的本质区别。在持续学习新增可见光与红外数据时,现有方法由于不断累积特定模态中的新知识(如红外热辐射特征),不可避免地阻碍了模态间公共旧知识(如人体体态特征)的保留。这种矛盾直接导致了跨模态知识难以平衡的技术困境。CKDA方法通过创新的解耦对齐机制,为这一难题提供了系统性解决方案。

技术方案层面,CKDA方法包含三个核心模块:跨模态通用提示模块、单模态专用提示模块和跨模态知识对齐模块。跨模态通用提示模块通过去除仅存在于单一模态的风格信息,提取在可见光与红外模态中共存的鉴别性知识,为后续的跨模态知识对齐奠定基础。单模态专用提示模块则通过放大模态间差异,促进特定模态知识的保留与净化,显式避免可见光与红外模态中行人鉴别性知识的相互干扰。跨模态知识对齐模块利用旧知识原型构建相互独立的特征空间,分别对齐解耦后的新旧知识,显著提升了模型对跨模态行人鉴别性知识的平衡能力。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

图2展示了CKDA方法的整体框架。在跨模态通用提示模块中,给定输入图像

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,首先将其划分为M个图像块

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,每个图像块通过嵌入层映射为d维特征。特征图经过实例归一化处理缓解模态间风格差异,得到归一化特征

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

。随后通过生成的通道注意力计算跨模态通用知识分布,并通过自适应融合机制提升知识的鉴别性与一致性。最终生成的通用提示与原始特征图对齐,恢复输入维度后形成跨模态通用提示

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

单模态专用提示模块针对可见光或红外模态的图像块

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,通过特定的计算流程生成专用提示

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

。该模块通过优化提示损失函数

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,确保特定模态知识的有效保留与净化。跨模态知识对齐模块则利用旧数据的特征中心构建模态间特征空间,通过精心设计的对齐机制,实现新旧知识在解耦后的高效融合与平衡。

这一创新方法不仅在理论上突破了终身行人重识别的技术瓶颈,更在实际应用中展现出显著优势。论文链接、代码仓库和实验室网址为研究者提供了完整的技术资料与实现方案,有望推动该领域向更高效、更实用的方向发展。

— 图片补充 —

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5464

(0)
上一篇 2025年12月6日 上午11:43
下一篇 2025年12月7日 下午12:08

相关推荐

  • 医疗AI基层破局:从政策愿景到临床落地的安全有效路径

    国家卫健委近期发布的《人工智能+医疗卫生实施意见》将「人工智能+基层应用」置于八大重点方向之首,明确提出到2030年实现基层诊疗智能辅助应用基本全覆盖的宏伟目标。这一政策导向标志着医疗AI发展重心从技术探索向普惠应用的战略性转移。然而,现实层面却呈现出显著的「倒挂」现象:GPT技术浪潮席卷之下,大城市三甲医院争相部署AI系统,而承担全国95%以上诊疗量的基层…

    2025年11月12日
    400
  • 悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

    在人工智能技术快速演进的今天,多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时,北京智源人工智能研究院(BAAI)最新发布的悟界・Emu3.5模型,以其创新的“多模态世界大模型”定位,为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代,它被定义为“多模态世界大模型”(M…

    2025年10月30日
    200
  • UniLIP:突破多模态模型语义理解与像素重建的权衡,实现统一表征新范式

    在人工智能多模态领域,一个长期存在的核心挑战是如何构建既能深度理解语义又能精确重建像素的统一表征模型。传统方法往往在这两个目标间面临艰难权衡:专注于语义理解的模型(如基于CLIP的编码器)在图像重建任务中表现欠佳,而专注于像素重建的模型(如VAE)则语义理解能力有限。本文深入分析北京大学与阿里通义万相实验室联合提出的UniLIP模型,探讨其如何通过创新的两阶…

    2025年11月2日
    100
  • 2025人工智能年度榜单深度解析:评选标准、产业趋势与未来展望

    随着人工智能技术从实验室走向规模化应用,行业正经历着前所未有的变革。量子位主办的「2025人工智能年度榜单」评选已进入第八个年头,这不仅是一个简单的评选活动,更是中国AI产业发展的重要风向标。本文将从评选维度、产业趋势和技术演进三个层面,深入分析这一年度盛事背后的深层意义。 从评选维度来看,本次榜单设置了企业、产品、人物三大类别,每个类别下又细分为多个奖项,…

    2025年11月16日
    200
  • 亚马逊研究奖华人学者专题:AI安全、广告与智能体三大前沿领域深度解析

    近日,亚马逊研究奖(Amazon Research Awards,ARA)公布了2025年春季获奖名单,共有63位学者入选,其中华人学者达26位,占比超过41%,覆盖全球8个国家41所顶尖高校。这一数据不仅彰显了华人学者在全球人工智能研究领域的卓越贡献,更揭示了亚马逊在AI前沿布局的战略重心。 亚马逊研究奖自2015年设立以来,已成为连接学术界与产业界的重要…

    2025年11月28日
    200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注