跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

终身行人重识别技术旨在通过持续学习不断涌现的新增行人数据,在保持对已知数据识别能力的同时,吸收新增的鉴别性信息。这一技术在公共安防监控、智慧社区管理、运动行为分析等实际场景中具有重要的研究价值和应用前景。随着监控系统全天候运行,白天采集的可见光图像和夜晚采集的红外图像数据不断积累,终身行人重识别方法需要持续学习特定模态中的新知识(例如仅适用于红外模态的热辐射特征)。然而,这种特定模态新知识的学习过程往往会干扰模态间公共旧知识(例如同时适用于可见光与红外模态的人体体态特征)的保留,形成了单模态专用知识获取与跨模态公共知识保留之间的根本性冲突。这种冲突严重限制了持续学习场景下平衡不同模态中行人鉴别性知识的能力,成为该领域长期存在的技术瓶颈。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

针对这一核心挑战,北京大学彭宇新教授团队创新性地提出了跨模态知识解耦与对齐方法CKDA。该方法通过设计跨模态通用提示模块与单模态专用提示模块,显式地解耦并净化不同模态中的通用知识与特定模态专用知识,从根本上避免二者间的相互干扰。研究团队进一步构建了一对彼此独立的模态内与模态间特征空间,分别对齐解耦后的新旧知识,实现了跨模态知识的高效权衡与平衡。在由四个常用可见光-红外行人重识别数据集构成的终身学习基准测试中,CKDA方法均取得了当前最优的性能表现,验证了其技术路线的先进性与实用性。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

终身行人重识别技术的核心目标是通过持续学习来自不同场景的行人数据,实现跨场景、跨时间的同一行人准确识别。在实际安防监控场景中,系统需要匹配白天可见光图像和夜晚红外图像中的同一行人,即可见光-红外终身行人重识别任务。传统方法为缓解模态间知识遗忘问题,多采用数据重放、模型参数隔离、知识蒸馏等策略。然而,这些方法未能从根本上解决单模态专用知识获取与跨模态通用知识保留之间的内在矛盾。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

图1清晰展示了现有方法与CKDA方法的本质区别。在持续学习新增可见光与红外数据时,现有方法由于不断累积特定模态中的新知识(如红外热辐射特征),不可避免地阻碍了模态间公共旧知识(如人体体态特征)的保留。这种矛盾直接导致了跨模态知识难以平衡的技术困境。CKDA方法通过创新的解耦对齐机制,为这一难题提供了系统性解决方案。

技术方案层面,CKDA方法包含三个核心模块:跨模态通用提示模块、单模态专用提示模块和跨模态知识对齐模块。跨模态通用提示模块通过去除仅存在于单一模态的风格信息,提取在可见光与红外模态中共存的鉴别性知识,为后续的跨模态知识对齐奠定基础。单模态专用提示模块则通过放大模态间差异,促进特定模态知识的保留与净化,显式避免可见光与红外模态中行人鉴别性知识的相互干扰。跨模态知识对齐模块利用旧知识原型构建相互独立的特征空间,分别对齐解耦后的新旧知识,显著提升了模型对跨模态行人鉴别性知识的平衡能力。

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

图2展示了CKDA方法的整体框架。在跨模态通用提示模块中,给定输入图像

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,首先将其划分为M个图像块

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,每个图像块通过嵌入层映射为d维特征。特征图经过实例归一化处理缓解模态间风格差异,得到归一化特征

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

。随后通过生成的通道注意力计算跨模态通用知识分布,并通过自适应融合机制提升知识的鉴别性与一致性。最终生成的通用提示与原始特征图对齐,恢复输入维度后形成跨模态通用提示

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

单模态专用提示模块针对可见光或红外模态的图像块

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,通过特定的计算流程生成专用提示

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

。该模块通过优化提示损失函数

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

,确保特定模态知识的有效保留与净化。跨模态知识对齐模块则利用旧数据的特征中心构建模态间特征空间,通过精心设计的对齐机制,实现新旧知识在解耦后的高效融合与平衡。

这一创新方法不仅在理论上突破了终身行人重识别的技术瓶颈,更在实际应用中展现出显著优势。论文链接、代码仓库和实验室网址为研究者提供了完整的技术资料与实现方案,有望推动该领域向更高效、更实用的方向发展。

— 图片补充 —

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5464

(0)
上一篇 2025年12月6日 上午11:43
下一篇 2025年12月6日 下午1:30

相关推荐

  • OpenClaw创始人揭秘:逆向API打造AI军团,80%手机App将被吞噬!

    “80%的手机App会被吃掉!” 近日,热门项目 OpenClaw(原名 Clawdbot)的创始人 Peter Steinberger 在一次播客访谈中分享了新的见解。 他透露,自己已将 OpenClaw 的应用场景扩展到诸如查询外卖配送进度、调节智能床温度等日常事务。实现这种能力扩展的核心方法在于:逆向第三方服务的 API。 Peter 预测,未来 80…

    2026年2月3日
    70000
  • AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

    前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「人类编写代码的时代已经结束了。」该帖引发广泛讨论,浏览量已超过 700 万。现在,一个有力的证明出现了。 近日,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了新项目 VibeTensor,展示了 AI 在编程方面的强大能力。 从名字可以看出,这是「氛围编程」(Vibe Co…

    2026年1月23日
    23100
  • Self-Distillation:大模型持续学习的破局之道与2026三大突破

    2026年伊始,大模型领域的研究者们似乎达成了一种默契。翻开近期arXiv上备受关注的论文,一个词汇频繁出现:Self-Distillation(自蒸馏)。 近年来,基础模型在语言、视觉、机器人等领域取得了显著成功,为AI应用提供了强大支持。然而,在模型真正落地与长期使用的过程中,研究者们逐渐发现一个关键瓶颈:如何让模型在持续吸收新知识的同时,不遗忘已有的核…

    2026年2月10日
    23600
  • 红杉资本权力更迭深度解析:AI投资错失、治理风波与战略转型

    红杉资本(Sequoia Capital)近期的高层变动,表面上是CEO罗洛夫·博塔(Roelof Botha)的“主动让贤”,实则是一场由内部合伙人发起的权力重构。这一事件不仅反映了硅谷顶级风投机构在AI浪潮中的战略焦虑,更揭示了其治理机制、投资决策与领导风格之间的深层矛盾。本文将深入分析博塔下台的导火索、红杉在AI领域的布局失误,以及新任领导层面临的挑战…

    2025年12月11日
    21600
  • Orchestrator:英伟达8B小模型如何重构AI工具调度范式,实现成本效益革命

    在人工智能领域,大语言模型(LLM)的算力消耗与成本问题日益凸显。传统解决方案依赖单一强大模型(如GPT-5)处理所有任务,导致推理成本居高不下,尤其在需要调用外部工具(如代码解释器、数学求解器、检索系统)的复杂场景中,这种模式既昂贵又低效。英伟达研究团队近期推出的Orchestrator模型,以仅80亿参数(8B)的轻量级架构,通过创新的工具调度机制,在多…

    2025年12月12日
    20600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注