清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。相关工作《Versatile Cardiovascular Signal Generation with a Unified Diffusion Transformer》于 2025 年 12 月 29 日在 Nature Machine Intelligence 正式上线。

心血管疾病是人类致死的主要病因之一。对个体而言,光电容积描记信号(photoplethysmography,PPG)、心电信号(electrocardiography,ECG)以及血压信号(blood pressure,BP)能够从不同侧面反映同一底层生理过程:PPG 记录皮下微血管容积变化,便于通过可穿戴设备进行连续采集;ECG 反映心肌电活动,但通常需要更严格的电极放置与专业标定;动脉 BP 则常被视为更接近临床“金标准”的血压信息来源,却往往依赖侵入式或更高负担的采集方式。

现实监测因此呈现出明显的“两难”:可穿戴信号获取便捷,却更易受到噪声、运动伪影与信号中断的影响;而高质量或更关键的信号采集,则可能带来不适、风险与成本,难以长期连续部署。

过去的研究往往将这一问题拆解为若干“单点任务”:有的方法专注于信号去噪,有的方法聚焦缺失片段补全,即从“低质量”信号重建“高质量”信号。还有的方法研究信号模态转换,即从“易测量”信号预测“难测量”信号。这些方法已在各自任务上取得了进展,但一个显著的局限在于:多数模型仍然是任务特定、模态特定,难以在同一个模型中同时覆盖多任务、多模态、多条件建模,也难以充分利用心血管信号之间天然存在的相关性与互补性。

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

在此背景下,清华朱军等团队提出了 UniCardio,旨在以一个统一生成框架同时完成两大类核心能力:其一是信号恢复(signal restoration),包括对低质量信号的去噪以及对间断记录信号的缺失片段插补;其二是模态转换(modality translation),即在给定某些可获得信号的条件下,合成难以获取或未被记录的目标信号,从而为真实场景中的心血管监测与分析提供更完整的信号视角。

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

方法介绍

从方法角度,UniCardio 的关键并不在于构建一个简单的“点到点映射器”,而在于将多模态心血管信号视为同一生理系统的不同观测,进而学习它们之间的多模态条件分布关系。

UniCardio 采用扩散模型“从噪声到数据”的生成范式:在前向过程中,对不同模态采用统一的噪声化机制;在反向过程中,在条件信息的引导下逐步重建目标信号,从而在同一生成框架中覆盖多种输入—输出配置。在此基础上,UniCardio 使用 Transformer 架构来建模时间维度与模态维度上的依赖关系。

为了同时处理多模态、多任务,UniCardio 为每个模态配置了模态专用的编码器与解码器,以提取和还原具有生理意义的波形特征;另一方面,在 Transformer 的注意力计算中引入任务特定注意力掩码,用于显式约束信息流,只允许与当前任务相关的条件模态到目标模态的交互,从而减少无关模态或无关方向的信息干扰,使不同任务能够在同一网络中被稳定表达与联合学习。

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

另一个不可回避的实际困难在于:随着模态数量的增加,可用的条件组合会迅速增长。如果在训练阶段简单地将所有任务“混在一起学习”,往往会导致样本分配不足与任务权重失衡。

针对这一问题,UniCardio 引入了一种面向生成任务的持续学习(continual learning)范式:以“条件模态数逐步增加”的方式分阶段纳入不同任务,以分配足量的训练样本和平衡不同阶段任务的贡献;并结合学习率调度、训练批次组成以及注意力掩码的结构性约束,以缓解持续学习的灾难性遗忘问题。其目标是让一个统一模型在面对不断扩展的模态组合与任务配置时,依然能够保持稳健而一致的综合能力。

这种范式还带来了跨任务-模态组合的知识迁移效应:在仅涉及较少模态的生成任务上进行训练,能够有效促进模型在涉及更多模态、条件更复杂的生成任务中的表现。

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

实验及结果

在实验结果上,UniCardio 在信号去噪、插补与跨模态转换等多模态、多功能任务中,相较于多种任务特定基线方法展现出稳定而一致的优势,并系统性地体现了多模态互补信息的价值。

论文在多项代表性任务中表明:在仅使用单一条件模态时,UniCardio 已能达到或超越相应的任务特定方法相当。而在进一步引入额外条件模态后,生成误差可显著降低,波形恢复的稳定性也随之提升。例如,在 PPG 与 ECG 插补任务中,引入多模态条件后,生成误差下降至原来的三分之一量级;在 PPG→ECG 等跨模态生成任务中,UniCardio 在参数规模远小于部分生成基线的情况下,依然取得了更优或更稳健的结果。

这些现象表明,统一建模多模态条件分布本身即可带来跨任务的知识迁移收益,而无需为每一种模态组合单独设计模型。

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

更进一步,论文将生成信号直接用于下游心血管相关应用进行验证,包括异常状态检测与生命体征估计。

在多个未见域数据集上,基于 UniCardio 生成信号得到的下游任务性能,能够显著优于直接使用噪声或间断信号,并在多数情况下接近使用真实信号的结果。例如,在心电异常检测任务中,由 UniCardio 去噪或插补得到的 ECG 信号能够有效恢复关键诊断信息,使检测准确率与特异性大幅提升,逼近真实 ECG 信号的表现;在心率与血压估计任务中,基于生成信号的预测误差也显著低于仅使用可穿戴信号或简单统计基线的情况。

这些结果表明,UniCardio 生成的信号不仅在数值上“更像”,而且在功能层面具备直接支撑下游分析的可用性。

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

在可解释性方面,这项工作也给出了相对临床友好的论证路径。生成结果不仅追求误差数值的降低,还尽可能保留可被临床专家识别的诊断特征。论文通过可视化展示多类典型 ECG 异常形态在生成信号中的复现情况,并结合临床评估验证其诊断特征的一致性,表明生成信号在形态层面能够与真实生理信号保持良好对齐。

此外,论文还指出,扩散模型逐步去噪的生成过程本身提供了可观察的中间状态,有助于人类专家理解信号的生成演化过程,从而进一步增强模型的可解释性与可信度。

清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

总体而言,UniCardio 将心血管信号生成从以往的单任务、单模态组合,推进到了一个更加统一且具备可扩展性的框架:通过多模态扩散 Transformer 在同一模型中覆盖信号恢复与模态转换,并借助持续学习机制来容纳不断增长的条件组合复杂度。从应用前景看,这类统一的多模态生理信号生成范式不仅有望服务于医疗健康领域中的稳健监测与辅助诊断,也可能进一步拓展到脑科学、心理学与认知科学等同样依赖多源生理信号的研究场景。

作者介绍

本论文由清华大学的朱军教授和王立元助理教授担任共同通讯作者。共同第一作者为陈泽华博士、苗雨阳博士和王立元助理教授。首都医科大学附属北京安贞医院的范泸韵博士与英国帝国理工学院的 Danilo P. Mandic 教授亦为本文的共同作者。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16426

(0)
上一篇 2025年12月30日 上午11:47
下一篇 2025年12月30日 下午12:53

相关推荐

  • Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

    AI是否已撞上天花板?这份「最重要的图表」直击灵魂:2019-2025年任务时长每几个月翻倍,揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦,而是触手可及的现实! 2025年即将结束,AI领域的真正高手并非谷歌或OpenAI,而是来自Anthropic的王者编程模型——Claude Opus 4.5。 根据METR最新报告,Claude…

    2025年12月21日
    29500
  • AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

    用AI,特别是大语言模型和智能体来解决数学问题,正成为科研领域的新趋势。近日,斯坦福大学副教授James Zou与TogetherAI的研究者Federico Bianchi、Yongchan Kwon展示了一种新颖的研究方法。 他们基于爱因斯坦、费曼等著名物理学家的“人格画像”构建了一批AI智能体,并创建了一个类似Kaggle的竞赛平台。这些智能体可以在平…

    2026年3月9日
    8900
  • 构建实时语音驱动RAG系统:从架构设计到生产部署的全栈指南

    多数团队都在谈论构建对话代理,但真正将其打磨到可用于生产环境却充满挑战。语音系统尤为严苛:延迟会立刻显现,检索失误会破坏信任,而语音、语言与响应之间的任何断层,都会让用户体验大打折扣。本文将带你构建一个“声音原生”的对话代理,实现端到端自然流畅的交互。你将了解语音如何在实时流程中依次经过转写、推理、检索与合成,以及各层如何协同工作以保持体验的连贯性。阅读本部…

    2025年12月30日
    20600
  • 设计模式决策树:告别死记硬背,精准匹配代码痛点

    围绕痛点选择设计模式:在任何面向对象语言中,以最小的过度设计匹配到合适的模式。 设计模式很少因为“错”而失败。更常见的是,我们在不合适的时机、出于不对的原因去套用它们,或者把它们当作替代品,回避给真实问题命名。通常,难点并不在于记住某个模式的存在,而在于判断你的代码此刻是否需要它,还是一个更简单的动作更合适。 这正是决策树有用的原因。它在你选择模式之前强制你…

    2026年2月22日
    11000
  • 构建本体驱动GraphRAG:从数据填埋场到零噪声知识图谱的蜕变之路

    构建一个自我演进的知识图谱,它不仅能存储数据,更能理解、校验并持续演化。 gemini 在初次构建 GraphRAG 系统时,我遵循了多数教程的路径:将文档输入大语言模型(LLM),抽取实体,将生成的 JSON 导入 Neo4j,然后宣告完成。在演示环境中,一切运行完美。直到我将它应用于真实的医疗记录。 问题随之暴露。LLM 在一份报告中抽取了“John D…

    2025年12月15日
    21100