PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

PerturbDiff:将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

如何利用AI预测一款抗癌新药对特定癌细胞的影响?一个直观的思路是让AI学习同一个细胞在药物处理前后的基因表达变化规律。

然而,单细胞转录组测序(scRNA-seq)的“破坏性”构成了根本障碍:一旦对细胞状态进行观测,该细胞即被溶解。因此,我们无法在施加微扰(如药物干预、基因编辑)前后观测到同一个细胞。

面对这种本质上的非配对数据,传统AI模型往往表现不佳。它们要么强行随机配对,导致模型学到平庸的“平均”响应;要么在预测关键靶点基因时频频“脱靶”。

近日,来自Mila(魁北克人工智能研究所)唐建团队的研究者发表了新作PerturbDiff。该团队此前已在蛋白性质预测与设计、AI虚拟细胞等领域发表多篇重要论文。这项新研究跳出了前人纠结于“单细胞”还是“单分布”的认知框架,首次将“细胞群体的概率分布”本身视为一个可以进行加噪和去噪操作的随机变量

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

该模型在包含上亿细胞的全球最大药物微扰图谱(Tahoe100M)等多项权威基准测试中,以显著优势刷新了单细胞响应预测的SOTA记录,标志着AI在构建高保真“虚拟细胞”道路上取得了一次重要突破。

认知陷阱:微扰响应真的是一个“静态分布”吗?

要理解PerturbDiff的成功,首先需厘清此前SOTA方法的局限。

近年来进展较快的方法(如STATE、CellFlow等)已意识到对单细胞进行强行配对和回归训练并不可靠,转而尝试进行“群体到群体”的映射。但这些方法的底层世界观存在一个关键的静态假设:给定一种细胞类型和一种药物,其微扰后的细胞分布结果是唯一且固定的。

唐建团队敏锐地指出,生命系统并非精密的钟表。培养皿中的微环境波动、细胞周期的细微差异,乃至实验的批次效应,这些“看不见的隐变量”都会导致同一组实验在不同次运行时,最终的细胞分布状态产生微妙偏移。

如果迫使AI去学习一个“唯一标准答案”,它学到的只是所有可能性的平均值。一旦面临真正的新药或跨批次测试,其泛化能力便会急剧下降。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

PerturbDiff的突破在于完成了一次深刻的概念“升维”:它不再将AI建模或生成的目标设定为单个“细胞”,甚至不是“某一个具体的细胞分布”,而是“细胞分布的分布”——即将整个微扰后的细胞群体视为一个在分布空间中取值的“随机变量”。既然生物微扰的结果本质上是混沌且多变的,那就直接用生成式模型去拟合这种多变性本身。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

泛函空间上的扩散:如何向一个“分布”加噪?

确立了非静态分布的建模思想后,真正的工程挑战才刚刚开始。

如何用深度学习网络对一个无形的“概率分布族”进行生成式建模?

PerturbDiff引入了一个极具美感的数学工具:再生核希尔伯特空间(RKHS, 𝓗ₖ)核均值嵌入(Kernel Mean Embedding, KME)

在这套框架下,一个包含数万个细胞的复杂群体,被映射为高维RKHS空间中的一个“点”。

在传统扩散模型(如图像生成的Sora或Stable Diffusion)中,AI是在有限的像素矩阵上添加高斯噪声,然后从噪声中逐步重建图像。

而PerturbDiff则是在这个极高维的函数空间(RKHS)中,对代表“整个细胞群体分布”的那个点,进行连续的马尔可夫扩散演化(即泛函扩散)。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

为了解决高维空间计算难题,作者通过严密的数学证明(基于一阶线性泰勒展开)指出:在真实世界的单细胞表达矩阵中,对每一个单细胞独立添加欧氏空间的高斯噪声,在数学上恰好等价于在RKHS空间中对分布点进行高斯随机游走

这一证明在理论与工程之间架起了一座桥梁,使得极其抽象的泛函扩散过程能够通过基础的张量加噪操作来实现。

MMD的内生性:从“正则化惩罚”到“底层原理解析”

在损失函数的设计上,PerturbDiff再次展现了其理论体系的自洽性。

近年来,最大均值差异(MMD) 常被各类单细胞分布对齐模型(如STATE)用作损失函数。但在以往工作中,MMD更多是作为一种“外挂”的启发式正则化惩罚项,用于拉近组间分布距离。而在PerturbDiff的框架下,MMD是内生且不可避免的

作者在推导RKHS空间中的反向去噪目标时,其对数似然的变分下界自然导出了对分布点μ之间距离的度量项:

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

由于RKHS内积与经验核函数对齐的固有几何性质,这一项在数学上绝对等价于原始单细胞空间中真实分布与预测分布之间的MMD距离的平方

这解释了为何在消融实验中,移除MMD损失仅保留均方误差(MSE)会导致模型崩溃。单细胞基因表达数据具有高度稀疏性(零值比例常高达95%以上),仅使用细胞级别的MSE会驱使模型陷入“预测全零”的次优解。而内生于泛函扩散体系的MMD损失,则迫使模型在总体分布密度、子群权重等高阶统计特征上进行对齐。这也使得PerturbDiff在预测差异表达基因(DEGs)——这一生物学界评估微扰模型的最核心指标(如AUPRC, AUROC)上,表现出了压倒性优势。

霸榜背后的生物学先验:6100万细胞“全景图”催生零样本能力

理论的优美最终转化为在实验基准上的卓越性能。

在包含超1亿单细胞、1100种药物的Tahoe100M(全球最大药物响应基准)和PBMC(免疫信号基准)测试中,PerturbDiff在14项评估指标上实现了全面领先

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

更令生物学家兴奋的是,它在差异表达基因相关指标上的超高精度。预测细胞群体的形态变化只是表面,新药研发真正关切的是:“这款药究竟激活或抑制了哪些关键基因通路?”在这个核心痛点上,由于PerturbDiff真正学到了微扰引起的“系统性分布偏移”,其表现远超以往所有模型。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

除了模型架构,PerturbDiff的训练范式也为应对生物医药数据固有的“标注稀缺”难题提供了富有洞见的思路:边缘分布预训练

微扰实验(尤其是CRISPR筛选或大规模药物测试)成本高昂,所能覆盖的细胞类型有限。作者并未局限于有限的有监督微扰数据,而是利用CellxGene数据集中6100万个未经干预的单细胞转录组数据,对其扩散模型进行了无条件流形的预训练。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

这种看似与特定微扰任务无关的预训练,不仅大幅提升了模型在极低样本量(如Replogle数据集,每种微扰仅数百个细胞)下的微调性能,更在预训练模型上观察到了显著的零样本预测能力。这背后蕴含着深刻的生物学洞察:生物微扰并非将细胞推向基因表达空间中任意的混沌区域;微扰诱导的状态转移轨迹,实际上部分对齐或嵌套于自然界本身已存在的细胞状态流形之中。

6100万细胞图谱绘制的正是这张宏大的生物学“全景底图”。理解了底图的地形,探寻微扰发生的轨迹自然事半功倍。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

总结

PerturbDiff不仅在权威基准(PBMC, Tahoe100M)的十余项泛化指标上刷新了SOTA,更重要的是,它促使我们重新审视计算表型建模的理论根基。

如同卷积神经网络(CNN)之于图像识别,Transformer之于文本生成,AlphaFold Evoformer之于蛋白结构预测,符合数据内在规律的归纳偏置(inductive bias)才能真正释放数据的潜力。PerturbDiff通过在“细胞群体分布的分布”这一泛函空间中训练扩散模型,正是朝着这一方向迈出的重要一步。

随着这项研究的进展,那个能够无限次试错、精准模拟药物扰动响应的终极“AI虚拟细胞”,或许离现实又近了一大步。

项目主页:
https://katarinayuan.github.io/PerturbDiff-ProjectPage/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25453

(0)
上一篇 2026年3月12日 下午4:49
下一篇 2026年3月13日 下午12:55

相关推荐

  • Agent时代计费革命:小米MiMo负责人深度解析Anthropic订阅制变革与行业未来

    Agent时代需要怎样的计费与工程哲学?小米MiMo大模型负责人罗福莉近期在社交平台X上阐述了她的观点。 此前,一则消息引发关注:Anthropic宣布,Claude Pro和Max订阅用户将不能再将其订阅额度用于OpenClaw等第三方Agent框架。若想继续使用,必须切换至按用量付费的API模式。这一变动让许多依赖订阅模式使用Claude构建Agent的…

    2026年4月7日
    49200
  • PyTorch之父Soumith Chintala离职Meta:一个时代的结束与开源AI工具的新征程

    近日,PyTorch创始人兼Meta长期工程师Soumith Chintala宣布将于11月17日正式离职,结束他在Meta长达11年的职业生涯。这一消息迅速在AI社区引发广泛关注,不仅因为Chintala是PyTorch这一全球主流AI框架的核心缔造者,更因其离职标志着开源AI工具发展史上的一个重要节点。本文将从技术影响、行业生态、个人动机及未来展望四个维…

    2025年11月7日
    31500
  • GitLab创始人用AI与系统思维对抗癌症:当工程师开启“创始人模式”自救

    当我们讲述「抗癌故事」时,「励志」是最常用的词。但在 GitLab 联合创始人 Sid Sijbrandij 身上,这个词已远远不够。他以创始人思维、AI 与前沿诊疗方法,为自己开辟了一条独特的求生之路。 GitLab 的两位联合创始人:Dmytro Zaporozhets(左)和 Sid Sijbrandij(右)。 他以 GitLab 的管理方法论重构癌…

    2026年3月29日
    50400
  • 从零到一:HuggingFace超长技术博客揭示LLM训练实战全流程

    近期,HuggingFace发布了一份超过200页的技术博客,系统性地分享了训练先进大语言模型(LLM)的端到端经验。这份博客的核心价值在于直面LLM开发过程中的「混乱现实」,坦诚记录了哪些方法有效、哪些会失败,以及如何应对实际工程中遇到的陷阱。内容基于团队的实际项目经验,特别是他们近期使用384块H100 GPU训练3B参数模型SmolLM3的完整过程。 …

    2025年11月9日
    39800
  • LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

    在人工智能的浪潮中,大语言模型(LLM)凭借其在文本生成、代码编写和多模态推理方面的卓越表现,已成为通用智能的代名词。然而,当我们把目光投向现实世界的关键系统——电网调度、用户画像、通信日志等,这些领域的核心数据往往以结构化表格的形式存在。令人意外的是,在这个看似“简单”的领域,包括LLM在内的现代深度学习模型却频频失手,其性能在多数真实场景下仍难以超越XG…

    2025年11月13日
    44600