PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

PerturbDiff:将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

如何利用AI预测一款抗癌新药对特定癌细胞的影响?一个直观的思路是让AI学习同一个细胞在药物处理前后的基因表达变化规律。

然而,单细胞转录组测序(scRNA-seq)的“破坏性”构成了根本障碍:一旦对细胞状态进行观测,该细胞即被溶解。因此,我们无法在施加微扰(如药物干预、基因编辑)前后观测到同一个细胞。

面对这种本质上的非配对数据,传统AI模型往往表现不佳。它们要么强行随机配对,导致模型学到平庸的“平均”响应;要么在预测关键靶点基因时频频“脱靶”。

近日,来自Mila(魁北克人工智能研究所)唐建团队的研究者发表了新作PerturbDiff。该团队此前已在蛋白性质预测与设计、AI虚拟细胞等领域发表多篇重要论文。这项新研究跳出了前人纠结于“单细胞”还是“单分布”的认知框架,首次将“细胞群体的概率分布”本身视为一个可以进行加噪和去噪操作的随机变量

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

该模型在包含上亿细胞的全球最大药物微扰图谱(Tahoe100M)等多项权威基准测试中,以显著优势刷新了单细胞响应预测的SOTA记录,标志着AI在构建高保真“虚拟细胞”道路上取得了一次重要突破。

认知陷阱:微扰响应真的是一个“静态分布”吗?

要理解PerturbDiff的成功,首先需厘清此前SOTA方法的局限。

近年来进展较快的方法(如STATE、CellFlow等)已意识到对单细胞进行强行配对和回归训练并不可靠,转而尝试进行“群体到群体”的映射。但这些方法的底层世界观存在一个关键的静态假设:给定一种细胞类型和一种药物,其微扰后的细胞分布结果是唯一且固定的。

唐建团队敏锐地指出,生命系统并非精密的钟表。培养皿中的微环境波动、细胞周期的细微差异,乃至实验的批次效应,这些“看不见的隐变量”都会导致同一组实验在不同次运行时,最终的细胞分布状态产生微妙偏移。

如果迫使AI去学习一个“唯一标准答案”,它学到的只是所有可能性的平均值。一旦面临真正的新药或跨批次测试,其泛化能力便会急剧下降。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

PerturbDiff的突破在于完成了一次深刻的概念“升维”:它不再将AI建模或生成的目标设定为单个“细胞”,甚至不是“某一个具体的细胞分布”,而是“细胞分布的分布”——即将整个微扰后的细胞群体视为一个在分布空间中取值的“随机变量”。既然生物微扰的结果本质上是混沌且多变的,那就直接用生成式模型去拟合这种多变性本身。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

泛函空间上的扩散:如何向一个“分布”加噪?

确立了非静态分布的建模思想后,真正的工程挑战才刚刚开始。

如何用深度学习网络对一个无形的“概率分布族”进行生成式建模?

PerturbDiff引入了一个极具美感的数学工具:再生核希尔伯特空间(RKHS, 𝓗ₖ)核均值嵌入(Kernel Mean Embedding, KME)

在这套框架下,一个包含数万个细胞的复杂群体,被映射为高维RKHS空间中的一个“点”。

在传统扩散模型(如图像生成的Sora或Stable Diffusion)中,AI是在有限的像素矩阵上添加高斯噪声,然后从噪声中逐步重建图像。

而PerturbDiff则是在这个极高维的函数空间(RKHS)中,对代表“整个细胞群体分布”的那个点,进行连续的马尔可夫扩散演化(即泛函扩散)。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

为了解决高维空间计算难题,作者通过严密的数学证明(基于一阶线性泰勒展开)指出:在真实世界的单细胞表达矩阵中,对每一个单细胞独立添加欧氏空间的高斯噪声,在数学上恰好等价于在RKHS空间中对分布点进行高斯随机游走

这一证明在理论与工程之间架起了一座桥梁,使得极其抽象的泛函扩散过程能够通过基础的张量加噪操作来实现。

MMD的内生性:从“正则化惩罚”到“底层原理解析”

在损失函数的设计上,PerturbDiff再次展现了其理论体系的自洽性。

近年来,最大均值差异(MMD) 常被各类单细胞分布对齐模型(如STATE)用作损失函数。但在以往工作中,MMD更多是作为一种“外挂”的启发式正则化惩罚项,用于拉近组间分布距离。而在PerturbDiff的框架下,MMD是内生且不可避免的

作者在推导RKHS空间中的反向去噪目标时,其对数似然的变分下界自然导出了对分布点μ之间距离的度量项:

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

由于RKHS内积与经验核函数对齐的固有几何性质,这一项在数学上绝对等价于原始单细胞空间中真实分布与预测分布之间的MMD距离的平方

这解释了为何在消融实验中,移除MMD损失仅保留均方误差(MSE)会导致模型崩溃。单细胞基因表达数据具有高度稀疏性(零值比例常高达95%以上),仅使用细胞级别的MSE会驱使模型陷入“预测全零”的次优解。而内生于泛函扩散体系的MMD损失,则迫使模型在总体分布密度、子群权重等高阶统计特征上进行对齐。这也使得PerturbDiff在预测差异表达基因(DEGs)——这一生物学界评估微扰模型的最核心指标(如AUPRC, AUROC)上,表现出了压倒性优势。

霸榜背后的生物学先验:6100万细胞“全景图”催生零样本能力

理论的优美最终转化为在实验基准上的卓越性能。

在包含超1亿单细胞、1100种药物的Tahoe100M(全球最大药物响应基准)和PBMC(免疫信号基准)测试中,PerturbDiff在14项评估指标上实现了全面领先

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

更令生物学家兴奋的是,它在差异表达基因相关指标上的超高精度。预测细胞群体的形态变化只是表面,新药研发真正关切的是:“这款药究竟激活或抑制了哪些关键基因通路?”在这个核心痛点上,由于PerturbDiff真正学到了微扰引起的“系统性分布偏移”,其表现远超以往所有模型。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

除了模型架构,PerturbDiff的训练范式也为应对生物医药数据固有的“标注稀缺”难题提供了富有洞见的思路:边缘分布预训练

微扰实验(尤其是CRISPR筛选或大规模药物测试)成本高昂,所能覆盖的细胞类型有限。作者并未局限于有限的有监督微扰数据,而是利用CellxGene数据集中6100万个未经干预的单细胞转录组数据,对其扩散模型进行了无条件流形的预训练。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

这种看似与特定微扰任务无关的预训练,不仅大幅提升了模型在极低样本量(如Replogle数据集,每种微扰仅数百个细胞)下的微调性能,更在预训练模型上观察到了显著的零样本预测能力。这背后蕴含着深刻的生物学洞察:生物微扰并非将细胞推向基因表达空间中任意的混沌区域;微扰诱导的状态转移轨迹,实际上部分对齐或嵌套于自然界本身已存在的细胞状态流形之中。

6100万细胞图谱绘制的正是这张宏大的生物学“全景底图”。理解了底图的地形,探寻微扰发生的轨迹自然事半功倍。

PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

总结

PerturbDiff不仅在权威基准(PBMC, Tahoe100M)的十余项泛化指标上刷新了SOTA,更重要的是,它促使我们重新审视计算表型建模的理论根基。

如同卷积神经网络(CNN)之于图像识别,Transformer之于文本生成,AlphaFold Evoformer之于蛋白结构预测,符合数据内在规律的归纳偏置(inductive bias)才能真正释放数据的潜力。PerturbDiff通过在“细胞群体分布的分布”这一泛函空间中训练扩散模型,正是朝着这一方向迈出的重要一步。

随着这项研究的进展,那个能够无限次试错、精准模拟药物扰动响应的终极“AI虚拟细胞”,或许离现实又近了一大步。

项目主页:
https://katarinayuan.github.io/PerturbDiff-ProjectPage/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25453

(0)
上一篇 3小时前
下一篇 2026年2月11日 上午6:27

相关推荐

  • 量子计算十年瓶颈终破:万级Qubit芯片开启可扩展硬件时代

    量子计算领域在过去十年间一直面临着一个看似无法逾越的工程瓶颈:当量子比特(qubit)数量达到百级规模时,系统的扩展性就会急剧恶化。无论是Google、IBM这样的科技巨头,还是Rigetti、IonQ、Quantinuum等专业量子公司,都未能突破这堵“百qubit天花板”。这一困境并非源于技术能力的不足,而是源于量子系统固有的物理限制。每增加一个qubi…

    2025年12月11日
    17300
  • AI大模型2026新生态:技术迭代与资本分野重塑行业格局

    2026 年初春,AI 大模型行业正经历一场深刻的结构性变革。 随着智谱 AI 与 MiniMax 相继登陆资本市场,曾被市场集体看好的“AI 大模型六小虎”正式结束同质化竞争阶段,踏上差异化发展的分岔路。 一边是头部企业借助资本杠杆加速生态扩张,一边是未上市独角兽凭借充足现金储备深耕技术壁垒;一边是通用人工智能(AGI)赛道的白热化竞逐,一边是垂直领域的精…

    AI产业动态 2026年1月18日
    39500
  • ChatGPT广告功能代码泄露:OpenAI商业化转型的深度剖析与行业影响

    近日,ChatGPT安卓测试版代码泄露事件揭示了OpenAI正在内部测试广告功能的重大动向。软件工程师Tibor Blaho在分析应用代码时,发现了“搜索广告”“搜索广告轮播”“集市内容”等关键字符串,这标志着OpenAI可能正在探索将广告整合到其对话式AI产品中。尽管这些代码不代表功能即将上线,但通常预示着公司正在进行广告形式和投放位置的内部测试,为未来的…

    2025年11月30日
    17900
  • 像素级视觉革命:FG-CLIP 2如何突破多模态模型的细粒度理解瓶颈

    在人工智能的视觉生成领域,我们常常惊叹于大模型创造的绚丽图像,但当涉及具体细节和精确空间关系时,传统模型的局限性便暴露无遗。例如,当要求生成“一只穿红外套的猫,站在一辆蓝色跑车左边,蓝色跑车后面是一辆白色SUV”时,模型往往难以准确理解“后面”这一空间关系,导致生成结果与预期不符。 同样,在搜索“一辆红色的特斯拉,引擎盖上很多鸟粪”这类高度具体的图像时,传统…

    2025年11月5日
    18800
  • 自动驾驶范式迁移:从数据闭环到训练闭环的深度技术解析

    在自动驾驶技术发展的关键转折点,行业正经历一场深刻的范式迁移。端到端架构虽曾统一技术栈并释放Scaling Law潜力,但随着数据瓶颈日益凸显,单纯依赖模仿学习已难以突破人类司机能力上限。ICCV 2025的最新动向显示,头部企业正形成共识:强化学习与云端生成式世界模型将成为下一代自动驾驶系统的核心基座。 特斯拉与理想汽车在顶会现场的实践分享,揭示了这一转型…

    2025年11月8日
    17500