
今年 1 月,DeepSeek 发布了一项名为 Engram(条件记忆)的技术,在大模型领域引起了广泛关注。
其核心思想非常直接:不让模型费力记忆所有常识,而是为其配备一个可随时查询的“外挂记忆库”。
具体实现上,它将常见的 N-gram(如“人工智能”、“光合作用”)预先存入一个哈希表。当模型需要时,直接查表即可获取相关信息,从而节省大量计算资源,使其能更专注于复杂的推理任务。
这一创新思路能否应用于其他领域的模型训练与推理?答案是肯定的,并且效果显著。
在 Engram 论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》发布仅 16 天后,一支同样位于杭州的研发团队推出了 Gengram(Genomic Engram) 模块,成功将“外挂字典”的理念引入了基因组学研究。

- 代码链接:https://github.com/zhejianglab/Gengram
- 模型链接:https://huggingface.co/ZhejiangLab/Gengram
- 论文链接:https://github.com/zhejianglab/Gengram/tree/main/paper
传统方法的困境:为每个碱基“重复造轮子”
当前,主流的基因组基础模型(如 Deepmind 的 AlphaGenome 等)普遍采用“单碱基分词”策略,即将 DNA 序列拆解为单个字母(A/T/C/G)进行处理。
这种方法虽然符合生物学直觉且精度较高,但也带来了显著的代价。
首先是效率问题。为了识别一个关键的功能片段(如启动子或剪接位点),模型需要依赖多层注意力机制,从零开始“拼凑”出像“TATAAAA”这样的经典碱基组合(Motif)。
其次是长序列处理的困难。在动辄数万乃至数十万碱基的长序列中,模型容易“只见树木,不见森林”。而人类基因组本身就是一个长达30亿字符的连续序列,处理难度极大。
一个更易理解的比喻是:人类学习“魑魅魍魉”时,能一眼将其识别为一个成语。但传统基因组模型却需要逐个分析每个“鬼”字,既要区分又要预测,最终导致费力且不准。
Gengram 的工作原理
Gengram 的核心逻辑继承自 Engram:将“静态的 Motif 识别”与“动态的上下文推理”进行解耦处理。
它预先构建了一个可微分的哈希表,存储所有长度为 1 到 6 的 DNA 片段(称为 k-mer,如“ATG”、“CGTA”)所对应的语义向量。这些 k-mer 中很多本身就是已知的生物学功能单元(如转录因子结合位点),相当于为 AI 配备了一本《基因组学实用短语手册》。
与其他领域相比,DNA 仅由 4 种碱基(A/T/C/G)及少量未知碱基(N)构成,字符集极小。这使得 Gengram 无需承担复杂的 Tokenizer 压缩负担,查表速度极快,几乎不增加额外计算开销。
此外,并非所有 Motif 都需要“查字典”。Gengram 引入了动态门控机制,模型可以根据上下文自主决定何时启用检索功能:在遇到外显子、启动子等关键 Motif 区域时激活检索;在通过非编码背景区域时则关闭检索,依赖自身推理,从而优化计算资源。
经测试,这一门控机制已能有效判断“何时该查询参考资料,何时该独立思考”。
轻量模块,显著提升
Gengram 本身是一个仅约 2000 万参数的轻量化插件,对于百亿级规模的模型而言微不足道,但其带来的性能提升却非常显著。
在 8k 和 32k 两种上下文长度的版本中,同等训练设定下,应用了 Gengram 的模型在几乎所有任务上都领先于未应用的版本。
其中,剪接位点预测任务的 AUC 提升了 16.1%(从 0.776 提升至 0.901),表观遗传预测任务(H3K36me3)的 AUC 提升了 22.6%(从 0.656 提升至 0.804)。
这种跨越式的性能提升,赋予了模型惊人的数据杠杆效应。在与多款主流 DNA 基础模型的横向对比中,集成 Gengram 的模型仅需极小规模的训练数据和较少的激活参数量,便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型,大幅提升了数据能效比。
同时,Gengram 展现出卓越的通用适配能力,能够无缝部署于 Dense(稠密)与 MoE(混合专家)等不同模型架构。无论采用何种注意力机制变体,它都能在有效降低训练损失的同时,显著加速模型收敛。特别是针对 MoE 架构中专家负载失衡的难题,Gengram 通过吸收局部高频噪声,显著改善了专家负载均衡,实现了性能与效率的协同优化。

跨稀疏度负载均衡:在 Top-2 / 128、64 和 32 专家配置下,使用与不使用 Gengram 模块的负载均衡损失曲线对比,表明其在多种稀疏度设置下均能实现稳定性能。
此外,模型开始“涌现”出对 DNA 物理本质的理解。当团队为 Gengram 的局部聚合窗口测试不同大小时,结果显示:窗口大小参数设置为 21bp 时,其性能达到峰值。
为什么是 21?因为 DNA 双螺旋结构每 10.5 个碱基对旋转一圈,而 21 个碱基正好对应两个完整的螺旋周期。这意味着,相隔 21bp 的碱基在物理空间上位于螺旋的同一侧,具备相似的生化环境和特征。换言之,Gengram 在没有学习任何结构生物学知识的前提下,通过计算自行领悟了 DNA 序列信息与空间相位的规律。

DNA 双螺旋结构示意图展示了 B 型 DNA 的结构参数,DNA 双螺旋每 10.5 个碱基对旋转一圈。

不同 Gengram 窗口大小下的验证损失,由此选择了 21 宽度的窗口。
范式启示:为科学 AI 模型提供新路径
Gengram 的成功,其意义超越了解决基因组建模的具体难题。它更像一个精巧的概念验证,为构建新一代“懂科学”的 AI 探索了一种新模式。
- 从“暴力记忆”到“结构化知识外挂”:效率范式的转变。 传统 AI 模型增强能力主要依靠扩张参数与数据,本质是让网络更费力地“记住”一切。Gengram 则将领域内确凿的、结构化的先验知识(如功能 Motif)构建为一个轻量、可查询的外部知识库。这让核心模型能从繁琐的模式记忆中解脱,专注于更高级的上下文推理与组合创新。这预示着,未来科学基础模型的架构,可能是“通用模型核心 + 多个领域专用插件”的协同形态。
- “归纳偏置”注入:生物物理规律的“硬编码”。 通过将 B 型 DNA 双螺旋每 10.5 个碱基完成一个旋转周期(即约 21 bp 的双圈周期)这一结构特性,显式转化为模型内部的局部窗口机制,Gengram 成功地将物理空间相位的周期性作为先验知识注入模型,使其能够捕捉特定相位的立体化学模式和蛋白质绑定偏好。
- 可解释性的内生设计:让 AI 的“思维过程”透明化。 模型不再仅仅进行隐式的统计拟合,而是通过显式的哈希查询和门控记忆通路,在浅层即展现出对 TATA-box、poly (T) 等关键功能基元的高度敏感性,其内部残差强度的峰值与基因组功能边界精准对齐,实现了从“黑盒计算”向“具备生物学认知足迹”的演进。
解决长程依赖的新路径:从局部最优到全局洞察。实验证明,Gengram 使得仅在 8K 长度上训练的模型,却获得了处理 32K 长序列的优异能力。这为基因调控元件预测、表观遗传学分析、跨物种进化分析以及复杂的多组学建模等复杂长序列问题,开辟了精细化局部感知驱动全局理解的新途径。
Gengram 建立了一种将领域特有规律转化为显式架构约束的创新范式,证明了通过精细化的局部结构化感知可以有效弥补标称上下文长度的局限,实现低成本且高效的长程依赖建模。
低调的 Genos Team 背景
尽管论文署名低调地使用了「Genos Team」,但从开源代码库的 Zhejianglab 和 BGI-HangzhouAI 能够推断出这支团队的硬核背景:一家是坐落在杭州的专注于智能计算的新型研发机构之江实验室,另一家是杭州华大生命科学研究院。
两个团队的融合,构建起「AI + 生命科学」的交叉创新壁垒,这是纯 CS 团队或纯基因团队无法比拟的优势。
论文里的实验,大多基于人类基因组基础模型 Genos 实现,从可公开获取的信息来看,Genos 多数指标都超越了目前的业界顶流 Evo-2。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19530
