Nature丨一个跨越所有生命领域的基因组基础模型，实现基因组建模与设计_科技资讯

Nature丨一个跨越所有生命领域的基因组基础模型，实现基因组建模与设计

创始人

2026-03-06 17:02:06

编辑丨&

生命的所有信息都编码在 DNA 中。尽管基因组测序、合成和编辑工具已彻底改变了生物学研究，但我们仍然缺乏对基因组浩瀚复杂性的足够理解——无法精准预测大多数基因变化的后果，更无法智能地设计全新的生物系统。

但一切都可以从零开始。Arc 研究所、英伟达、斯坦福大学等机构带来了 Evo 2——一个在 9 万亿 DNA 碱基对上训练、覆盖细菌、古菌、真核生物和噬菌体所有生命领域的基因组基础模型。他们利用 Evo 2 设计了全基因组序列，其中包括一个受生殖单粒（M. genitalium）启发的序列。

相关研究以「Genome modelling and design across all domains of life with Evo 2」为题，于 2026 年 3 月 4 日发布在《Nature》。

论文链接：https://www.nature.com/articles/s41586-026-10176-5

通用基因语言模型

基于其前身 Evo 1，Evo 2 完全基于单细胞基因组训练，Evo 2是迄今为止生物学领域最大的人工智能模型。除了扩展的细菌、古菌和噬菌体基因组收藏外，Evo 2 还包括来自人类、植物及其他真核生物领域中单细胞和多细胞物种的信息。

当下研究团队共训练了两个版本的 Evo 2：一个较小版本，拥有 70 亿参数；一个更大版本，包含 400 亿参数。这些数据均来自于 OpenGenome2 的新训练数据集，由经过精心整理的非冗余核苷酸序列数据汇编而成，总共超过 8.8 万亿个核苷酸。

图 1：Evo 2 的模型架构、训练过程、数据集及评估概述。

在技术层面，Evo2 基于 StripedHyena 2 架构。这一架构融合了卷积与高效注意力机制，专门优化超长序列建模能力。与经典 Transformer 相比，该架构在长序列建模上更具计算效率，使万亿级训练成为现实。

更重要的是，Evo2 并非为某一单一任务优化，而是一个可迁移的基础表示模型——下游任务仅需微调或零样本推断即可完成。通过计算序列的似然概率，Evo 2 可以零样本预测突变对蛋白质、RNA 乃至整个生物体适应度的影响。而作为生成模型，Evo 2 可以根据给定提示，续写出完整、自然的基因组序列，从线粒体到细菌染色体。

特征解读

倘若想深入模型内部，探究黑箱其中的秘密，研究团队同样也准备了工具——稀疏自编码器（SAE）。它将模型的神经元激活模式分解为稀疏、高维的表示，其中每个潜在维度往往呈现出人类可解释的模式。

图 2：Evo 2 的机制可解释性揭示了 DNA、RNA、蛋白质和生物体层面特征。

通过寻找包含特定注释的序列片段中的特征并与已学习的 SAE 潜在维度、已知生物学概念匹配，团队成功发现了大肠杆菌有关特征、人类基因启动子的激活、人类基因中外显子和内含子结构密切相关的特征。这些发现证明，Evo 2 的内部表示捕获了从移动遗传元件、调控基序到蛋白质二级结构的广泛生物学信号。

变异、序列、进化

鉴于 Evo 2 能够学习中心法则三种模态（DNA、RNA 和蛋白质）以及生命的三个领域中的概然图景，团队尝试在多个维度对该模型进行性能上的验证。

人类变异效应预测：这是 Evo 2 最亮眼的应用之一。在评估中，对于非 SNV（插入、缺失、重复），Evo 2 40B 在所有方法中排名第一；对于非编码区 SNV，Evo 2 在无监督模型中排名第一。

图 3：Evo 2 实现了准确的零射击人类变异效应预测。

基因组规模生成：
线粒体基因组：Evo 2 能生成完整的 16kb 人类线粒体 DNA，包含正确的编码序列数量、tRNA 和 rRNA 基因数量，并保持正确的共线性。
原核基因组：在生成生殖支原体基因组时，Evo 2生成的基因中近 70% 具有显著 Pfam hit，远超 Evo 1 的 18%。
真核染色体：Evo 2 能生成酵母染色体III（约 330kb）规模的 DNA，包含 tRNA、启动子和具有内含子结构的基因。

图 4：跨生命领域的基因组尺度生成。

引导生成特定染色质模式：这是 Evo 2 最令人惊叹的应用。团队将 Evo 2 与染色质可及性预测模型 Enformer和 Borzoi 结合，通过束搜索引导生成，使 Evo 2 能够按需设计出特定位置和长度的染色质开放区域。他们甚至用这种技术在小鼠基因组中写入了摩斯密码消息（"EVO2"、"ARC"、"LO"），并通过实验验证——将合成的DNA整合到小鼠胚胎干细胞中。

最大规模的开源生物基础模型

Evo 2 团队秉持开放科学理念，发布了模型的 40B、7B、1B 版本，并给出了完整的 OpenGenome2 训练数据集。在生物安全方面，团队采取了负责任的设计：他们将感染人类及其他复杂生物的病原体排除在Evo 2的基础数据集中，并确保模型不会对这些病原体的询问提供有建设性答案。

虽然 Evo 2 生成的序列在计算机指标上更“自然”，但这不保证序列在细胞中具有功能。基因组规模的设计还缺少一些必需基因，实验测试需要大规模、迭代的努力。未来的方向一定是与大规模DNA合成技术结合、引入实验反馈的强化学习。这些方向将使 Evo 2 走向真正可编程的复杂生物系统设计。

相关报道：https://www.nature.com/articles/d41586-026-00681-y

https://phys.org/news/2026-03-evo-ai-genetic-code-domains.html

上一篇：抢抓产业体系智能化机遇

下一篇：SpaceX计划在2027年底前发射约1200颗第二代卫星

Nature丨一个跨越所有生命领域的基因组基础模型，实现基因组建模与设计

相关内容

热门资讯