Nature丨一个跨越所有生命领域的基因组基础模型,实现基因组建模与设计
创始人
2026-03-06 17:02:06

编辑丨&

生命的所有信息都编码在 DNA 中。尽管基因组测序、合成和编辑工具已彻底改变了生物学研究,但我们仍然缺乏对基因组浩瀚复杂性的足够理解——无法精准预测大多数基因变化的后果,更无法智能地设计全新的生物系统。

但一切都可以从零开始。Arc 研究所、英伟达、斯坦福大学等机构带来了 Evo 2——一个在 9 万亿 DNA 碱基对上训练、覆盖细菌、古菌、真核生物和噬菌体所有生命领域的基因组基础模型。他们利用 Evo 2 设计了全基因组序列,其中包括一个受生殖单粒(M. genitalium)启发的序列。

相关研究以「Genome modelling and design across all domains of life with Evo 2」为题,于 2026 年 3 月 4 日发布在《Nature》。

论文链接:https://www.nature.com/articles/s41586-026-10176-5

通用基因语言模型

基于其前身 Evo 1,Evo 2 完全基于单细胞基因组训练,Evo 2是迄今为止生物学领域最大的人工智能模型。除了扩展的细菌、古菌和噬菌体基因组收藏外,Evo 2 还包括来自人类、植物及其他真核生物领域中单细胞和多细胞物种的信息。

当下研究团队共训练了两个版本的 Evo 2:一个较小版本,拥有 70 亿参数;一个更大版本,包含 400 亿参数。这些数据均来自于 OpenGenome2 的新训练数据集,由经过精心整理的非冗余核苷酸序列数据汇编而成,总共超过 8.8 万亿个核苷酸。

图 1:Evo 2 的模型架构、训练过程、数据集及评估概述。

在技术层面,Evo2 基于 StripedHyena 2 架构。这一架构融合了卷积与高效注意力机制,专门优化超长序列建模能力。与经典 Transformer 相比,该架构在长序列建模上更具计算效率,使万亿级训练成为现实。

更重要的是,Evo2 并非为某一单一任务优化,而是一个可迁移的基础表示模型——下游任务仅需微调或零样本推断即可完成。通过计算序列的似然概率,Evo 2 可以零样本预测突变对蛋白质、RNA 乃至整个生物体适应度的影响。而作为生成模型,Evo 2 可以根据给定提示,续写出完整、自然的基因组序列,从线粒体到细菌染色体。

特征解读

倘若想深入模型内部,探究黑箱其中的秘密,研究团队同样也准备了工具——稀疏自编码器(SAE)。它将模型的神经元激活模式分解为稀疏、高维的表示,其中每个潜在维度往往呈现出人类可解释的模式。

图 2:Evo 2 的机制可解释性揭示了 DNA、RNA、蛋白质和生物体层面特征。

通过寻找包含特定注释的序列片段中的特征并与已学习的 SAE 潜在维度、已知生物学概念匹配,团队成功发现了大肠杆菌有关特征、人类基因启动子的激活、人类基因中外显子和内含子结构密切相关的特征。这些发现证明,Evo 2 的内部表示捕获了从移动遗传元件、调控基序到蛋白质二级结构的广泛生物学信号。

变异、序列、进化

鉴于 Evo 2 能够学习中心法则三种模态(DNA、RNA 和蛋白质)以及生命的三个领域中的概然图景,团队尝试在多个维度对该模型进行性能上的验证。

  1. 人类变异效应预测:这是 Evo 2 最亮眼的应用之一。在评估中,对于非 SNV(插入、缺失、重复),Evo 2 40B 在所有方法中排名第一;对于非编码区 SNV,Evo 2 在无监督模型中排名第一。

图 3:Evo 2 实现了准确的零射击人类变异效应预测。

  • 基因组规模生成
  • 线粒体基因组:Evo 2 能生成完整的 16kb 人类线粒体 DNA,包含正确的编码序列数量、tRNA 和 rRNA 基因数量,并保持正确的共线性。
  • 原核基因组:在生成生殖支原体基因组时,Evo 2生成的基因中近 70% 具有显著 Pfam hit,远超 Evo 1 的 18%。
  • 真核染色体:Evo 2 能生成酵母染色体III(约 330kb)规模的 DNA,包含 tRNA、启动子和具有内含子结构的基因。

图 4:跨生命领域的基因组尺度生成。

  1. 引导生成特定染色质模式: 这是 Evo 2 最令人惊叹的应用。团队将 Evo 2 与染色质可及性预测模型 Enformer和 Borzoi 结合,通过束搜索引导生成,使 Evo 2 能够按需设计出特定位置和长度的染色质开放区域。 他们甚至用这种技术在小鼠基因组中写入了摩斯密码消息("EVO2"、"ARC"、"LO"),并通过实验验证——将合成的DNA整合到小鼠胚胎干细胞中。

最大规模的开源生物基础模型

Evo 2 团队秉持开放科学理念,发布了模型的 40B、7B、1B 版本,并给出了完整的 OpenGenome2 训练数据集。在生物安全方面,团队采取了负责任的设计:他们将感染人类及其他复杂生物的病原体排除在Evo 2的基础数据集中,并确保模型不会对这些病原体的询问提供有建设性答案。

虽然 Evo 2 生成的序列在计算机指标上更“自然”,但这不保证序列在细胞中具有功能。基因组规模的设计还缺少一些必需基因,实验测试需要大规模、迭代的努力。未来的方向一定是与大规模DNA合成技术结合、引入实验反馈的强化学习。这些方向将使 Evo 2 走向真正可编程的复杂生物系统设计。

相关报道:https://www.nature.com/articles/d41586-026-00681-y

https://phys.org/news/2026-03-evo-ai-genetic-code-domains.html

相关内容

热门资讯

市人社局开展“巧手织暖 耘心筑... 为庆祝“三八”国际妇女节,丰富女职工精神文化生活,深化赤峰人社“耘心”党建品牌建设,近日,市人社局组...
iPhone 17e还没开卖就... 快科技3月6日消息,iPhone 17e作为苹果在2026年推出的首款新机,起售价定在了4499元。...
SpaceX计划在2027年底... 来源:环球市场播报 SpaceX计划在2027年底前向太空发射约1200颗第二代卫星。该公司希望借此...
Nature丨一个跨越所有生命... 编辑丨& 生命的所有信息都编码在 DNA 中。尽管基因组测序、合成和编辑工具已彻底改变了生物学研究,...