编辑丨&
生命的所有信息都编码在 DNA 中。尽管基因组测序、合成和编辑工具已彻底改变了生物学研究,但我们仍然缺乏对基因组浩瀚复杂性的足够理解——无法精准预测大多数基因变化的后果,更无法智能地设计全新的生物系统。
但一切都可以从零开始。Arc 研究所、英伟达、斯坦福大学等机构带来了 Evo 2——一个在 9 万亿 DNA 碱基对上训练、覆盖细菌、古菌、真核生物和噬菌体所有生命领域的基因组基础模型。他们利用 Evo 2 设计了全基因组序列,其中包括一个受生殖单粒(M. genitalium)启发的序列。
相关研究以「Genome modelling and design across all domains of life with Evo 2」为题,于 2026 年 3 月 4 日发布在《Nature》。
论文链接:https://www.nature.com/articles/s41586-026-10176-5
通用基因语言模型
基于其前身 Evo 1,Evo 2 完全基于单细胞基因组训练,Evo 2是迄今为止生物学领域最大的人工智能模型。除了扩展的细菌、古菌和噬菌体基因组收藏外,Evo 2 还包括来自人类、植物及其他真核生物领域中单细胞和多细胞物种的信息。
当下研究团队共训练了两个版本的 Evo 2:一个较小版本,拥有 70 亿参数;一个更大版本,包含 400 亿参数。这些数据均来自于 OpenGenome2 的新训练数据集,由经过精心整理的非冗余核苷酸序列数据汇编而成,总共超过 8.8 万亿个核苷酸。
图 1:Evo 2 的模型架构、训练过程、数据集及评估概述。
在技术层面,Evo2 基于 StripedHyena 2 架构。这一架构融合了卷积与高效注意力机制,专门优化超长序列建模能力。与经典 Transformer 相比,该架构在长序列建模上更具计算效率,使万亿级训练成为现实。
更重要的是,Evo2 并非为某一单一任务优化,而是一个可迁移的基础表示模型——下游任务仅需微调或零样本推断即可完成。通过计算序列的似然概率,Evo 2 可以零样本预测突变对蛋白质、RNA 乃至整个生物体适应度的影响。而作为生成模型,Evo 2 可以根据给定提示,续写出完整、自然的基因组序列,从线粒体到细菌染色体。
特征解读
倘若想深入模型内部,探究黑箱其中的秘密,研究团队同样也准备了工具——稀疏自编码器(SAE)。它将模型的神经元激活模式分解为稀疏、高维的表示,其中每个潜在维度往往呈现出人类可解释的模式。
图 2:Evo 2 的机制可解释性揭示了 DNA、RNA、蛋白质和生物体层面特征。
通过寻找包含特定注释的序列片段中的特征并与已学习的 SAE 潜在维度、已知生物学概念匹配,团队成功发现了大肠杆菌有关特征、人类基因启动子的激活、人类基因中外显子和内含子结构密切相关的特征。这些发现证明,Evo 2 的内部表示捕获了从移动遗传元件、调控基序到蛋白质二级结构的广泛生物学信号。
变异、序列、进化
鉴于 Evo 2 能够学习中心法则三种模态(DNA、RNA 和蛋白质)以及生命的三个领域中的概然图景,团队尝试在多个维度对该模型进行性能上的验证。
图 3:Evo 2 实现了准确的零射击人类变异效应预测。
图 4:跨生命领域的基因组尺度生成。
最大规模的开源生物基础模型
Evo 2 团队秉持开放科学理念,发布了模型的 40B、7B、1B 版本,并给出了完整的 OpenGenome2 训练数据集。在生物安全方面,团队采取了负责任的设计:他们将感染人类及其他复杂生物的病原体排除在Evo 2的基础数据集中,并确保模型不会对这些病原体的询问提供有建设性答案。
虽然 Evo 2 生成的序列在计算机指标上更“自然”,但这不保证序列在细胞中具有功能。基因组规模的设计还缺少一些必需基因,实验测试需要大规模、迭代的努力。未来的方向一定是与大规模DNA合成技术结合、引入实验反馈的强化学习。这些方向将使 Evo 2 走向真正可编程的复杂生物系统设计。
相关报道:https://www.nature.com/articles/d41586-026-00681-y
https://phys.org/news/2026-03-evo-ai-genetic-code-domains.html