蛋白质定向进化(Directed Evolution)是一种模拟自然选择过程、在实验室中快速优化蛋白质功能的工程策略,其基本原理是通过引入突变(如误配引物扩增、错误复制或体外突变库构建)和高通量筛选或选择,迭代获得具有期望性质(如更高活性、更强稳定性或新功能)的突变体。该方法无需对蛋白质结构或机制有详细了解,因而在蛋白质工程中广泛应用,尤其适用于酶活性优化、底物特异性重编程、生物合成通路设计以及基因编辑工具(如 Cas 蛋白)的改造等领域。定向进化的概念最早可追溯至 20 世纪 90 年代,Frances Arnold 是该领域的先驱之一,她因系统发展并应用这一技术于工业酶工程而获得 2018 年诺贝尔化学奖,标志着定向进化在现代生物技术中的核心地位。
然而在庞大的蛋白序列空间中做随机突变的探索方式效率较低,因此定向进化往往依赖于高通量的实验技术,以及一点点运气🍀。随着蛋白质预训练模型的发展,越来越多的研究者开始意识到预训练的蛋白模型可以在定向进化中发挥强大的引导作用,缩小搜索的序列空间,使定向进化真正“定向”。发表在 Science 上的 EVOLVEpro 是机器学习辅助的蛋白定向进化(Machine Learning Directed Evolution, MLDE)中的标志性工作。在蛋白语言模型(如 ESM 系列)的基础上,它采用了一种非常朴素的少样本学习(few-shot learning)思路,具体流程如下:
图 1:EVOLVEpro 的原理图示
看上去有点复杂,没关系,我们在 In-Silico Directed Evolution Agent 中实现了这一完整流程,现在一切都变得非常简单🫰。
那么 Agent 能识别哪些格式的实验数据呢?
seq_name; sequence; property 为表头行,表头行以下每一行包含一条序列数据,分别是序列名、序列以及测得的蛋白数据seq_name; sequence; property
WT; AAAAAAAAA...; 1.0
A2V; AVAAAAAAA...; 1.5
...
可以看到在这一步里面实验数据已经被总结成了标准格式
同时 Agent 会把实验数据中所有涉及到的序列总结成 FASTA 文件,以供后续推理使用
在这个例子中,我要求 Agent 给我生成满足如下条件的所有单突变体:突变前的残基是 L,突变后的残基是 P。当然,你也可以对突变的残基序号有一些要求。最后 Agent 会生成一个包含所有候选序列的 FASTA 文件。
注意:这一步只会生成基础序列的单突变体,如果有其他特殊需求,你也可以直接上传候选序列的 FASTA 文件。
这一步会消耗一些 GPU 资源,占用一部分推理时间,请耐心等待⏳
并使用训练好的回归器对候选突变体池中的所有序列进行预测
预测后 Agent 会输出一个 .csv 文件,里面按照预测的结果对所有的候选突变体进行了排序。
这样我们就可以根据模型的预测结果挑选下一轮用于实验的突变体了!本文总结了用 定向进化 Agent 利用蛋白预训练模型对蛋白进行机器学习辅助的定向进化的流程。AI 有可能犯蠢,以下这些 Tips 📒 可以帮助你提高成功率:
你需要按照工具的提示填写一些标准化的表单,执行定向进化的计算任务。