Lin_Xiaohan (核心已转储)

蛋白定向进化 Agent 教学贴｜攀登蛋白 activity 的高峰 ⛰️

Lin_Xiaohan — Mon, 14 Jul 2025 07:50:14 +0000

1. 引子｜什么是蛋白的定向进化

蛋白质定向进化（Directed Evolution）是一种模拟自然选择过程、在实验室中快速优化蛋白质功能的工程策略，其基本原理是通过引入突变（如误配引物扩增、错误复制或体外突变库构建）和高通量筛选或选择，迭代获得具有期望性质（如更高活性、更强稳定性或新功能）的突变体。该方法无需对蛋白质结构或机制有详细了解，因而在蛋白质工程中广泛应用，尤其适用于酶活性优化、底物特异性重编程、生物合成通路设计以及基因编辑工具（如 Cas 蛋白）的改造等领域。定向进化的概念最早可追溯至 20 世纪 90 年代，Frances Arnold 是该领域的先驱之一，她因系统发展并应用这一技术于工业酶工程而获得 2018 年诺贝尔化学奖，标志着定向进化在现代生物技术中的核心地位。

然而在庞大的蛋白序列空间中做随机突变的探索方式效率较低，因此定向进化往往依赖于高通量的实验技术，以及一点点运气🍀。随着蛋白质预训练模型的发展，越来越多的研究者开始意识到预训练的蛋白模型可以在定向进化中发挥强大的引导作用，缩小搜索的序列空间，使定向进化真正“定向”。发表在 Science 上的 EVOLVEpro 是机器学习辅助的蛋白定向进化（Machine Learning Directed Evolution, MLDE）中的标志性工作。在蛋白语言模型（如 ESM 系列）的基础上，它采用了一种非常朴素的少样本学习（few-shot learning）思路，具体流程如下：

图 1：EVOLVEpro 的原理图示

输入测得的少样本数据（蛋白序列 - 实验活性对）
获取对应序列的 ESM embedding
用 ESM embedding 和实验活性的数据训练一个非常简单的回归器（如随机森林）
用回归器预测所有候选序列（通常是对某一条序列做饱和单突变、或特定条件的单突变）的活性
根据预测得到的活性数据排序，获取“最有希望”的若干突变体
进行下一轮实验，重复上述流程直到蛋白的活性令人满意

看上去有点复杂，没关系，我们在 In-Silico Directed Evolution Agent 中实现了这一完整流程，现在一切都变得非常简单🫰。

2. 实例｜在对话中实现蛋白的定向进化

Step 1：选择定向进化 Agent 开始对话
Step 2：上传你的“少样本”实验数据那么 Agent 能识别哪些格式的实验数据呢？
- 理论上任何格式的实验数据都能识别，我们给 Agent 配备了非常灵活的文件识别系统，但是复杂的文件格式（如 .xlsx）和复杂的文件内容会十分考验 Agent 的能力，使 Agent 表现不佳
- 我们推荐使用可读的文本格式（如 .txt，.csv）作为输入
- 我们推荐文件中的数据内容按照如下的标准格式组织，其中 seq_name; sequence; property 为表头行，表头行以下每一行包含一条序列数据，分别是序列名、序列以及测得的蛋白数据

seq_name; sequence; property
WT; AAAAAAAAA...; 1.0
A2V; AVAAAAAAA...; 1.5
...

Step 3：Agent 会解读你上传的实验数据格式，并整理成上面所述的标准格式（所以如果上一步所上传的格式不标准其实也没有关系，但如果过于复杂 Agent 有概率会理解不了）可以看到在这一步里面实验数据已经被总结成了标准格式同时 Agent 会把实验数据中所有涉及到的序列总结成 FASTA 文件，以供后续推理使用
Step 4：生成候选突变体这时候你需要与 Agent 交流下一轮候选的突变体。你可以指定一条序列，对其进行饱和单突变（生成其所有可能的单突变体），或者也可以像这里这样，对突变的位置、氨基酸类型有一些要求：在这个例子中，我要求 Agent 给我生成满足如下条件的所有单突变体：突变前的残基是 L，突变后的残基是 P。当然，你也可以对突变的残基序号有一些要求。最后 Agent 会生成一个包含所有候选序列的 FASTA 文件。注意：这一步只会生成基础序列的单突变体，如果有其他特殊需求，你也可以直接上传候选序列的 FASTA 文件。
Step 5：获取蛋白序列的 embedding 在这一步中，Agent 会调用蛋白预训练模型对之前得到的两个 FASTA 文件进行推理，获取对应的蛋白 embedding。这一步会消耗一些 GPU 资源，占用一部分推理时间，请耐心等待⏳
Step 6：训练与预测接下来 Agent 会根据实验数据和数据中序列的 embedding 训练一个回归模型并使用训练好的回归器对候选突变体池中的所有序列进行预测预测后 Agent 会输出一个 .csv 文件，里面按照预测的结果对所有的候选突变体进行了排序。这样我们就可以根据模型的预测结果挑选下一轮用于实验的突变体了！

3 总结｜实用且简单的定向进化工具

本文总结了用 定向进化 Agent 利用蛋白预训练模型对蛋白进行机器学习辅助的定向进化的流程。AI 有可能犯蠢，以下这些 Tips 📒 可以帮助你提高成功率：

重开：遇事不决可以重开一个对话，Agent 作为概率模型，一切都是命运的选择 🙏
整理格式：虽然我们发展 Agent 的目的是为了更大的灵活性，是希望它能处理一切脏活和累活，但是必须要承认的是，它现在还有点笨，很多时候它无法理解、处理过于复杂的信息，所以如果你的输入能够处理成 Agent 更熟悉的格式（比如结构化的文本内容），会有助于它更好地完成任务
使用工具：如果智能体太笨了，无法调教成功，也可以从以下接口进入直接使用配制好的定向进化工具你需要按照工具的提示填写一些标准化的表单，执行定向进化的计算任务。

DSDP Agent 教学贴｜分子对接比你想象的更简单 🤖

Lin_Xiaohan — Fri, 25 Apr 2025 02:54:21 +0000

1. 引子｜什么是分子对接

分子对接（Molecular Docking）是一种计算模拟技术，用于预测两个分子（通常是一个小分子配体与一个大分子受体，例如蛋白质）之间的结合方式和结合强度。它在药物发现、分子识别机制研究和蛋白质工程等领域有广泛应用。本文将聚焦分子对接的一个最常见的应用场景：蛋白和小分子的对接（Protein-Ligand Docking）。

简而言之，分子对接试图回答两个核心问题：

蛋白和小分子是否能够结合？结合强度是多少？（Affinity 预测问题）
它们是怎么结合的，以什么样的结合姿态（Pose）结合？（Pose 采样问题）

图 1：蛋白和小分子对接图示，图片来自于 wiki

除去现在愈发火热的 AI 分子对接方法，传统的分子对接方法，包括 AutoDock Vina、Glide、Gnina、DSDP 其背后的思想都大差不差：

定义一套力场（能量函数）；
定义采样算法，在能量函数下做采样；
定义打分函数（可以与力场相同或不同），对采样得到的构象进行排序。

在平台上集成的 Deep Site Docking Pose (DSDP, J. Chem. Inf. Model. 2023, 63, 14, 4355–4363) 是一款 GPU 加速的分子对接软件，通过结合传统分子对接和机器学习技术，预测蛋白质结合位点并优化搜索策略及初始位置，在 GPU 加速下显著提升了对接效率（1.秒/系统）和成功率，在虚拟筛选中综合性能优于主流工具。

2. 简介｜分子对接的基本类型和步骤

2.1 分子对接的基本类型

常见的实用分子对接类型包括：

刚性对接（Rigid Docking）：受体蛋白被看作是刚体。
柔性对接（Flexible Docking）：受体蛋白的部分侧链的部分自由度可以在对接过程中发生变化。
共价对接（Covalent Docking）：受体蛋白和小分子共价结合。

如果按照使用场景来分，分子对接又可以分为：

重对接（Redocking）：受体蛋白的“口袋”（Binding Pocket）已知。
盲对接（Blind Docking）：受体蛋白的口袋未知，需要预测。

2.2 分子对接的基本步骤

预处理：获取并预处理配体和受体的 3D 结构（去水、加氢等）。这一步我们通常会使用一些常见的计算化学工具，比如 OpenBabel。.pdbqt 是一种常见的用于分子对接的文件格式（Vina、Gnina、DSDP 都支持）。最终我们要将预处理好的文件转化为 .pdbqt 格式。
定义对接位点：定义受体的口袋区域。在重对接模式中，受体的口袋是已知的（通常通过已知配体的位置推断），可以直接以 [x_{min}, x_{max}], [y_{min}, y_{max}], [z_{min}, z_{max}] 的立方体区域形式作为参数传入。而在盲对接模式中，受体的口袋未知，需要对接模型做预测。
设置对接参数并运行对接程序：选择合适的对接软件进行对接模拟。
结果分析与筛选：根据打分函数评估结合能，挑选潜在的结合构象。
图 2：DSDP 的 workflow，图片来自于 J. Chem. Inf. Model. 2023, 63, 14, 4355–4363

看上去有点复杂，没关系，在 DSDP Agent 的帮助下，一切都变得很简单。

3. 实例｜用 DSDP Agent 运行重对接

Step 1：选择 DSDP Agent 开始对话
Step 2：直接问他“帮我重对接一下 PDB: 6B8Y 中的蛋白和小分子” Agent 自动下载 6B8Y 的 PDB 文件，并开始解析 PDB 中包含的实体，它发现里面有一个蛋白链和一个叫做 D0A 的小分子同时它也会告诉你下一步的计划
Step2：预处理 Agent 根据 Step1 中的分析，提取 6B8Y 中的蛋白和小分子接着他会自动搜索 OpenBabel 的知识库，根据搜索到的结果执行 OpenBabel 的命令对蛋白和小分子文件加氢，并转化成 .pdbqt 文件在这个过程中，你只要一直说“继续”就行，当然如果你发现它执行的命令不对🙅，也可以及时制止它。
Step3：定位口袋在这个例子里，Agent 会根据 D0A 配体原本在复合物中的位置附近形成一个立方体形状的对接框（当然你也可以自己告诉他对接框在哪里，比如直接跟他说对接框在 x: [-10,10], y: [-10,10], z: [-10,10]）在这里 Agent 找到的对接框是
Step4：对接这时候 Agent 已经做好了对接的所有准备，可以开始对接了！在可视化界面里你就可以看到对接以后的结构，和 6B8Y 中实验解析得到的复合物的结构还是非常接近的，你也可以查看对接的分数这里输出的是对接得到的结合自由能打分（越低 Affinity 越高），-12 对应一个很高的 Affinity。

在这里你可以看到完整的对话。

4 示例｜用 DSDP Agent 运行盲对接

在一些应用场景里，我们不知道靶点蛋白的口袋在哪里，这时候我们需要运行盲对接，比如我们可以上传一个蛋白 .pdb 文件和小分子的 .pdb 文件，我们还是采用上面的例子，

Step1：预处理这时候他大概率会解析你上传的蛋白和小分子的 .pdb 文件，确保里面是干净的，防止出错，如果你确认 .pdb 文件是干净的，也可以直接跟他说跳过实体解析，直接开始做预处理，例如 Agent 就会直接开始预处理操作，或给出它的行动计划
Step2：找口袋按照 Agent 的计划，下一步是找口袋，执行成功后，你也可以在可视化空间中看到口袋的位置（导入原本蛋白的 .pdb. 文件，和 pocket 的 .mol2 文件）
Step3：对接接下来就可以对接了！对接结果也一样很好

在这里你可以看到完整的对话。

5 示例｜用 DSDP Agent 运行批量对接（beta）

⚠️：功能测试中，可能不稳定在虚拟筛选中，我们需要针对同一个靶点，对接一批小分子，DSDP Agent 也支持这个功能，比如我们可以直接这么问

Step1：预处理因为这时候我们给的小分子是 SMILES 格式，所以它搜索 OpenBabel 的知识库以后做出了如下决策
Step2：对接在执行批量重对接之前，需要给一个 ligand list，这时候 DSDP Agent 会自己写一个然后执行一个对接可以看到这一批小分子的对接结构也可以查看每个小分子的对接分数（当然因为是随机选的 SMILES，Affinity 都很低）

在这里你可以看到完整的对话。

6 总结｜分子对接和聊天一样简单

本文总结了用 DSDP Agent 执行各种分子对接的方法。AI 有可能犯蠢，以下这些 Tips 📒 可以帮助你提高成功率

重开：遇事不决可以重开一个对话，Agent 作为概率模型，都是命运的选择 🙏
分步：对于有一些对接知识的用户来说，可以给他更细致的指引，分步提示
告诉他文件在哪：Agent 经常会“灾难性遗忘”，他有时候会忘记一些文件存在哪，这时候你可以提醒它一下
深度思考（可能会有用）：你告诉 Agent“深入思考一下 xxx 问题”会触发 Agent 的深度思考，有概率可以解决 bug

Lin_Xiaohan (核心已转储)

蛋白定向进化 Agent 教学贴 ｜ 攀登蛋白 activity 的高峰 ⛰️

1. 引子｜什么是蛋白的定向进化

2. 实例 ｜ 在对话中实现蛋白的定向进化

3 总结 ｜ 实用且简单的定向进化工具

DSDP Agent 教学贴｜分子对接比你想象的更简单 🤖

1. 引子｜什么是分子对接

2. 简介｜分子对接的基本类型和步骤

2.1 分子对接的基本类型

2.2 分子对接的基本步骤

3. 实例｜用 DSDP Agent 运行重对接

4 示例 ｜ 用 DSDP Agent 运行盲对接

5 示例 ｜ 用 DSDP Agent 运行批量对接（beta）

6 总结 ｜ 分子对接和聊天一样简单

蛋白定向进化 Agent 教学贴｜攀登蛋白 activity 的高峰 ⛰️

2. 实例｜在对话中实现蛋白的定向进化

3 总结｜实用且简单的定向进化工具

4 示例｜用 DSDP Agent 运行盲对接

5 示例｜用 DSDP Agent 运行批量对接（beta）

6 总结｜分子对接和聊天一样简单