平台文档 机器学习势训练集基本信息可视化 Kit: Training-Set-Parser

Jerry · 2025年10月26日 · 83 次阅读

✨ 新工具教程:使用流式解析器分析和可视化大型原子数据集!

大家好!

我们很高兴地宣布,我们的平台新增并优化了一款强大的工具——数据集分析与解析器Training-Set-Parser)。如果您经常处理来自 DFT 计算(如 VASP, ABACUS 等)的大型 extxyz 轨迹文件,并希望快速了解、清洗和可视化您的数据,那么这款工具就是为您量身定做的!

解决了什么痛点?

  • 需要根据原子受力快速筛选掉不合理的结构? ✅
  • 想直观了解数据集中元素分布、化学体系构成、能量/力范围等关键信息? ✅
  • 厌倦了手动编写脚本来解析和绘图? ✅

这款新工具采用了流式处理 (Streaming) 架构,可以直接读取大型 .extxyz 文件,逐帧进行分析和过滤

主要功能:

  • 读取多帧 .extxyz 文件。
  • 根据用户定义的最大原子作用力阈值过滤结构。
  • 将符合条件的结构(kept)和被移除的结构(removed)分别保存到新的 .xyz 文件中。
  • 生成一份详细的 Markdown (report.md) 分析报告,包含:
    • 过滤统计总结
    • 元素分布周期表热力图 & 统计表
    • 元素体系组合分析(哪些元素组合一起出现,如 C-H, Si-O-N 等)的条形图 & 统计表
    • 元素共现热力图(哪些元素对倾向于一起出现)
    • 原子参考能量 (E0) 分析(如果数据允许)
    • 能量、力、结构尺寸、体积的分布图和统计数据

🚀 如何使用?

使用起来非常简单:

  1. 找到工具:在平台的工具列表中,搜索 "Training-Set-Parser" 或类似关键词,找到 Training-Set-Parser

  2. 配置参数

    • extxyz_file_path (输入文件路径):指定您要分析的多帧 .extxyz 文件的路径。请确保文件包含原子坐标,最好也包含通过 atoms.calc.results 存储的能量 (energy) 和力 (forces) 信息。理论上所有和 ASE 兼容的文件格式均可读取其中的多帧结构文件,但是如果没有 Cell 或者 DFT label 的话将跳过这些缺失的信息分析。
    • max_force_threshold (最大力阈值):设置一个数值(单位:eV/Å)。任何原子上的力的大小 (magnitude) 如果超过这个值,该结构将被视为异常点并被移除。
      • 建议值:根据您的需求选择。例如,如果您只关心接近平衡态的结构,可以使用较小的值(如 1-5 eV/Å)。如果您需要包含一些弛豫过程中的高力结构,可以使用较大的值(如 20-50 eV/Å,甚至更高,但最好不要超过100 eV/A)。

  1. 运行任务:点击“运行”或“提交”按钮。

📊 理解输出结果

任务完成后,您将在工作目录中找到以下文件:

  1. kept_structures.xyz:
    • 包含所有通过了力阈值过滤的原子结构。
    • 这是您进行后续分析或机器学习模型训练的“干净”数据集。
  2. removed_structures.xyz:

    • 包含所有因为力超过阈值而被移除的原子结构。
    • 检查此文件有助于了解哪些类型的结构被过滤掉了。
  3. report.md (核心分析报告):

    • 这是一份 Markdown 格式的报告,您可以在平台内预览或下载后用 Markdown 查看器打开。
    • 第 0 节:过滤总结: 显示读取了多少帧,保留了多少,移除了多少,以及过滤的标准。
    • 第 1 节:元素分布:
      • 周期表热力图: 直观展示数据集中各元素的原子总数(对数色标)。
      • 元素计数表: 精确列出每种元素的原子总数。

* 第 2 节:元素体系与共现分析:

* 2.1 元素体系组合: 显示数据集中存在哪些独特的元素组合(例如 "C", "Si-O", "Fe-C-O"),以及包含这些组合的结构数量。有助于了解数据集的化学复杂性(单元、二元、三元体系等)。包含一个条形图(显示最常见的体系)和一个完整表格

* 2.2 元素共现热力图: 显示元素对(例如 C 和 H)在同一个结构中共同出现的频率。颜色越亮表示共现次数越多(使用对数色标)。有助于发现化学上常见的元素搭配。

* 第 3 节:原子参考能量 (E0) 分析: (如果计算成功) 显示通过线性拟合计算出的、数据集中每个元素的平均能量贡献 (E0)。这些值用于计算后续的相对能量。

* 第 4 节:能量分布: 显示保留结构的单位原子能量分布(可能是绝对能量或基于 E0 计算的相对能量)。包含直方图/密度图和统计摘要(均值、标准差、最小值、最大值等)。

* 第 5 节:力分布: 显示保留结构所有原子的力的大小的分布。注意:这是过滤 之后 的力分布。包含直方图/密度图和统计摘要。

* 第 6 节:结构尺寸与体积: * 6.1 原子数分布: 显示每个结构包含多少个原子。

* 6.2 晶胞体积分布: (仅针对周期性结构)显示晶胞体积的分布。


###💡 使用场景示例

假设您从某个数据库下载了一个大型 .extxyz 轨迹文件,用于训练机器学习原子间势 (MLIP)。

  1. 您可以使用此工具,设置一个合适的 max_force_threshold(例如 30 eV/Å),快速移除弛豫过程中可能出现的极端高力结构,这些结构可能对 MLIP 训练不利。
  2. 运行后,您可以查看 report.md
    • 检查元素分布,确认数据集是否包含了您关心的所有元素,以及它们的比例是否合理。
    • 查看元素体系组合,了解您的数据集主要是二元合金还是复杂的多元化合物。
    • 查看能量和力分布,了解清理后数据集的能量范围和主要的力学状态,这对于设置 MLIP 的训练参数很有帮助。
  3. 使用生成的 kept_structures.xyz 文件作为您 MLIP 训练或进一步筛选(如主动学习)的输入。

###📌 注意事项

  • 大型文件处理:由于是流式处理,工具可以处理非常大的文件。但在开始处理前,工具会尝试计数总帧数以显示准确的进度条,这对于超大文件可能需要一些时间。如果计数失败,处理仍会进行,只是进度条可能不显示总数。
  • 解读图表:请注意图表的坐标轴(例如对数刻度 vs 线性刻度)和统计摘要,以准确理解数据的特征。
  • 阈值选择max_force_threshold 的选择对结果影响很大,请根据您的具体研究目标(例如,是关注平衡态性质还是包含动力学过程)来设定。

我们希望这款增强的工具能极大地简化您处理和理解大型原子数据集的工作流程!欢迎试用并向我们提供宝贵的反馈!

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请 注册新账号