大家好!
我们很高兴地宣布,我们的平台新增并优化了一款强大的工具——数据集分析与解析器Training-Set-Parser)。如果您经常处理来自 DFT 计算(如 VASP, ABACUS 等)的大型 extxyz 轨迹文件,并希望快速了解、清洗和可视化您的数据,那么这款工具就是为您量身定做的!
解决了什么痛点?
这款新工具采用了流式处理 (Streaming) 架构,可以直接读取大型 .extxyz 文件,逐帧进行分析和过滤
主要功能:
.extxyz 文件。.xyz 文件中。report.md) 分析报告,包含:
使用起来非常简单:
找到工具:在平台的工具列表中,搜索 "Training-Set-Parser" 或类似关键词,找到 Training-Set-Parser。

配置参数:
extxyz_file_path (输入文件路径):指定您要分析的多帧 .extxyz 文件的路径。请确保文件包含原子坐标,最好也包含通过 atoms.calc.results 存储的能量 (energy) 和力 (forces) 信息。理论上所有和 ASE 兼容的文件格式均可读取其中的多帧结构文件,但是如果没有 Cell 或者 DFT label 的话将跳过这些缺失的信息分析。max_force_threshold (最大力阈值):设置一个数值(单位:eV/Å)。任何原子上的力的大小 (magnitude) 如果超过这个值,该结构将被视为异常点并被移除。

任务完成后,您将在工作目录中找到以下文件:
kept_structures.xyz:
removed_structures.xyz:
report.md (核心分析报告):

* 第 2 节:元素体系与共现分析:
* 2.1 元素体系组合: 显示数据集中存在哪些独特的元素组合(例如 "C", "Si-O", "Fe-C-O"),以及包含这些组合的结构数量。有助于了解数据集的化学复杂性(单元、二元、三元体系等)。包含一个条形图(显示最常见的体系)和一个完整表格。

* 2.2 元素共现热力图: 显示元素对(例如 C 和 H)在同一个结构中共同出现的频率。颜色越亮表示共现次数越多(使用对数色标)。有助于发现化学上常见的元素搭配。

* 第 3 节:原子参考能量 (E0) 分析: (如果计算成功) 显示通过线性拟合计算出的、数据集中每个元素的平均能量贡献 (E0)。这些值用于计算后续的相对能量。

* 第 4 节:能量分布: 显示保留结构的单位原子能量分布(可能是绝对能量或基于 E0 计算的相对能量)。包含直方图/密度图和统计摘要(均值、标准差、最小值、最大值等)。

* 第 5 节:力分布: 显示保留结构中所有原子的力的大小的分布。注意:这是过滤 之后 的力分布。包含直方图/密度图和统计摘要。

* 第 6 节:结构尺寸与体积: * 6.1 原子数分布: 显示每个结构包含多少个原子。

* 6.2 晶胞体积分布: (仅针对周期性结构)显示晶胞体积的分布。

###💡 使用场景示例
假设您从某个数据库下载了一个大型 .extxyz 轨迹文件,用于训练机器学习原子间势 (MLIP)。
max_force_threshold(例如 30 eV/Å),快速移除弛豫过程中可能出现的极端高力结构,这些结构可能对 MLIP 训练不利。report.md:
kept_structures.xyz 文件作为您 MLIP 训练或进一步筛选(如主动学习)的输入。###📌 注意事项
max_force_threshold 的选择对结果影响很大,请根据您的具体研究目标(例如,是关注平衡态性质还是包含动力学过程)来设定。我们希望这款增强的工具能极大地简化您处理和理解大型原子数据集的工作流程!欢迎试用并向我们提供宝贵的反馈!