主要使用Matminer这个特征转换器和Pymatgen进行前处理 再放入Scikit-Learn等框架中运行具体的算法。
数据检索与过滤操作 根据实验设计的需要 通过各种方式获得所需数据 例如原子半径、带隙、化合价, 并整理成表格形式 CSV JSON... 然后用Python转换为Dataframe格式方便进行后续处理。
工具 Python - Pandas, Matminer...
作用 获得想要研究的数据
机器学习生成描述符操作
$$
f(Fe_2O_3)rightarrow[1,2,3,4]
$$
举个例子
from matminer.featurizers.compostion import ElementFraction ef ElementFraction() element_franctions ef.featurize(df, composition )
就可以将搜集好的数据表中的composition 一般要写成Fe2 O3 这种形式 可以用pymatgen的Conversion库转化。
查看具体输出了什么特征
from matminer.featurizers.structure import DensityFeatures densityf DensityFeatures() print(densityf.feature_labels())
相关的链接 Matminer特征库
工具: Matminer里的各种Featurizer
作用 将机器难以识别的参数转化为可识别的向量输出。
处理错误通常 数据是混乱的 某些特性化者会遇到错误。在 featurize _ dataframe() 中设置ignore_errors True 以跳过错误 如果您希望在附加列中看到返回的错误 也可以将return_errors 设置为True。
机器学习模型选择目前的状况 有了数据 特征 就可以找合适的模型进行训练数据集了。
数据整理、划分数据集、输入模型、评估结果、对模型进行物理或化学上的解释。



