现代社会中催化是不可避免的。催化表面的精细结构对结构敏感反应具有显着影响。高通量(HT)筛选和机器学习(ML)被认为可以有效探索这些效应的潜在规律并加速催化剂的开发。然而,报道的机器学习框架过于粗糙,无法精确预测催化性能。
目前常用的两种转换方法是描述符和图。然而,描述符的构建通常会忽略原子连接,这使得机器学习模型很难捕获与催化性能最相关的详细几何信息。基于图的机器学习模型在更新节点的过程中不可避免地会丢失吸附位点的几何排列信息,而消息传递神经网络的复杂性导致其对电子或几何结构不敏感,可解释性差。因此,仍然缺乏可解释的机器学习框架,可以同时捕获多相催化中电子和几何精细结构的特征。
最近,中国浙江大学王勇教授领导的研究团队创建了一个名为GLCNN的数据增强卷积神经网络(CNN)机器学习框架,它结合了“全局+局部”的特征。该框架可以通过将催化表面和吸附位点分别转换为二维网格和一维描述符,无需复杂的编码方法即可捕获原始精细结构。数据增强(DA)的加入可以扩展数据集,缓解化学数据集不足造成的过拟合。GLCNN 框架准确预测并区分了 OH 在一组类似的碳基过渡金属单原子催化剂 (TMSAC) 上的吸附能,平均绝对误差 (MAE) 小于 0.1 eV,对迄今为止在大型数据集上训练的流行模型的最佳结果进行排名。结果发表于 中国催化学报(DOI:10.1016/S1872-2067(23)64467-5)。
将 GLCNN 与基于描述符或基于图的模型进行比较,发现比较模型无法准确预测含有 IB 和 IIB 过渡金属或顺式/反式构型的催化剂的 OH 吸附能。GLCNN模型的预测性能明显优于对比模型,表明网格和描述符的结合可以更好地反映催化活性中心的电子和精细几何信息。
与传统的 CNN 和基于描述符的单侧特征提取不同,这种精细结构敏感的 ML 框架可以通过无偏的可解释性,从几何和化学/电子特征(例如对称性和配位元素)中提取影响催化性能的关键因素。分析。对描述符部分的特征重要性分析表明,吸附位点的电子结构和对称性元素至关重要,且金属的重要性强于其配位环境。对各层的可视化分析表明,GLCNN能够自动提取符合人类直觉的化学结构的几何信息。随着层数的加深,GLCNN逐渐寻求基于基础催化知识的特征提取方向,提取更抽象的高维特征,有利于吸附能预测。该框架为具有广阔物理和化学空间的多相催化剂的高精度高温筛选提供了可行的解决方案。