首页> 中国专利> 一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法及装置

一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法及装置

摘要

一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法及装置,涉及过渡金属硫化物性能预测领域,用以解决不同的机器学习模型由于没有选择合适的特征而影响层状材料的性能预测精度的问题。本发明技术要点包括将材料属性电负性、第一电离势和原子半径作为预测带隙和能带结构的特征向量,并按照原子属性和结构属性设计多种特征组合;根据不同机器学习模型在多种特征组合中挑选对应的最优特征组合;将最优特征组合输入其对应的机器学习模型进行模型训练,分别获取带隙预测模型和能带结构预测模型;根据带隙预测模型和能带结构预测模型对未知的二维过渡金属硫化物带隙和能带结构进行预测。本发明可用于进一步研究层状材料性能参数的预测。

著录项

  • 公开/公告号CN112802563A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 哈尔滨理工大学;

    申请/专利号CN202110067791.X

  • 发明设计人 刘勃;李述;田晓华;

    申请日2021-01-19

  • 分类号G16C60/00(20190101);G06N20/00(20190101);G06N20/10(20190101);

  • 代理机构23217 黑龙江立超同创知识产权代理有限责任公司;

  • 代理人杨立超

  • 地址 150080 黑龙江省哈尔滨市南岗区学府路52号

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明涉及过渡金属硫化物性能预测领域,具体涉及一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法及装置。

背景技术

随着石墨烯的发现,二维材料由于其独特的结构和优异的性能在能源存储和转化等领域均表现出良好的应用前景,已成为材料学领域备受关注的材料之一。特别是过渡金属硫化物(TMDC),相比于传统的半导体异质结构,由二维材料组成的范德华异质结构无需满足界面处晶格匹配的要求,且制备方法简单,是研究异质结激子态行为的理想体系。这种层状材料也具有诸多优良的特性,如良好的机械柔韧性和热稳定性,已被证明是下一代光电和热电器件的有价值的候选材料。

由于新型的层状材料的制备对资源和设备的要求很高,利用实验寻找层状材料的性能参数会耗费极大的人力物力。随着计算机技术的发展,第一性原理计算成为了获得材料理论性能参数的新途径。然而,使用标准密度泛函理论(DFT)来计算每个异质结构的电子特性所需的计算时间随着电子数的增加而迅速增加,利用这种方法获得材料参数耗时过长。但大规模的第一性原理计算和实验研究已经得到了可靠数据,这使基于机器学习的层状材料性能预测成为了可能。

文献1利用高斯过程回归模型对层状材料的带隙和能带结构进行了预测,但是,不同模型对材料数据的敏感度不同,且模型精度与模型选择的特征组合密切相关,因此,对于不同的特征组合,高斯过程回归模型并不能对过渡金属硫化物性能进行很好的预测。

发明内容

鉴于以上问题,本发明提出一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法,用以解决不同的机器学习模型由于没有选择合适的特征而影响层状材料的性能预测精度的问题。

根据本发明一方面,提出一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法,该方法包括以下步骤,

步骤一、获取由过渡金属和硫族化物构成的三层材料数据训练集;

步骤二、将材料属性电负性、第一电离势和原子半径作为预测带隙和能带结构的特征向量,并按照原子属性和结构属性设计多种特征组合;

步骤三、根据不同的机器学习模型在多种特征组合中挑选对应的最优特征组合;

步骤四、将不同的最优特征组合输入其对应的机器学习模型进行模型训练,分别获取带隙预测模型和能带结构预测模型;

步骤五、根据训练好的带隙预测模型和能带结构预测模型对未知的二维过渡金属硫化物带隙和能带结构进行预测,预测获得由过渡金属和硫族化物构成的三层材料的性能参数。

进一步地,步骤一中所述材料层间由弱范德华键连接。

进一步地,步骤三中所述机器学习模型包括随机森林、支持向量回归和核岭回归。

进一步地,步骤三中所述对应的最优特征组合包括,对应于随机森林模型的最优特征组合为:电负性用于最外层中的所有原子种类且原子半径用于中间层;对应于支持向量回归模型的最优特征组合为:1)用于预测带隙的特征组合为:原子半径用于过渡金属且第一电离势用于硫族元素,2)用于预测能带结构的特征组合为:第一电离势用于过渡金属且电负性用于硫族元素;对应于核岭回归模型的最优特征组合为:原子半径用于过渡金属且电负性用于硫族元素。

进一步地,步骤三中利用平均绝对误差(MAE)对多种特征组合对应不同机器学习模型的带隙和能带结构预测进行评估,其中,平均绝对误差(MAE)的计算公式为:

式中,f(x

进一步地,步骤四中利用交叉验证和贝叶斯优化对模型的超参数进行调整。

根据本发明另一方面,提出一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测装置,该装置包括:

获取单元,用于获取由过渡金属和硫族化物构成的三层材料数据训练集;其中,所述材料层间由弱范德华键连接;

特征组合单元,用于将材料属性电负性、第一电离势和原子半径作为预测带隙和能带结构的特征向量,并按照原子属性和结构属性设计多种特征组合;

特征选择单元,用于根据不同的机器学习模型在多种特征组合中挑选对应的最优特征组合;

模型训练单元,用于将不同的最优特征组合输入其对应的机器学习模型进行模型训练,分别获取带隙预测模型和能带结构预测模型;

性能预测单元,用于根据训练好的带隙预测模型和能带结构预测模型对未知的二维过渡金属硫化物带隙和能带结构进行预测,预测获得由过渡金属和硫族化物构成的三层材料的性能参数。

进一步地,所述特征选择单元中所述机器学习模型包括随机森林、支持向量回归和核岭回归;所述对应的最优特征组合包括,对应于随机森林模型的最优特征组合为:电负性用于最外层中的所有原子种类且原子半径用于中间层;对应于支持向量回归模型的最优特征组合为:1)用于预测带隙的特征组合为:原子半径用于过渡金属且第一电离势用于硫族元素,2)用于预测能带结构的特征组合为:第一电离势用于过渡金属且电负性用于硫族元素;对应于核岭回归模型的最优特征组合为:原子半径用于过渡金属且电负性用于硫族元素。

进一步地,所述特征选择单元中利用平均绝对误差(MAE)对多种特征组合对应不同机器学习模型的带隙和能带结构预测进行评估,其中,平均绝对误差(MAE)的计算公式为:

式中,f(x

进一步地,所述模型训练单元中利用交叉验证和贝叶斯优化对模型的超参数进行调整。

本发明的有益技术效果是:

本发明基于多种特征组合针对三种机器学习模型即随机森林、支持向量回归、核岭回归进行特征选择,获得每种模型对应的最优特征组合,然后对二维过渡金属硫化物数据建立带隙和能带结构预测模型,实验结果表明,在预测材料性能时,不同的机器学习算法应当选择其最适合的特征组合,特征组合影响机器学习算法的预测精度,本发明所采用的三种机器学习模型都可以对层状材料的带隙和能带结构进行较好的预测,获得良好的预测效果。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。

图1是本发明方法的示意性流程图;

图2是本发明中所采用的三层异质材料结构示意图;

图3是本发明中基于KRR模型的带隙预测效果图;

图4是本发明中基于RFR模型的带隙预测效果图;

图5是本发明中基于SVR-RBF模型的带隙预测效果图;

图6是本发明中基于KRR模型的能带结构预测效果图;

图7是本发明中基于RFR模型的能带结构预测效果图;

图8是本发明中基于SVR-RBF模型的能带结构预测效果图;

图9是本发明装置的示意性结构图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。

基于三层异质结构数据,本发明首先讨论了不同的机器学习算法在预测层状材料性能时的特征选取问题;其次,分别采用随机森林(RFR)、支持向量回归(SVR)、核岭回归(KRR)三种机器学习算法对层状材料的带隙和能带结构进行了预测。本发明对进一步研究层状材料性能参数预测具有一定的参考价值和实用意义。

如图1所示,一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法包括以下步骤,步骤一、获取由过渡金属和硫族化物构成的三层材料数据训练集;步骤二、将材料属性电负性、第一电离势和原子半径作为预测带隙和能带结构的特征向量,并按照原子属性和结构属性设计多种特征组合;步骤三、根据不同的机器学习模型在多种特征组合中挑选对应的最优特征组合;步骤四、将不同的最优特征组合输入其对应的机器学习模型进行模型训练,分别获取带隙预测模型和能带结构预测模型;步骤五、根据训练好的带隙预测模型和能带结构预测模型对未知的二维过渡金属硫化物带隙和能带结构进行预测,预测获得由过渡金属和硫族化物构成的三层材料的性能参数。

具体实施例一:特征选择

本发明利用文献1中经过Materials project平台计算获得的三层材料数据集,该材料由过渡金属(Mo,W)和硫族化物(S,Se,Te)构成,其层间由弱范德华键连接,这种性质允许不同种类的过渡金属硫化物(TMDC)堆叠,从而能够形成无限的多层组合。然而应当注意的是,层间的相互作用仍然相当大,足以对电子行为产生强烈的影响。因此,多层异质结构的电子性质随总层数、特定层序和每一层的组成而变化。以Mo(WSe3)2为例,该三层异质材料结构为{WSe2-WSe2-MoSe2},第一层物质为WSe2,第二层物质为WSe2,第三层物质为MoSe2,如图2所示。

研究表明,当使用原子序数、电负性(EN)、晶格常数、原子量、熔化温度、周期表中的行和列、价态、原子半径(AR)、第一电离势(IP)、带隙、磁矩,空间群数等元素属性预测材料性能时,可以捕捉到非常多样的物理或化学特性,为许多的材料问题创建更精确的模型。其中专门用于带隙预测的属性有:EN、IP、AR、原子序数、原子量、周期表中的周期、价态、熔化温度和晶格常数。

其中,熔化温度,磁矩与带隙预测无关,而价态、元素周期表中的位置和空间群在本发明使用的元素(Mo,W,S,Se,Te)中过于相似,无法用于区分物质;原子质量、原子序数和AR是元素之间高度相关的属性,因此使用简单的AR来表示元素的大小;最后,EN和IP在预测带隙方面具有高度相关的属性,因为它们分别与价带和导带相关,进而确定了带隙。因此,本发明中将EN、IP和AR作为预测带隙和能带结构的特征向量,并利用EN、IP、AR三种材料属性,按照原子属性(过渡金属,硫族元素)和结构属性(层数相关)给出了19种特征组合,如表1所示。

表1

说明:表1中的特征组合8“{Mo,W}=EN;{S,Se,Te}=IP”表示EN用于过渡金属,IP用于硫族元素;特征组合14“{Layer 1,Layer 3}=IP;Layer2=EN”表示IP用于最外层(第1层和第3层)中的所有原子种类,而EN用于中间层(第2层)。

为了找出RFR,SVR-RBF,KRR三种机器学习算法分别对应的最优特征组合,利用平均绝对误差(MAE)给出了上述19种特征组合对应的带隙和能带结构预测的评估结果。这里:

其中,f(x

带隙数据的特征组合评估结果见表2。

表2

从表2可以看出,利用带隙数据集选取特征组合13时,SVR-RBF的MAE最小;选取特征组合11时,KRR的MAE最小;对于RFR,以上特征组合的评估结果相差不大。

能带结构数据的特征组合评估结果见表3。

表3

从表3可以看出,利用能带结构数据集选取特征组合9时,SVR-RBF的MAE最小;选取特征组合11时,KRR的MAE最小;对于RFR,以上特征组合的评估结果相差不大。进一步利用随机森林算法(RFR)选取了高熵合金数据集(详见支撑材料)及UCI(机器学习公开数据库)上的Iris数据集对不同特征组合的特征重要性和分类效果进行评估,评估结果得出在RFR算法中,当特征组合中存在重要特征时,预测效果会大致相同。由于本发明使用的19种特征组合都包含重要特征(S,Se,Te的三种特征),因此在使用RFR算法时,呈现了评估结果大致相同的现象。因此,在使用RFR算法对带隙和能带结构进行预测时,可任取表2中的任意一组特征组合。

最终,本发明选取表1中的特征组合16作为RFR算法预测带隙和能带结构的特征组合;特征组合13和9分别作为SVR-RBF算法预测带隙和能带结构的特征组合;特征组合11作为KRR算法预测带隙和能带结构的特征组合。

具体实施例二:带隙预测

本实施例将带隙数据集分为60%的训练集(106个)和40%(71个)的测试集。基于训练集,利用交叉验证和贝叶斯优化分别对三种算法的超参数进行调整,其中SVR-RBF算法的参数选取分别为C=577.15,ε=0.1,γ=1.0;KRR算法的参数选取分别为α=0.1,γ=28.4789;RFR算法的参数选取分别为最大深度为25,树的棵数为40棵。使用上述参数能使3种机器学习算法在预测带隙时达到更高的精度。接下来对训练集进行训练,得到了三种机器学习算法的带隙预测模型。最后使用测试集对预测模型进行测试,利用根均方误差(RMSE)和决定性系数(R2)给出了3种算法对带隙预测的评估结果,这里:

其中,f(x

表4

根据表4可知,使用特征组合11的KRR算法的预测效果最好,并且略好于文献1中的高斯过程回归模型;SVR-RBF和RFR都适用于带隙预测。图3、图4、图5分别为三种算法对71个三层异质结构的带隙预测效果图。

具体实施例三:能带结构预测

在预测带隙的过程中,目标变量Y(带隙)是点,即预测带隙为点预测。而预测能带结构时,目标变量Y(能带结构)是曲线。因此可将能带结构曲线离散为60个离散点。将训练集中的所有能带结构曲线离散所得的第一个点作为一个数据集,用于建立预测能带结构图离散出的第一点的模型。同理,本发明共构建了60(30个导带底、30个价带顶)个预测模型用于预测能带结构曲线。在此,将能带结构数据集分为60%的训练集(59个)和40%(40个)的测试集。训练方法与训练带隙预测模型的方法相同,每个模型分别预测测试集中所有结构的目标变量(能带曲线中的离散点)。表5给出了不同算法对能带结构预测的评估结果。

表5

根据表5可知,针对能带结构预测,RFR对导带顶和价带底的预测效果比SVR-RBF和KRR算法好,预测效果虽略差于文献1中的高斯过程回归算法,但也可以用于预测三层异质结构材料的能带结构。图6、图7、图8为三种算法对能带结构的预测效果图。

本发明采用随机森林、支持向量回归、核岭回归3种方法,对二维过渡金属硫化物数据建立模型,模型的性能是通过比较测试集的RMSE,MSE和R2来衡量的。实验结果表明,在预测材料性能时,不同的机器学习算法应当选择其最适合的特征组合,特征组合影响机器学习算法的预测精度,其中,随机森林模型的特征选择与重要特征有关,含有重要特征时随机森林模型对不同特征组合敏感度不高;本发明所利用的三种机器学习模型即核岭回归、随机森林、支持向量回归都可以对层状材料的带隙进行预测,且核岭回归模型预测效果最好;随机森林与核岭回归算法可以很好的预测出能带结构曲线。

具体实施例四

本实施例提出一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测装置,如图9所示,该装置包括:

获取单元110,用于获取由过渡金属和硫族化物构成的三层材料数据训练集;其中,材料层间由弱范德华键连接;

特征组合单元120,用于将材料属性电负性、第一电离势和原子半径作为预测带隙和能带结构的特征向量,并按照原子属性和结构属性设计多种特征组合;

特征选择单元130,用于根据不同的机器学习模型在多种特征组合中挑选对应的最优特征组合;

模型训练单元140,用于将不同的最优特征组合输入其对应的机器学习模型进行模型训练,分别获取带隙预测模型和能带结构预测模型;

性能预测单元150,用于根据训练好的带隙预测模型和能带结构预测模型对未知的二维过渡金属硫化物带隙和能带结构进行预测,预测获得由过渡金属和硫族化物构成的三层材料的性能参数。

进一步地,特征选择单元130中机器学习模型包括随机森林、支持向量回归和核岭回归;对应的最优特征组合包括,对应于随机森林模型的最优特征组合为:电负性用于最外层中的所有原子种类且原子半径用于中间层;对应于支持向量回归模型的最优特征组合为:1)用于预测带隙的特征组合为:原子半径用于过渡金属且第一电离势用于硫族元素,2)用于预测能带结构的特征组合为:第一电离势用于过渡金属且电负性用于硫族元素;对应于核岭回归模型的最优特征组合为:原子半径用于过渡金属且电负性用于硫族元素。

进一步地,特征选择单元130中利用平均绝对误差(MAE)对多种特征组合对应不同机器学习模型的带隙和能带结构预测进行评估,其中,平均绝对误差(MAE)的计算公式为:

式中,f(x

进一步地,模型训练单元140中利用交叉验证和贝叶斯优化对模型的超参数进行调整。

本实施例所述一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测装置的功能可以由前述一种基于机器学习的二维过渡金属硫化物带隙和能带结构预测方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

本发明援引的文献如下:

1.BASSMAN L,RAJAK P,KALIA R K.Active learning for accelerated designof layered materials[J].npj Computational Materiral,2018,74(4).

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号