首页> 中文期刊> 《计算机应用》 >图结构表示下的药物数据增强方法

图结构表示下的药物数据增强方法

         

摘要

小样本数据会导致机器学习模型出现过拟合问题,而药物研发中的数据往往都具有小样本特性,这极大地限制了机器学习技术在该领域的应用。针对上述问题,提出了图结构下的药物数据增强方法。所提方法通过对样本微扰生成新的相似样本,以扩充数据集。所提方法包含4个子方法,分别是:基于分子骨干的节点丢弃法、基于分子骨干的边丢弃法、多样本拼接法以及混合策略法。其中,基于分子骨干的节点丢弃和边丢弃法通过少量删减药物分子的组成与结构完成对药物分子的微扰;多样本拼接法则使用一种增添性操作,通过组合不同分子完成微扰;混合策略法按一定比例配比删减性和增添性操作提升数据增强结果的多样性。在公开数据集BACE、BBBP、ToxCast和ClinTox上,所提方法为药物属性预测基线模型MG-BERT(Molecular Graph Bidirectional Encoder Representations from Transformer)的受试者工作特征曲线下面积(AUC)带来了1.94%~12.49%的提升。实验结果验证了所提方法在小样本药物数据增强上的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号