首页> 中国专利> 药物实体对的相互作用关系检测模型构建方法和检测方法

药物实体对的相互作用关系检测模型构建方法和检测方法

摘要

本申请涉及一种药物实体对的相互作用关系检测模型构建方法、装置、电子装置和存储介质,以及药物实体对的相互作用关系检测方法、电子装置和存储介质,其中,该药物实体对的相互作用关系检测模型构建方法包括:获取原始药物文本集;确定原始药物文本集中的每个药物实体文本以及每个药物实体文本的标注信息;根据每个药物实体文本的标注信息,确定药物相关作用关系标签集;将每个药物实体文本作为输入,以及将每个药物实体文本的药物相互作用关系标签集作为输出,训练预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型。通过本申请,解决药物间相关作用关系检测准确率低的问题,提高药物间相关作用关系检测准确率低。

著录项

  • 公开/公告号CN112860816A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 三维通信股份有限公司;

    申请/专利号CN202110224038.7

  • 发明设计人 龚乐君;严军荣;

    申请日2021-03-01

  • 分类号G06F16/28(20190101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33250 杭州华进联浙知识产权代理有限公司;

  • 代理人龙伟

  • 地址 310000 浙江省杭州市滨江区火炬大道581号

  • 入库时间 2023-06-19 11:08:20

说明书

技术领域

本申请涉及医疗领域,特别是涉及药物实体对的相互作用关系检测模型构建方法、装置、电子装置和存储介质,以及药物实体对的相互作用关系检测方法、电子装置和存储介质。

背景技术

药物间的相互作用关系是在智慧医疗领域中一个比较重要的研究课题。药物间的相互作用(Drug-Drug Interaction,DDI)是指两种药物同时使用时,可能会使其中一种药物或是两种药物的作用效果增强或者减弱,或是可能会出现危害人体的情况。相互作用DDI关系在病人的有效救治以及健康管理上具有重要影响。因此,探寻药物间的相互作用关系成为了生物医学领域中又一个重大课题。

药物文本中药物间相互作用关系是智慧医疗下文本挖掘中的子任务,旨在从文本中提取药物并检测其具有相互作用的两个药物,即文本句子中的两个药物命名实体之间是否存在关系。当发现药物实体之间存在关系时,还需判断其关系所属类型。

目前药物间相互作用关系检测的研究主流的方法主要分为两类,一类是基于规则的方法,另一类是基于机器学习的方法。基于规则的方法在相互作用评测时被大量使用。这种方法的依据是具有相互作用关系的药物在描述时其语句通常具有相似的表达结构,将这些结构收集并加以编制规则,可以达到提取出有相互作用关系的药物对的目的。但是这个方法的缺点也很明显,制定规则的过程难度较大,且需要丰富的专业领域知识。并且人工制定的规则往往不能准确命中所有可能的描述模式,因此该方法的最终效果不是很理想,召回率较低,无法更好地满足如今的药物间相互作用关系检测任务需求。

目前针对相关技术中需要人工制定规则,而导致药物间相关作用关系检测的准确率低的问题,尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种药物实体对的相互作用关系检测模型构建方法、装置、电子装置和存储介质,以及药物实体对的相互作用关系检测方法、电子装置和存储介质,以至少解决相关技术中药物间相关作用关系检测的准确率低的问题。

第一方面,本申请实施例提供了一种药物实体对的相互作用关系检测模型构建方法,包括:

获取原始药物文本集;

确定所述原始药物文本集中的每个药物实体文本以及每个所述药物实体文本的标注信息;

根据每个所述药物实体文本的标注信息,确定药物相关作用关系标签集;

确定每个所述药物实体文本的词向量,并根据每个所述药物实体文本的词向量构建词向量字典,其中,所述词向量字典包括每个所述药物实体文本的词向量对应在所述词向量字典中的位置信息;

根据所述词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个所述药物实体文本作为输入,以及将每个所述药物实体文本的药物相互作用关系标签集作为输出,训练所述预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型。

在其中一些实施例中,获取原始药物文本集包括:

从预设数据库中获取多个药物文本,其中,所述预设数据库包括以下至少之一:DrugBank数据库和Drugs@FDA数据库;

将多个所述药物文本作为所述药物文本集。

在其中一些实施例中,确定所述原始药物文本集中的每个药物实体文本以及每个所述药物实体文本的标注信息包括:

通过预设CRF模型检测所述原始药物文本集,得到所述原始药物文本集中的每个药物实体文本;

根据每个所述药物实体文本,提取与每个所述药物实体文本对应的标注信息。

在其中一些实施例中,在确定每个所述药物实体文本的词向量,并根据每个所述药物实体文本的词向量构建词向量字典,其中,所述词向量字典包括每个所述药物实体文本的词向量对应在所述词向量字典中的位置信息之前,所述方法还包括:

对所述药物实体文本进行预处理,其中,所述预处理包括:归一化处理、对齐处理。

在其中一些实施例中,确定每个所述药物实体文本的词向量,并根据每个所述药物实体文本的词向量构建词向量字典包括:

采用预设GloVe模型获取每个所述药物实体文本的词向量,其中,所述预设GloVe模型包括:共生矩阵网络和矩阵分解网络;

根据每个所述药物实体文本的词向量构建词向量字典,并记录每个所述药物实体文本的词向量在所述词向量字典的位置信息。

在其中一些实施例中,在根据所述词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个所述药物实体文本作为输入,以及将每个所述药物实体文本的药物相互作用关系标签集作为输出,训练所述预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型之后,所述方法还包括:

根据预设评价指标对所述训练完备的药物相互作用关系检测模型进行评价,得到评价结果,其中,所述预设评价指标包括以下至少之一:精准率评价指标、召回率评价指标和F值评价指标;

将所述评价结果进行显示。

第二方面,本申请实施例还提供了一种药物实体对的相互作用关系检测方法,所述方法包括:

获取待检测药物文本集;

确定所述待检测药物文本集中的每个待检测药物实体文本;

将每个所述待检测药物实体文本输入到如权利要求1至6中任一项所述的训练完备的药物相互作用关系检测模型中,得到每个所述待检测药物实体文本的药物相互作用关系分类结果。

第三方面,本申请实施例还提供了一种药物实体对的相互作用关系检测模型构建装置,包括:

获取模块,用于获取原始药物文本集;

第一确定模块,用于确定所述原始药物文本集中的每个药物实体文本以及每个所述药物实体文本的标注信息;

第二确定模块,用于根据每个所述药物实体文本的标注信息,确定药物相关作用关系标签集;

第三确定模块,用于确定每个所述药物实体文本的词向量,并根据每个所述药物实体文本的词向量构建词向量字典,其中,所述词向量字典包括每个所述药物实体文本的词向量对应在所述词向量字典中的位置信息;

训练模块,用于根据所述词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个所述药物实体文本作为输入,以及将每个所述药物实体文本的药物相互作用关系标签集作为输出,训练所述预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型。

第四方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的药物实体对的相互作用关系检测模型构建方法,和/或,上述第二方面所述的药物实体对的相互作用关系检测方法。

第五方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的药物实体对的相互作用关系检测模型构建方法,和/或,上述第二方面所述的药物实体对的相互作用关系检测方法。

相比于相关技术,本申请实施例提供的药物实体对的相互作用关系检测模型构建方法、装置、电子装置和存储介质,以及药物实体对的相互作用关系检测方法、电子装置和存储介质,通过获取原始药物文本集;确定原始药物文本集中的每个药物实体文本以及每个药物实体文本的标注信息;根据每个药物实体文本的标注信息,确定药物相关作用关系标签集;确定每个药物实体文本的词向量,并根据每个药物实体文本的词向量构建词向量字典,其中,词向量字典包括每个药物实体文本的词向量对应在词向量字典中的位置信息;根据词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个药物实体文本作为输入,以及将每个药物实体文本的药物相互作用关系标签集作为输出,训练预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型的方式,解决了药物间相关作用关系检测的准确率低的问题,提高了药物间相关作用关系检测的准确率低。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是本发明实施例的药物实体对的相互作用关系检测模型构建方法的终端的硬件结构框图;

图2是根据本申请实施例的药物视图对的相互作用关系检测模型构建方法的流程图;

图3是根据本申请实施例的训练完备的药物相互作用关系检测模型的结构示意图;

图4是根据本申请实施例的药物实体对的相互作用关系检测方法的流程图;

图5是根据本申请实施例的药物实体对的相互作用关系检测模型构建装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是本发明实施例的药物实体对的相互作用关系检测模型构建方法的终端的硬件结构框图。如图1所示,终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的药物实体对的相互作用关系检测模型构建方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端10的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

本实施例提供了一种药物实体对的相互作用关系检测模型构建方法,图2是根据本申请实施例的药物实体对的相互作用关系检测模型构建方法的流程图,如图2所示,该流程包括如下步骤:

步骤S201,获取原始药物文本集。

在本步骤中,获取原始药物文本集的方式可以是通过用户导入的,也可以是通过在存储有药物文本的数据库中获取到的。

需要说明的是,数据库可以是任何一个药物数据库,例如,DrugBank数据库、Drugs@FDA数据库等。

在一些实施例中,从预设数据库中获取多个药物文本,其中,预设数据库包括以下至少之一:DrugBank数据库和Drugs@FDA数据库;将多个药物文本作为药物文本集。

在本实施例中,DrugBank数据格式为xml文件格式,可以使用ElementTree(元素树)方法对其进行解析,获取其中的药物名称。而Drugs@FDA数据库中提供的数据格式为txt格式,比较易于处理。通过上述方式,可以实现对原始药物文本集的获取。

在一些实施例中,还可以将所提取出的药物名使用序列化对象(pickle.dump)的方式保存为二进制文件,方便数据的存储以及使用。

步骤S202,确定原始药物文本集中的每个药物实体文本以及每个药物实体文本的标注信息。

在本步骤中,可以通过一些文字识别方法识别原始药物文本集,进而来确定原始药物文本集中的每个药物实体文本,以及在获取到该药物实体文本的同时,获取与该药物实体文本对应的标注信息,其中,该标注信息可以是药物实体文本在原始药物文本集中的标注、注释等信息。

在一些实施例中,确定原始药物文本集中的每个药物实体文本以及每个药物实体文本的标注信息可以包括以下步骤:

步骤1,通过预设CRF模型检测原始药物文本集,得到原始药物文本集中的每个药物实体文本;

步骤2,根据每个药物实体文本,提取与每个药物实体文本对应的标注信息的。

在本实施例中,通过预设条件随机场算法(conditional random fieldalgorithm,简写为CRF)模型来检测原始药物文本集,可以实现精简的药物实体文本的获取,同时还可以避免药物实体文本的遗漏。

需要说明的是,预设CRF模型可以是通过以下几个步骤训练得到的:

步骤A:构造药物名词典。

本步骤中,在药物名词典的构造阶段,药物文本数据来源可以为DrugBank数据库和Drugs@FDA数据库。其中,DrugBank数据库中的数据格式一般为xml文件格式,可以使用元素树(ElementTree)方法对其进行解析,获取其中的药物名称。而Drugs@FDA数据库中提供的数据格式一般为txt格式,比较易于处理。同时,还可以将所提取出的药物名使用序列化对象(pickle.dump)方式保存为二进制文件,方便数据的存储以及使用。

步骤B,对药物名词典中的数据集进行特征提取和标签标注。

本步骤中,在特征识别提取以及标签标注阶段,依次处理来自不同数据库中的数据集。对于每个数据集中的句子,获取标注的注释信息,并使用自然语言处理工具进行处理。而后为每个识别出的药物文本附上标签,其中,可以在offset中存放使用nltk自然语言处理工具识别token时该token的起止偏移值,offset[0]可以为该token的起始偏移值,offset[1]可以为该token的终止偏移值。in_sequence_flag标志区分了序列处理时的状态,当该标志为0时,表示正在处理的词为词序列的开始部分,可以为正在处理的词附上B标签或O标签;当该标志为1时,可以表示正在处理的词在处于词序列内部,可以附上的是I标签。在附上标签后,为每个药物文本提取相应的特征,以及将特征和标签数据整合打包成pickle文件以方便调取。

步骤C:根据步骤B中的提取的特征和标签标注对初始CRF模型进行训练,得到预设CRF模型。

本步骤中,在模型训练阶段,使用sklearn-crfsuite中的CRF模型进行训练。在本实施例中使用L-BFGS算法与弹性网络(L1+L2)正则化的CRF模型,在使用该模型前,可以先指定需训练的是训练集中的特征,以使得期望得到的是训练集中的标签。在模型训练后还可以对测试集中的数据进行预测。

在本实施例中,自然语言处理技术是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标:首先使语言简短,其次要保留重要信息。

步骤S203,根据每个药物实体文本的标注信息,确定药物相关作用关系标签集。

在本实施例中,可以提取药物实体文本的标注信息中的关键词,根据该关键词,从用户预设的药物相互作用关系标签集,查找与之对应的每个药物实体文本的药物相互作用关系,并将每个药物实体文本对应的药物相互作用关系集合,得到药物相关作用关系标签集。

需要说明的是,药物关系标签集中的每一个药物关系标签为药物文本集中的每一个药物文本对应的原始药物文本集中任意两个目标药物名称词之间存在的药物关系。

步骤S204,确定每个药物实体文本的词向量,并根据每个药物实体文本的词向量构建词向量字典,其中,词向量字典包括每个药物实体文本的词向量对应在词向量字典中的位置信息。

在本步骤中,通过确定每个药物实体文本的词向量,进而根据词向量来实现对词向量字典的构建,以便于步骤S205中构造查表层。

在一些实施例中,确定每个药物实体文本的词向量,并根据每个药物实体文本的词向量构建词向量字典包括:采用预设GloVe模型获取每个药物实体文本的词向量,其中,预设GloVe模型包括:共生矩阵网络和矩阵分解网络;根据每个药物实体文本的词向量构建词向量字典,并记录每个药物实体文本的词向量在词向量字典的位置信息。

为了使查表层能够转换出更多有意义的词向量,在本实施例中,采用Stanford大学NLP研究小组提供GloVe(Global Vectors for Word Representation)模型词向量表,其中包括2196016个词向量,每个词向量的维数为300。如果输入原始文本中的词不在此词向量表中,则该词的词向量的每一维被初始化为0。通过上述方式,实现了对每个药物实体文本的词向量的确定,便于构建词向量字典。

步骤S205,根据词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个药物实体文本作为输入,以及将每个药物实体文本的药物相互作用关系标签集作为输出,训练预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型。

在本步骤中,预设药物相互作用关系检测模型可以是神经网络(CNN)模型,该模型中可以预设有:卷积层、最大池化层以及Softmax回归层,然而通过使用词向量字典,将词向量字典中的词向量和位置信息融合到预设药物相互作用关系检测模型中,构成了查表层,该查表层主要用于将橘子中可能存在药物相互作用的药物对的上下文中每个词转为向量表示,同时经过卷积层和池化层降低向量的维度并检测特征,在Softmax回归层中通过提取到的特征对文本中的候选关系进行分类检测。

在本实施例中,如图3所示,训练完备的药物相互作用关系检测模型中包括查表层、卷积层、最大池化层以及Softmax回归层,其中,

(1)查表层

在CNN模型中,要求输入的向量长度相同。因此对于文本中的每个句子,需要使用一些特殊字符对长度不足的句子进行填充。在本实施例中,使用“999”来填充长度不足的句子,使其能够达到最大句子长度。填充处理后,需要对每个句子创建其词向量和位置向量。

词向量的创建可以借助GloVe模型中的词向量数据库,如果该文件中存在句子中的某个单词时,直接获取这个单词的词向量,否则使用0向量代表未知单词。其中,在本实施例中,采用了GloVe模型提供的50维的词向量,而由于位置向量对关系检测的性能可能存在不明显的问题,所以使用的位置向量为10维。在提供的评测数据集中句子的长度不超过155,故在填充特殊字符等操作时将句子长度令为155。在卷积层中,卷积窗口分别设置为3、4、5,分别使用了10个卷积窗口进行处理。

位置向量的创建可以通过以下方式:对于已经填充到最大长度n的句子,可以使用该方式建立位置向量:设句子的结构为S=w

最后直接拼接构建的词向量和位置向量组成一个向量矩阵,即完成了查表层的功能。

(2)卷积层

卷积层的作用是提取出输入的向量矩阵的特征。在这一层中,卷积窗口(FilterWindow,也称为“过滤窗口”)起到了关键作用,由它对矩阵进行卷积操作来提取相应的特征。卷积窗口的大小和提取的特征存在如下关系:

f

其中,tanh是双曲正切函数,b是一个偏置值,t表示卷积窗口的权重,X表示矩阵[x

(3)最大池化层

最大池化层将上层传入的特征向量进行最大池化操作。最大池化层的工作是提取出特征向量中最重要的特征,舍去其他相对不重要的特征以简化计算。例如对于传进的特征向量f,最大池化层会将该向量中所有维度的最大值提取出来,即使用

(4)softmax回归层

CNN模型会在softmax回归层对药物实体对的相互作用关系进行分类。在本实施例中在本层使用了dropout技术,通过该技术可以使得最大池化层输出的特征向量并不全都作为本层的输入,而是会有一定的概率变为0向量,以用来防止模型训练时可能会出现的过拟合现象。

需要说明的是,dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。在模型测试时可以不使用dropout技术。

基于上述实施例,在进行神经网络模型的训练时,迭代的参数可以包括词向量、位置向量,还可以包括卷积窗口权值以及softmax回归层的权值。在本实施例中可以使用随机梯度下降方法进行迭代,优化器选择的是Adam优化器,在训练时迭代10次进行参数优化,以实现对神经网络模型的训练。

基于上述步骤S201至步骤S205,通过对原始药物文本集进行药物实体文本的识别,再根据是药物实体文本确定药物相关作用关系标签集,以及根据药物实体文本的词向量来构建词向量字典,最后再根据词向量字典来构建预设药物相互作用关系检测模型中的查表层,以及将每个药物实体文本作为输入,以及将每个药物实体文本的药物相互作用关系标签集作为输出,训练预设药物相互作用关系检测模型,得到训练完备的药物相互作用关系检测模型的方式,无需人工干预和相关领域知识,不需要人工提取复杂的文本特征,泛化能力强,解决了相关技术中药物间相关作用关系检测的准确率低的问题,提高了药物间相关作用关系检测的准确率。

需要说明的是,本申请实施例中的药物实体对可以是指具有相互作用的两个药物实体。

在其中一些实施例中,在确定每个药物实体文本的词向量,并根据每个药物实体文本的词向量构建词向量字典,其中,词向量字典包括每个药物实体文本的词向量对应在词向量字典中的位置信息之前,还可以对药物实体文本进行预处理,其中,预处理包括:归一化处理。

在本实施例中,为使药物文本在进行分类时,能够更加快捷的分类,不会引入误差,因此要将原始药物文本中的每一个单词进行词形归一化,将他们转换为一致的格式。

对原始药物文本中的每一个单词进行词形归一化,获得归一化后的原始药物文本,再重复,直至原始药物文本集中的每一个原始药物文本中的每一个单词都经过了词形归一化,获得归一化后的原始药物文本集。

可选地,采用将原始药物文本中的单词转换为小写的原始词形的方法进行词形归一化,也可以采用其他的转换方式,可由用户设定,本申请实施例不作限定。

在其中一些实施例中,在根据词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个药物实体文本作为输入,以及将每个药物实体文本的药物相互作用关系标签集作为输出,训练预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型之后,还可以根据预设评价指标对训练完备的药物相互作用关系检测模型进行评价,得到评价结果,其中,预设评价指标包括以下至少之一:精准率评价指标、召回率评价指标和F值评价指标;将评价结果进行显示。

在本实施例中,通过预设评价指标来实现对训练完备的药物相互作用关系检测模型进行评价,并将评价结果进行显示的方式,可以实现对训练完备的药物相互作用关系检测模型的性能进行检测,以及通过显示的方式,便于用户根据显示的评价结果进行相应的处理操作。

本实施例提供了一种药物实体对的相互作用关系检测方法,图4是根据本申请实施例的药物实体对的相互作用关系检测方法的流程图,如图4所示,该流程包括如下步骤:

步骤S401,获取待检测药物文本集。

本步骤中,待检测药物文本集可以用户导入的,也可以从某一药物数据库中获取得到的。

步骤S402,确定待检测药物文本集中的每个待检测药物实体文本。

本步骤中,获取待检测药物实体文本可以通过具有文字识别功能的模型进行实体识别得到的,例如该模型可以是CRF模型。

步骤S403,将每个待检测药物实体文本的词向量输入到上述实施例中的训练完备的药物相互作用关系检测模型中,得到每个待检测药物实体文本的药物相互作用关系分类结果。

基于上述步骤S401至步骤S403,首先通过确定待检测药物文本集中的每个待检测药物实体文本,然后再将每个待检测药物实体文本输入到上述实施例中的训练完备的药物相互作用关系检测模型中,得到每个到检测药物实体文本的药物相互作用关系分类结果,根据该分类结果来确定每个药物之间的相互作用的方式,实现了对药物之间的相互作用关系的检测,解决了药物间相关作用关系检测的准确率低的问题,提高了药物间相关作用关系检测的准确率低。

本实施例还提供了一种药物实体对的相互作用关系检测模型构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的药物实体对的相互作用关系检测模型构建装置的结构框图,如图5所示,该装置包括:

获取模块51,用于获取原始药物文本集;

第一确定模块52,耦合至获取模块51,用于确定原始药物文本集中的每个药物实体文本以及每个药物实体文本的标注信息;

第二确定模块53,耦合至第一确定模块52,用于根据每个药物实体文本的标注信息,确定药物相关作用关系标签集;

第三确定模块54,耦合至第二确定模块53,用于确定每个药物实体文本的词向量,并根据每个药物实体文本的词向量构建词向量字典,其中,词向量字典包括每个药物实体文本的词向量对应在词向量字典中的位置信息;

训练模块55,耦合至第三确定模块54,用于根据词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个药物实体文本作为输入,以及将每个药物实体文本的药物相互作用关系标签集作为输出,训练预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型。

在其中一些实施例中,获取模块51包括:第一获取单元,用于从预设数据库中获取多个药物文本,其中,预设数据库包括以下至少之一:DrugBank数据库和Drugs@FDA数据库;处理单元,用于将多个药物文本作为药物文本集。

在其中一些实施例中,第一确定模块52包括:检测单元,用于通过预设CRF模型检测原始药物文本集,得到原始药物文本集中的每个药物实体文本;提取单元,用于根据每个药物实体文本,提取与每个药物实体文本对应的标注信息。

在其中一些实施例中,该装置还包括:预处理模块,用于对药物实体文本进行预处理,其中,预处理包括:归一化处理、对齐处理。

在其中一些实施例中,第三确定模块54包括:第二获取单元,用于采用预设GloVe模型获取每个药物实体文本的词向量,其中,预设GloVe模型包括:共生矩阵网络和矩阵分解网络;记录单元,用于根据每个药物实体文本的词向量构建词向量字典,并记录每个药物实体文本的词向量在词向量字典的位置信息。

在其中一些实施例中,该装置还包括:评价模块,用于根据预设评价指标对训练完备的药物相互作用关系检测模型进行评价,得到评价结果,其中,预设评价指标包括以下至少之一:精准率评价指标、召回率评价指标和F值评价指标;显示模块,用于将评价结果进行显示。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

步骤S201,获取原始药物文本集。

步骤S202,确定原始药物文本集中的每个药物实体文本以及每个药物实体文本的标注信息。

步骤S203,根据每个药物实体文本的标注信息,确定药物相关作用关系标签集。

步骤S204,确定每个药物实体文本的词向量,并根据每个药物实体文本的词向量构建词向量字典,其中,词向量字典包括每个药物实体文本的词向量对应在词向量字典中的位置信息。

步骤S205,根据词向量字典构建的预设药物相互作用关系检测模型的查表层,并将每个药物实体文本作为输入,以及将每个药物实体文本的药物相互作用关系标签集作为输出,训练预设药物相互作用关系检测模型,直至收敛,得到训练完备的药物相互作用关系检测模型。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

步骤S401,获取待检测药物文本集;

步骤S402,确定待检测药物文本集中的每个待检测药物实体文本;

步骤S403,将每个待检测药物实体文本输入到上述实施例的训练完备的药物相互作用关系检测模型中,得到每个待检测药物实体文本的药物相互作用关系分类结果。

需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

另外,结合上述实施例中的药物实体对的相互作用关系检测模型构建方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种药物实体对的相互作用关系检测模型构建方法。

此外,结合上述实施例中的药物实体对的相互作用关系检测方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种药物实体对的相互作用关系检测方法。

本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号