首页> 中国专利> 一种基于注意力神经网络的生物医学文本词义消岐方法

一种基于注意力神经网络的生物医学文本词义消岐方法

摘要

本发明涉及一种基于注意力机制(attention mechanism),非对称卷积神经网络(Asymmetric Convolutional Neural Networks,ACNN)和双向长短期记忆网络(Bidirectional Long Short Term Memory,Bi‑LSTM)的生物医学文本词义消岐方法。本发明首先对生物医学MSH语料进行处理,对包含歧义词汇的英文句子进行分词、词性标注和语义标注处理,得到处理好的训练语料和测试语料;然后利用训练语料对模型进行训练,得到优化后的注意力神经网络模型;在优化后的模型上,对测试语料进行消岐,得到歧义词汇在每个语义类别下的概率分布;具有最大概率的语义类别即为歧义词汇的语义类别。本发明对生物医学歧义词汇实现了很好的消岐,更准确地判断生物医学歧义词汇的真实含义。

著录项

  • 公开/公告号CN113065350A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 哈尔滨理工大学;

    申请/专利号CN202110395920.8

  • 发明设计人 逄淑阳;张春祥;王明磊;

    申请日2021-04-13

  • 分类号G06F40/284(20200101);G06F40/30(20200101);G06N3/08(20060101);G06N3/04(20060101);

  • 代理机构

  • 代理人

  • 地址 150080 黑龙江省哈尔滨市南岗区学府路52号

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域:

本发明涉及一种基于注意力神经网络的生物医学文本词义消岐方法,该方法在自然语言处理领域中有着很好的应用。

背景技术:

生物医学文本现在是如此之大,以至于需要自动化工具来有效地处理它们。但是,生物医学文本的自动处理是一个难点。究其原因,是生物医学领域中歧义词较多。确定生物医学词语的语义类别有助于生物医学文章的自动处理。目前,生物医学词义消歧已广泛应用于生物医学自然语言处理任务,如文本索引、文本分类、命名实体提取等。

生物医学词义消歧方法可分为三类:有监督方法、无监督方法和基于知识的方法。在有监督的方法中,使用标注的数据集以及上下文中的词汇和句法信息来训练分类器,以预测测试数据集中生物医学单词的正确词义。在无监督方法中,未标记的生物医学文本被用来为生物医学词汇提供意义选择。在以知识为基础的词汇分类中,采用叙词表和词义表来确定生物医学词汇的语义类别。近年来,深度学习算法已被广泛地应用到生物医学词义消歧,比如卷积神经网络和循环神经网络等等。在卷积神经网络中,神经元的权值是共享的。这使得神经元可以共享资源,降低了网络模型的复杂度,防止出现过拟合现象。循环神经网络中对文本处理上有着非常好的效果。对于生物医学歧义词汇而言,可以很好地应用深度学习算法来进行消岐,实现语义的正确分类。

发明内容:

为了解决自然语言处理领域中的词汇歧义问题,本发明公开了一种基于注意力神经网络的生物医学文本词义消岐方法。

为此,本发明提供了如下技术方案:

1.一种基于注意力神经网络的生物医学文本词义消岐方法,其特征在于,该方法包括以下步骤:

步骤1:对MSH语料所包含的所有生物医学歧义词句子进行分词、词性标注和语义信息标注,选取生物医学歧义词汇左右四个邻接词汇单元的词形、词性和语义信息作为消岐特征。

步骤2:提取生物医学歧义词汇左右四个邻接词汇单元的词形、词性和语义信息,使用Word2vec训练处理好的语料生成相应的词向量。选取一小部分生成的句子作为测试数据,其余的作为训练数据。

步骤3:训练包括前向传播和反向传播两个过程。训练数据作为注意力神经网络模型训练的输入,经过注意力神经网络模型的训练,得到优化后的注意力神经网络模型。

步骤4:测试过程为前向传播过程,即语义分类过程。在优化后的注意力神经网络模型上,输入测试数据,计算生物医学歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为生物医学歧义词汇的语义类。

2.根据权利要求1所述的一种基于注意力神经网络的生物医学文本词义消岐方法,其特征在于,所述步骤1中,对汉语句子进行分词、词性标注和语义信息标注,提取消岐特征,具体步骤为:

步骤1-1根据句子中的空格对英语句子进行词汇切分;

步骤1-2利用词性标注工具对已切分好的词汇进行词性标注;

步骤1-3利用语义标注工具对已切分好的词汇进行语义标注;

利用英文词性标注工具和英文语义标注工具对语料所包含的所有英文句子进行词性标注和语义标注,选取生物医学歧义词汇左右四个邻接词汇单元的词形、词性和语义信息作为消岐特征。

3.根据权利要求1所述的一种基于注意力神经网络的生物医学文本词义消岐方法,其特征在于,所述步骤2中,以生物医学MSH语料为基础,使用Word2vec提取训练生成相应的词向量,具体步骤为:

步骤2-1提取生物医学歧义词汇的左右四个邻接词汇单元的词形、词性和语义信息;

步骤2-2使用Word2vec中的CBOW模型获取每个消歧特征对应的词向量,选取一小部分处理好的句子作为测试数据,其余的作为训练数据。

4.根据权利要求1所述的一种基于注意力神经网络的生物医学文本词义消岐方法,其特征在于,所述步骤3中,对注意力神经网络模型进行训练,具体步骤为:

前向传播过程:

步骤3-1把训练数据输入到初始化的注意力神经网络模型中;

步骤3-2通过注意力层,提取消岐特征,可以动态的捕获词与词之间的关系;

步骤3-3通过非对称卷积层,提取更多的消岐特征。非对称卷积根据不同大小的卷积核可以获取不同的特征信息,同时也可以减少计算量,加快模型计算的速度,有效地防止过拟合;

步骤3-4通过双向长短期记忆网络层,从前向网络和后向网络获取有效的特征信息,将信息进行拼接输入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;.

步骤3-5利用softmax层来计算生物医学歧义词汇m在每个语义类别s

其中,a

步骤3-6从P(s

其中,y_predicted

步骤3-7将预测概率y_predicted

所述误差loss的计算过程如下所示:

其中,y

反向传播过程:

根据误差loss反向传播,逐层更新参数,参数更新过程如下:

其中,θ表示参数集,θ'表示更新后的参数集,a为学习率。

不断迭代注意力神经网络模型,得到优化后的注意力神经网络模型。

5.根据权利要求1所述的一种基于注意力神经网络的生物医学文本词义消岐方法,其特征在于,在所述步骤4中,对生物医学歧义词汇m进行语义分类,具体过程为:

语义分类过程:

步骤4-1把测试数据输入到优化后的注意力神经网络模型之中;

步骤4-2通过注意力层,动态的捕获词与词之间的关系;

步骤4-3通过非对称卷积层,提取更多的有效信息并且减少了计算量;

步骤4-4通过双向长短期记忆网络层,分别从前向网络和后向网络获取信息进行拼接,进入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;

步骤4-5利用softmax层来计算生物医学歧义词汇m在每个语义类别下的概率分布。其中,具有最大概率的语义类别s'即为生物医学歧义词汇的语义类别。

所述语义类别s'的确定过程如下:

其中,s'表示概率最大的语义类别,n表示语义类别数,P(s

有益效果:

1.本发明是一种基于注意力神经网络的生物医学文本词义消岐方法。对英文句子进行了分词、词性标注和语义信息标注。以生物医学MSH语料为基础,使用Word2vec提取句子的词向量,将训练好的词向量作为消歧特征。所提取的消岐特征具有较高的质量。

2.本发明所使用的模型主要包括注意力机制,非对称卷积神经网络和双向长短时记忆神经网络。注意力机制可以动态捕获词与词之间的关系,非对接卷积神经网络不但拥有卷积神经网络局部感知和参数共享的优点,同时也降低了计算量使训练速度加快,能够很好地处理高维数据,长短时记忆神经网络可以从前向和后向获取有效信息,对文本处理有非常好的效果。只要训练好注意力神经网络模型,就可以获得较好的分类效果。

3.本发明使用的分类器为softmax分类器,不仅能解决二类分类的数据处理,而且能够解决多分类的数据处理。

4.在训练模型时,采用随机梯度下降法进行参数更新。通过计算误差,误差通过反向传播沿原路线返回,即从输出层反向经过各中间隐藏层,逐层更新每一层参数,最终回到输出层。不断地进行前向传播和反向传播,以减小误差,更新模型参数,直到注意力神经网络模型训练好为止。随着误差反向传播不断地对参数进行更新,整个注意力神经网络模型对输入数据的消岐准确率也有所提高。

附图说明:

图1为本发明实施方式中的一种基于注意力神经网络的生物医学文本词义消岐方法的流程图。

图2为本发明实施方式中的一种基于注意力神经网络的生物医学文本词义消岐方法的训练过程。

图3为本发明实施方式中的一种基于注意力神经网络的生物医学文本词义消岐方法的测试过程。

具体实施方式:

为了使本发明的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本发明进行进一步的详细说明。

以对英文句子“A message from ADA president Feldman”中的歧义词汇“ADA”进行消岐处理为例。

本发明实施例一种基于注意力神经网络的生物医学文本词义消岐方法的流程图,如图1所示,包括以下步骤。

步骤1消岐特征的提取过程如下:

英文句子:A message from ADA president Feldman。

步骤1-1根据句子中的空格对英语句子进行词汇切分,分词结果为:Amessagefrom ADA president Feldman。

步骤1-2利用词性标注工具对已切分好的词汇进行词性标注,词性标注结果为:A/DT message/NN from/IN ADA/NNP president/NN Feldman/NNP。

步骤1-3利用语义标注工具对已切分好的词汇进行语义标注,语义信息标注结果为:A/angstrom.n.01 message/message.n.01 from/-1 ADA/adenosine_deaminase.n.01president/president.n.01 Feldman/-1。

含有生物医学歧义词汇“ADA”的英文句子的分词、词性标注和语义信息标注结果为:A/DT/angstrom.n.01 message/NN/message.n.01 from/IN/-1 ADA/NNP/adenosine_deaminase.n.01 president/NN/president.n.01 Feldman/NNP/-1。

步骤2使用Word2vec训练医学文本生成消岐特征向量。

步骤2-1从包含生物医学歧义词汇“ADA”的英文句子中,提取生物医学歧义词汇左右四个邻接词汇单元,分别为“message/NN/message.n.01”、“from/IN/-1”、“president/NN/president.n.01”和“Feldman/NNP/-1”。一共提取了12个消岐特征。

步骤2-2生成的词向量为100维度,12个消歧特征进行拼接生成1200维度的词向量。

步骤3生物医学歧义词汇“ADA”的语义类有两种,分别为American DentalAssociation(美国牙科协会)和Adenosine Deaminase(腺苷脱氨酶)。

本发明实施例一种基于注意力神经网络的生物医学文本词义消岐方法的训练过程和一种基于注意力神经网络的生物医学文本词义消岐方法的测试过程,如图2和图3所示。具体为:

前向传播过程:

步骤3-1将12个消岐特征拼接形成的特征向量作为训练数据输入到初始化的注意力神经网络模型之中;

步骤3-2通过注意力层,提取消岐特征,可以动态的捕获词与词之间的关系;

步骤3-3通过非对称卷积层,提取更多的消岐特征。非对称卷积根据不同大小的卷积核可以获取不同的特征信息,同时也可以减少计算量,加快模型计算的速度,有效地防止过拟合;

步骤3-4通过双向长短期记忆网络层,从前向网络和后向网络获取有效的特征信息,将信息进行拼接进入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;

步骤3-5利用softmax层来计算生物医学歧义词汇“ADA”在语义类别“AmericanDental Association”和“Adenosine Deaminase”下的预测概率;

所述的softmax函数计算过程如下:

其中,a

步骤3-6从P(American Dental Association|ADA)、P(Adenosine Deaminase|ADA)中选取最大概率作为预测概率。

y_predicted=max(P(American Dental Association|ADA),P(AdenosineDeaminase|ADA))

其中,y_predicted表示歧义词汇“ADA”的预测概率,为94.47%。

步骤3-6将注意力神经网络的预测概率y_predicted和真实概率y进行比较,利用交叉熵损失函数来计算误差。

所述的误差计算过程如下:

loss

其中,loss

反向传播过程:

根据误差loss

其中,θ

不断迭代注意力神经网络模型,得到优化后的注意力神经网络模型。

步骤4模型测试,即语义分类过程,具体步骤为:

步骤4-1把测试数据输入到优化后的注意力神经网络模型之中;

步骤4-2通过注意力层,动态的捕获词与词之间的关系;

步骤4-3通过非对称卷积层,提取更多的有效信息并且减少了计算量;

步骤4-4通过双向长短期记忆网络层,分别从前向网络和后向网络获取信息进行拼接,进入全连接层,对所提取的消岐特征进行降维,连接成一维消岐特征向量;

步骤4-5通过softmax层计算生物医学歧义词汇“ADA”在每个语义类别下的概率,最大概率所对应的语义类别即为歧义词汇的语义类别。

生物医学歧义词汇“ADA”的语义类别s'的确定过程如下:

其中,s'表示生物医学歧义词汇“ADA”所对应的语义类别为American DentalAssociation,P(s|ADA)表示生物医学歧义词汇“ADA”在每个语义类别下的概率分布。

通过注意力神经网络模型,对包含生物医学歧义词汇“ADA”的英语句子“Amessagefrom ADA president Feldman.”进行词义消岐,歧义词汇“ADA”所对应的语义类别为American Dental Association(美国牙科协会)和Adenosine Deaminase(腺苷脱氨酶)。

本发明实施方式中的一种基于注意力神经网络的生物医学文本词义消岐方法,能够选择精确的消岐特征,并采用注意力神经网络模型来确定生物医学歧义词汇的语义类别,具有较高的正确率。

以上所述是结合附图对本发明的实施例进行的详细介绍,本文的具体实施方式只是用于帮助理解本发明的方法。对于本技术领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围内均可有所变更和修改,故本发明书不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号