首页> 中国专利> 一种医疗命名实体一词多标的识别方法、装置及电子设备

一种医疗命名实体一词多标的识别方法、装置及电子设备

摘要

本公开涉及一种医疗命名实体一词多标的识别方法、装置及电子设备,涉及深度学习技术领域,包括:对待识别文本进行细粒度分词;对所述细粒度分词进行信息融合,得到编码词向量;根据所述编码词向量输出所述待识别文本对应的识别信息。本发明可以使中文细粒度词拥有融合上下文信息的作用,能够解决医疗领域命名实体的一词多标问题。

著录项

  • 公开/公告号CN113191151A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利号CN202110617009.7

  • 发明设计人 张瀚之;刘升平;梁家恩;

    申请日2021-06-02

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F40/126(20200101);G06F40/117(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 100096 北京市海淀区西三旗建材城内1幢一层101号

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本公开实施例涉及深度学习技术领域,更具体地,涉及一种医疗命名实体一词多标的识别方法、装置及电子设备。

背景技术

序列标记问题作为NLP的基本问题,其标签预测的结果对于后续任务有着至关重要的影响。此外,自然语言处理中的许多任务也均能转化为序列标记问题,如命名实体识别、分词、词性标注等。

但是在医疗领域的命名实体的识别过程中常会遇到一词多标的问题,如葡萄糖这个词,在“患者低血糖注射葡萄糖溶液治疗”中是和“溶液”一起标为药品,在“患者查血:葡萄糖5.73mmol/L”中则单独标为检查指标,“患者运动后自饮葡萄糖水”中则不标,词的语义并没有明显变化但在不同的语境下对应的标签是不同的。

虽然现有解决序列标记问题的LSTM模型可以一定程度上的处理一字多义,但是LSTM模型是以字级别进行编码,在编码过程中的最小编码单元为一个字,是对字级别进行词向量编码,而对于医疗领域常见的词级别的一词多标无法很好地解决。

发明内容

本公开实施例的一个目的是提供一种医疗命名实体一词多标的识别方法、装置及电子设备,以解决现有命名实体的识别模型对于词级别的一词多标效果较差的问题。

根据本公开的第一方面,提供了一种医疗命名实体一词多标的识别方法,包括:对待识别文本进行细粒度分词;对所述细粒度分词进行信息融合,得到编码词向量;根据所述编码词向量输出所述待识别文本对应的识别信息。

进一步地,所述对待识别文本进行细粒度分词,包括:利用二元语法模型以及命名实体词库对所述待识别文本进行细粒度分词,将所述待识别文本拆分为多个单元词组;其中,每一单元词组最少包含一个字。

进一步地,所述命名实体词库包括医疗专业知识库。

进一步地,对所述细粒度分词进行信息融合,得到编码词向量,包括:利用字符级语言模型将每一所述细粒度分词映射到向量空间,得到对应于每个细粒度分词的编码词向量。

进一步地,将所述细粒度分词映射到向量空间即对该分词进行信息融合,包括:对每个单元词组的尾字前向隐藏状态和首字后向隐藏状态进行拼接,以融合每个细粒度分词在语境中的信息和每个细粒度分词本身的信息。

进一步地,根据所述编码词向量输出所述待识别文本对应的识别信息,包括:利用序列标记模型对所述编码词向量进行标记,输出对每个编码词向量的标签预测。

根据本公开的第二方面,还提供了一种医疗命名实体一词多标的识别装置,包括:分词模块,用于对待识别文本进行细粒度分词;编码词向量模块,用于对所述细粒度分词进行信息融合,得到编码词向量;识别模块,用于根据所述编码词向量输出所述待识别文本对应的识别信息。

根据本公开的第三方面,还提供了一种电子设备,包括存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序,以实现根据本公开第一方面所述的方法。

根据本公开的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序在被处理器执行时实现根据本公开的第一方面所述的方法。

本公开实施例的一个有益效果在于,本发明实施例使用二元语法模型融合医疗专业知识库,对文本先进行细粒度分词,再对细粒度分词进行信息融合,得到编码词向量,使中文的细粒度词拥有了融合上下文信息和词组本身内部信息的作用,能够解决医疗领域的一词多标问题。

通过以下参照附图对本公开的示例性实施例的详细描述,本公开实施例的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开实施例的原理。

图1为一种医疗命名实体一词多标的识别方法的流程示意图;

图2是原有技术由英文向中文领域迁移时的难点,以及解决方案示意图;

图3是根据本实施例进行词向量编码的过程示意图;

图4是根据本实例进行命名实体识别的整体过程,以及整体架构示意图;

图5是一种医疗命名实体一词多标的识别装置的结构示意图;

图6是本发明实施例的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本公开实施例的一个应用场景为医疗领域的命名实体的一词多标的场景,例如,葡萄糖这个词,在“患者低血糖注射葡萄糖溶液治疗”中和“溶液”一起标为药品,在“患者查血:葡萄糖5.73mmol/L”中是检查指标,“患者运动后自饮葡萄糖水”中则不标,词的语义并没有明显变化但在不同的语境下对应的标签是不同的;类似的情况还有“24h”在“患者24h后症状缓解”中将“24h后”标为时间、在“查24h心电图无异常”中则将“24h心电图”整体标为检查内容,不同语境下的意义也是不同的,然而现有技术在字级别进行词向量编码,可以一定程度上的处理一字多义,但对于词级别的一词多标尤其是边界问题无法很好地解决。

参考图2(a),图2(a)为一种现有模型对英文语句进行编码词向量的过程示意图,由于英文中每个单词之间均具有一空格,且一个单词能表达一个词的意思,且英文中一个word的内部因为有前后文影响导致的时态/单复数等变化,其本身通过该技术就能融合上下文信息。如图2(a)中对“George Washington cut the tree”进行识别,能够对每个字也就是每个单词进行较准确的标签预测。

但是中文是二维的,以笔画/偏旁部首为单位构成字,再由字构成词组再构成句子,这就导致了这种模型难以在中文领域使用。例如,参考图2(b),图2(b)为利用现有模型对中文语句进行识别的过程示意图,当在模型中输入中文时,如果将一个汉字对应一个英文单词,将笔画或拼音对应字母,由于汉字内部并不会像英文受前后文的影响产生变化,这种模型就不能像英文领域一样达到在词向量内部融合前后文和词内部信息的效果,而原技术BiLSTM根据单字进行词向量映射,只能对单个的字进行标签预测,当遇到一个词具有多种意思的情况下,更不能很好的进行标签预测,所以现有模型在对中文医疗领域的一词多标的识别效果较差。

针对以上实施方式存在的技术问题,发明人提出了一种医疗命名实体一词多标的识别方法,参考图1,该方法包括如下步骤S1~S3。

S1、对待识别文本进行细粒度分词;

本实施例中采用使用二元语法模型融合命名实体词库,对待识别文本先进行细粒度分词,根据命名实体词库将待识别文本拆分为多个单元词组,

在一个可行的例子中,假设待识别文本为“自饮葡萄糖溶液”,根据命名实体词库将待识别文本拆分为四个单元词组“自、饮、葡萄糖、溶液”。

其中,每一单元词组最少包含一个字,也就是说每一单元词组可以是一个字,也可以是多个字组成的一个词。

本实施例中命名实体词库包括医疗专业知识库,当用于其他领域时,命名实体库也可以是其他的专业知识库,在此不做特殊限定。

S2、对细粒度分词进行信息融合,得到编码词向量;

本实施例利用字符级语言模型将步骤S1得到的每一细粒度分词映射到向量空间,得到对应于每个细粒度分词的编码词向量。

本实施例中的字符级语言模型可以利用Bi-LSTM模型来实现,由于Bi-LSTM能融合上下文的语义信息动态地将词组映射到向量空间,因此能很好的解决一词多义的问题。同时由训练得到的字符级语言模型可以根据不同的输入动态编码词向量,很好的嵌入至下游任务中。

具体地,字符级语言模型作为一个子网络可以单独进行训练,这里定义字符级语言模型中字符串(character)序列的联合概率分布为各个字条件概率的连乘积:

其中:

h

c

上式中各个字的概率分布由Softmax函数确定。其中,θ为模型参数,即softmax函数中的参数V和b。h

由上述公式获得的每个字的隐藏状态h

具体地,利用每个单元词组最后一个字对应的前向隐藏状态

如参考图4例子,利用字符级语言模型分别对“自、饮、葡萄糖、溶液”中每个词的尾字前向隐藏状态和首字后向隐藏状态进行拼接,得到每一个细粒度词组在此句中的编码词向量。

S3、根据编码词向量输出待识别文本对应的识别信息。

本实施例利用序列标记模型对S2所述编码词向量进行标记,输出对每个编码词向量的标签预测。其中,序列标记模型可以是LSTM+CRF。

参考图4,本实施例的序列标记模型对“自饮葡萄糖溶液”进行识别时,先使用字符级语言模型分别对“自、饮、葡萄糖、溶液”中的每一个细粒度词组进行信息融合,得到这些词组在此句中的编码词向量。然后使用序列标记模型对每个单元词组“自、饮、葡萄糖、溶液”的编码词向量进行处理,识别到“葡萄糖”为B-drug,“溶液”为E-drug,而对于“自”“饮”就会识别为O,再输出处理结果作为对每个细粒度词的标签预测。能够解决医疗领域的一词多标问题。

本发明实施例还提供一种医疗命名实体一词多标的识别装置200,参考图5,包括:

分词模块201,用于对待识别文本进行细粒度分词,用于解决上述实施例中S1所涉及的方法,为了避免重复,在此不再赘述。

编码词向量模块202,用于对细粒度分词进行信息融合,得到编码词向量,用于解决上述实施例中S2所涉及的方法,为了避免重复,在此不再赘述。

识别模块203,用于根据编码词向量输出所述待识别文本对应的识别信息,用于解决上述实施例中S3所涉及的方法,为了避免重复,在此不再赘述。

参考图2(c),本发明实施例使用二元语法模型融合医疗专业知识库,对文本先进行细粒度分词,将中文的“字”对应到英文的字母,将细粒度词对应到英文的“字”,再将几个细粒度词组合成的词组对应到英文的词组再到句子,一个中文细粒度词的内部也会有因为上下文而发生的不同用字变化,这样便使得细粒度词拥有了原技术英文的word的特性,实现融合上下文信息和词组自身内部信息的作用,能够解决中文医疗领域的一词多义问题。

本发明实施例还提供一种电子设备400,参考图6,包括存储器402和处理器401,存储器402用于存储计算机程序;处理器401用于执行所述计算机程序,以实现一种医疗命名实体一词多标的识别的方法。

以上电子设备的各模块可以由本实施例中的处理器执行存储器存储的计算机程序实现,也可以通过其他电路结构实现,在此不做限定。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,所述计算机程序在被处理器执行时实现一种医疗命名实体一词多标的识别方法。

技术人员可以根据本公开实施例的方案设计计算机程序。该计算机程序如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言-诸如Smalltalk、C++等,以及常规的过程式编程语言-诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号