首页> 中国专利> 模型预训练及自然语言处理方法、装置、设备及存储介质

模型预训练及自然语言处理方法、装置、设备及存储介质

摘要

本申请公开了一种模型预训练及自然语言处理方法、装置、设备及存储介质,本申请在预训练模型过程中,获取到训练文本及所属领域的知识图谱,基于知识图谱查找训练文本中匹配的目标实体词,以及训练文本所匹配的三元组,将训练文本中目标实体词进行掩码,得到掩码后训练文本,同时,选取一目标实体词,将其中头实体词和关系词与训练文本拼接,得到拼接后训练文本,进而以预测掩码后训练文本中被掩码的目标实体词,及预测拼接后训练文本包含的目标三元组中的尾实体词为目标,训练神经网络模型,得到预训练模型。由此可见,本申请将训练文本所属领域的知识图谱中的知识融入到模型预训练过程中,促进了模型对相关领域知识的理解和掌握。

著录项

  • 公开/公告号CN114780691A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 安徽讯飞医疗股份有限公司;

    申请/专利号CN202210701343.5

  • 申请日2022-06-21

  • 分类号G06F16/33;G06F40/295;G06F40/30;G06F16/332;G06F16/35;G06F16/36;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人王雨

  • 地址 230088 安徽省合肥市高新区望江西路666号A5楼23-24层

  • 入库时间 2023-06-19 16:04:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及自然语言处理技术领域,更具体的说,是涉及一种模型预训练及自然语言处理方法、装置、设备及存储介质。

背景技术

随着计算机科学的不断发展,自然语言处理技术应用也更加的广泛,如机器翻译、文本信息抽取和问答系统等。自然语言处理算法可以分为三个阶段,非神经网络的完全监督学习、基于神经网络的完全监督学习、预训练和精调两阶段方案。

其中,预训练和精调的方案将自然语言处理任务分为两个阶段,首先从大规模的无标注语料学习到通用的语言学知识,如句法和词法特征等。然后针对具体的自然语言处理任务,利用少量的任务相关标注语料在大规模预训练模型的基础上进行参数调整,学习具体任务的语义特征。该方法由于可以充分的利用相对廉价的无标注语料,并且可以显著的提升下游自然语言处理任务的性能,因此其成为了目前自然语言处理的主流方法。

目前的预训练模型并没有达到上限,一般仅是通过扩大训练数据集的数据量来提升预训练效果,对训练数据的利用程度不高,亟需通过设计更有效的预训练方案来进一步提升模型预训练的效果。

发明内容

鉴于上述问题,提出了本申请以便提供一种模型预训练及自然语言处理方法、装置、设备及存储介质,以进一步提升模型预训练效果,以及自然语言处理效果。具体方案如下:

第一方面,提供了一种模型预训练方法,包括:

获取训练文本及所述训练文本所属领域的知识图谱;

查找所述训练文本中与所述知识图谱匹配的目标实体词,并将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本;

基于所述知识图谱,查找所述训练文本所匹配的三元组,所述三元组包括头实体词、关系词及尾实体词;

在所述匹配的三元组中选取一目标三元组,将选取的所述目标三元组中头实体词及关系词与所述训练文本拼接,得到拼接后训练文本;

以预测所述掩码后训练文本中被掩码的目标实体词,以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为目标,训练神经网络模型,直至达到设定训练结束条件,得到预训练模型。

第二方面,提供了一种模型预训练装置,包括:

数据获取单元,用于获取训练文本及所述训练文本所属领域的知识图谱;

目标实体词查找单元,用于查找所述训练文本中与所述知识图谱匹配的目标实体词;

实体词掩码单元,用于将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本;

三元组查找单元,用于基于所述知识图谱,查找所述训练文本所匹配的三元组,所述三元组包括头实体词、关系词及尾实体词;

训练文本拼接单元,用于在所述匹配的三元组中选取一目标三元组,将选取的所述目标三元组中头实体词及关系词与所述训练文本拼接,得到拼接后训练文本;

参数更新单元,用于以预测所述掩码后训练文本中被掩码的目标实体词,以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为目标,训练神经网络模型,直至达到设定训练结束条件,得到预训练模型。

第三方面,提供了一种模型预训练设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上所述的模型预训练方法的各个步骤。

第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的模型预训练方法的各个步骤。

借由上述技术方案,本申请在预训练模型过程中,获取到训练文本及所属领域的知识图谱,基于知识图谱查找训练文本中匹配的目标实体词,以及训练文本所匹配的三元组,三元组包括头实体词、关系词及尾实体词,将训练文本中目标实体词进行掩码,得到掩码后训练文本,同时,选取一目标实体词,将其中头实体词和关系词与训练文本拼接,得到拼接后训练文本,进而以预测掩码后训练文本中被掩码的目标实体词,及预测拼接后训练文本包含的目标三元组中的尾实体词为目标,训练神经网络模型,得到预训练模型。由此可见,本申请将训练文本所属领域的知识图谱中的知识融入到模型预训练过程中,促进了模型对相关领域知识的理解和掌握。

同时,在对训练文本进行掩码时,优先对目标实体词进行掩码,让模型预测掩码的目标实体词,这种“隐式”的知识融入,能够提升模型对领域知识的学习能力。进一步,本申请还增加了三元组知识的融入,即将训练文本所匹配的目标三元组中头实体词和关系词与训练文本拼接后输入模型,明确的告诉模型训练文本中存在三元组,让模型预测目标三元组中的尾实体词,这种“显示”的知识融入与“隐式”的知识融入相结合,可以获取不同的语义信息及不同类型的特征交叉融合,促进模型对语义和知识的理解,进一步提升模型对领域知识的学习能力,大大提升预训练模型的效果。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本申请实施例提供的模型预训练方法的一流程示意图;

图2示例了一种医疗领域的知识图谱示意图;

图3示例了一种预训练模型结构示意图;

图4示例了一种掩码字符预测过程示意图;

图5为本申请实施例提供的一种模型预训练装置结构示意图;

图6为本申请实施例提供的模型预训练设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供了一种模型预训练方案,可以适用于各领域中模型预训练阶段。训练后的模型可以进一步结合具体任务下的标注数据进行二次训练,调整模型参数,得到具体地自然语言处理任务模型,以处理具体的自然语言处理任务。本案可适用的领域有多种,示例如:医疗领域、司法领域等等。具体地自然语言处理任务也可以有多种,示例如:机器翻译、问答、对话、文本分类、情感分析等等。

本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。

接下来,结合图1所述,本申请的模型预训练方法可以包括如下步骤:

步骤S100、获取训练文本及所述训练文本所属领域的知识图谱。

具体地,在确定所要训练的模型所适用的领域后,可以获取该领域的文本作为训练文本。对于训练文本可以不要求其携带有标注。训练文本中可以包含对应领域下的知识信息。同时,本步骤中还获取领域下的知识图谱。知识图谱由节点和边构成,节点表示领域内代表知识的实体词,如领域专业术语、专有名词等,边表示实体词之间的关系,一条边对应的的两个实体词和关系词构成了三元组,也即三元组包括头实体词、关系词及尾实体词。

以医疗领域为例:

训练文本可以包括病历、检查报告单、医学教材、医学指南等医学文本,其中包含大量的医学术语和医学常识。

医疗领域的知识图谱可以参考图2所示,节点表示医学术语和专有名词,边表示实体词间的关系,实体词和关系词组成三元组,如(厄贝沙坦,药品常见不良反应,肝炎),表示药品厄贝沙坦的常见不良反应会导致肝炎。

步骤S110、查找所述训练文本中与所述知识图谱匹配的目标实体词,并将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本。

具体地,知识图谱中包含的实体词属于领域知识,为了训练模型学习领域知识的含义,可以对训练文本中表示知识的实体词进行掩码处理。为此,首先需要查找训练文本中与知识图谱匹配的目标实体词,也即,对于知识图谱中的各个实体词,判断是否存在于训练文本中,如果存在,则找到所存在的位置,并将对于位置的目标实体词用掩码[mask]替代,得到掩码后训练文本。

参照下表1,其示例了医学领域下目标实体词匹配及掩码的过程:

对于输入的医学训练文本:普通感冒又称“伤风”,表现为流鼻涕、咽干等症状;输入的知识图谱包括两个三元组,分别为:(感冒,临床表现,咽干),(感冒,临床表现,咳嗽)。

首先在医学训练文本中查找知识图谱中的实体词,索引到“感冒”的起止位置分别为2和3,“咽干”的起止位置分别为18和19,进而在医学训练文本中将对应位置的目标实体词用[mask]替代,得到最终输出的掩码后医学训练文本:普通[mask][mask]又称“伤风”,表现为流鼻涕、[mask][mask]等症状。

步骤S120、基于所述知识图谱,查找所述训练文本所匹配的三元组。

具体地,知识图谱中包含有多个三元组,为了进一步让模型学习三元组知识,可以对训练文本进行三元组知识的拼接掩码。首先,需要查找出训练文本与知识图谱所匹配的三元组。

参照下表2,其示例了医学领域下三元组匹配的过程:

其中,若知识图谱中的三元组的头实体词和尾实体词同时出现在训练文本中,则可以认为该三元组与训练文本匹配。

需要说明的是,步骤S110和步骤S120的执行顺序并没有必然的先后顺序,二者可以不分先后的同时执行,图1仅仅示例了一种可选的执行顺序。

步骤S130、在所述匹配的三元组中选取一目标三元组,将选取的所述目标三元组中头实体词及关系词与所述训练文本拼接,得到拼接后训练文本。

具体地,训练文本匹配的三元组可能不止一个,此时可以从匹配的三元组中选取一个目标三元组,进而将目标三元组中头实体词和关系词与训练文本拼接,得到拼接后训练文本。

拼接后训练文本用于训练神经网络模型,也即告诉模型训练文本中包含有三元组,需要让模型预测三元组中的尾实体词,通过这种“隐式”的知识融入,可以促进模型对语义和知识的理解,进一步提升模型对领域知识的学习能力。

对于上表2示例的情况:

假设随机选取(感冒,别称,伤风)作为目标三元组,则可以将“感冒”和“别称”拼接到训练文本前面,同时为了区分,可以在“别称”和训练文本之间用设定分隔符SEP分隔,得到的拼接后训练文本为:

感冒 别称 SEP 普通感冒又称“伤风”,表现为流鼻涕、咽干等症状。

步骤S140、利用掩码后训练文本及拼接后训练文本训练神经网络模型。

具体地,可以将掩码后训练文本及拼接后训练文本输入神经网络模型,以预测所述掩码后训练文本中被掩码的目标实体词,以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为目标,训练神经网络模型,直至达到设定训练结束条件,得到预训练模型。

其中,神经网络模型可以采用多种语言模型,即建模一个句子存在的可能性,使得模型从海量的数据中学习到每一个字或词的概率分布。语言模型示例如TransformerBlock、BERT等结构。

参照图3,其示例了一种预训练模型结构,展示了以Transformer Block模型为基础,在医疗领域下进行预训练的过程。

对于训练文本“普通感冒又称“伤风”,表现为流鼻涕、咽干等症状”,首先进行知识匹配查找,该过程又可以分为知识掩码和三元组掩码两个环节,其中知识掩码是指,将训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本“普通[mask] [mask]又称为“伤风”,表现为流鼻涕、[mask] [mask]等症状”。三元组掩码是指,将训练文本匹配的三元组中选取一目标三元组,如(感冒,别称,伤风),将头实体词和关系词与训练文本拼接,得到拼接后训练文本“感冒 别称 SEP 普通感冒又称为“伤风”,表现为流鼻涕、咽干等症状”。

掩码后训练文本和拼接后训练文本输入至Transformer Block提取隐层特征,再分别通过知识预测模块进行掩码的目标实体词的预测,以及,通过三元组预测模块进行目标三元组中尾实体词的预测。

本申请实施例在预训练模型过程中,获取到训练文本及所属领域的知识图谱,基于知识图谱查找训练文本中匹配的目标实体词,以及训练文本所匹配的三元组,将训练文本中目标实体词进行掩码,得到掩码后训练文本,同时,选取一目标实体词,将其中头实体词和关系词与训练文本拼接,得到拼接后训练文本,进而以预测掩码后训练文本中被掩码的目标实体词,及预测拼接后训练文本包含的目标三元组中的尾实体词为目标,训练神经网络模型,得到预训练模型。由此可见,本申请将训练文本所属领域的知识图谱中的知识融入到模型预训练过程中,促进了模型对相关领域知识的理解和掌握,增强了模型的可解释性。

同时,在对训练文本进行掩码时,优先对目标实体词进行掩码,让模型预测掩码的目标实体词,这种“隐式”的知识融入,能够提升模型对领域知识的学习能力。进一步,本申请还增加了三元组知识的融入,即将训练文本所匹配的目标三元组中头实体词和关系词与训练文本拼接后输入模型,明确的告诉模型训练文本中存在三元组,让模型预测目标三元组中的尾实体词,这种“显示”的知识融入与“隐式”的知识融入相结合,可以获取不同的语义信息及不同类型的特征交叉融合,促进模型对语义和知识的理解,进一步提升模型对领域知识的学习能力,大大提升预训练模型的效果。

在本申请的一些实施例中,对上述步骤S110,查找所述训练文本中与所述知识图谱匹配的目标实体词,并将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本的过程进行说明。

具体地,可以获取所述知识图谱中的实体词,进一步,在训练文本中查找与所述知识图谱中的实体词相同的词,作为目标实体词。

在对训练文本中的目标实体词进行掩码时,有几种可选的掩码方式:

第一种、将所述训练文本中每一个目标实体词分别用设定掩码字符进行替代,得到掩码后训练文本。

也即,将训练文本中各个目标实体词均进行掩码处理。与此同时,可以不对非目标实体词进行掩码,或者可以选取一部分非目标实体词同时进行掩码处理。

第二种、以偏向对所述目标实体词进行掩码的方式,对所述训练文本进行随机掩码,得到掩码后训练文本。

具体地,偏向目标实体词掩码的方式进行随机掩码,即按照第一概率对目标实体词进行掩码,按照第二概率对非目标实体词进行掩码,其中第一概率大于第二概率,以此让模型加强对知识的学习,提升对知识的理解。

在本申请的一些实施例中,对上述步骤S120,基于所述知识图谱,查找所述训练文本所匹配的三元组的过程进行介绍。

一种可选的情况下,若在步骤S120执行之前,已经执行了步骤S110,也即已经得到了训练文本匹配的各目标实体词,则三元组匹配的过程可以包括:

S1、获取知识图谱中包含的三元组集合。

S2、对所述训练文本与所述知识图谱匹配的各目标实体词进行两两组合,对组合后每一目标实体词对,判断所述目标实体词对是否存在于三元组集合中的一个三元组中,若是,将目标实体词对所存在的三元组作为所述训练文本匹配的三元组。

另一种可选的情况下,步骤S120三元组匹配的过程可以包括:

S1、获取知识图谱中包含的三元组集合。

S2、对于三元组集合中每一三元组:

判断所述三元组中头实体词和尾实体词是否同时存在于所述训练文本中,若是,将所述三元组作为所述训练文本所匹配的三元组。

步骤S120进行三元组匹配后,可以得到训练文本所匹配的三元组。匹配的三元组的个数可以是一个或多个。

可以从匹配的三元组中选取一个目标三元组,进而将选取的目标三元组中头实体词及关系词,顺序拼接在训练文本的前面,且在所述关系词及所述训练文本之间用设定分隔符分隔,得到拼接后训练文本。

在本申请的一些实施例中,对上述步骤S140,利用掩码后训练文本及拼接后训练文本训练神经网络模型的过程进行说明,具体可以包括如下步骤:

S1、将所述掩码后训练文本及所述拼接训练文本输入至神经网络模型。

S2、利用神经网络模型预测所述掩码后训练文本中掩码字符对应的原始字符,并基于模型预测结果确定第一损失函数。

本实施例中提供了神经网络模型预测掩码字符的一种可选实现方式,为了更准确的预测掩码字符,神经网络模型可以同时基于掩码字符的特征向量及掩码字符的前后最近邻的未掩码字符的特征向量,来预测掩码字对应的原始字符。

具体地,可以利用神经网络模型确定掩码后训练文本中每一字符的特征向量,并基于掩码字符的特征向量、所述掩码字符前、后最近邻的未掩码字符的特征向量,预测所述掩码字符对应的原始字符。

参考图4所示:

对于输入的掩码后训练文本:普通[mask] [mask]又称“伤风”,表现为流鼻涕。经过神经网络模型确定其中每一字符的特征向量,即向量h

在预测被[mask]的字符时,同时参考被[mask]的字符的特征向量,以及被[mask]部分的边界对应的特征向量,以预测第一个[mask]为例:

第一个[mask]前后最近邻的未掩码字符的特征向量分别为h

神经网络模型利用合并后向量来预测第一个[mask]对应的原始字符:

其中,y表示第一个[mask]对应的原始字符。

假设神经网络模型对每一个字符编码的特征向量为n维,则合并后向量

S3、利用所述神经网络模型预测所述拼接后训练文本包含的所述目标三元组中的尾实体词,并基于模型预测结果确定第二损失函数。

具体地,前述实施例中在确定拼接后训练文本时,可以同时确定拼接后训练文本的标签,该标签可以包括正例标签和负例标签,正例标签为所述目标三元组中的尾实体词。负例标签为,训练文本所匹配的各目标实体词中,除所述目标三元组中的头实体词和尾实体词外,剩余的每一实体词。

以前述例子进行说明,训练文本匹配的一目标三元组为(感冒,别称,伤风),将头实体词和关系词与训练文本拼接,得到拼接后训练文本“感冒 别称 SEP 普通感冒又称为“伤风”,表现为流鼻涕、咽干等症状”。则可以理解的是,该训练文本的正例标签为“伤风”,负例标签可以包括:“咽干”、“流鼻涕”。

基于拼接后训练文本的正例标签和负例标签,可以通过对比学习的方式训练神经网络模型,从而提升神经网络模型的学习能力。

基于拼接后训练文本的正例标签和负例标签,通过对比学习的方式训练神经网络模型的过程,可以包括:

S31、利用神经网络模型确定拼接后训练文本中每一字符的特征向量,并基于各字符的特征向量,确定所述正例标签及负例标签各自的特征向量。

仍以上述正负例标签为例进行说明:

目标三元组中头实体词“感冒”的特征向量h

h

h

h

h

其中,mealpool()表示取向量平均值。

S32、基于所述正例标签及负例标签各自的特征向量,计算正例标签及负例标签各自的得分。

具体地,在计算正例标签及负例标签各自的得分时,可以按照每一标签与目标三元组中头实体词间特征向量的相似度来确定得分,相似度越高,对应的标签得分越高。

仍以上述例子进行说明:

其中,p

S33、基于正例标签及负例标签各自的得分确定第二损失函数。

可以理解的是,模型训练时我们期望正例标签的得分越高越好,负例标签的得分越低越好,因此可以基于正例标签和负例标签各自的得分,计算第二损失函数。

S4、基于所述第一损失函数及所述第二损失函数确定总损失函数,并基于总损失函数更新神经网络模型的参数。

本实施例中神经网络模型训练时有两个损失函数,即第一和第二损失函数,可以基于两个损失函数确定总损失函数,进而按照总损失函数来更新神经网络模型的参数。其中,第一损失和第二损失函数均可以采用交叉熵损失。

本申请实施例提供的模型预训练方法可以适用于各种领域,对应的训练文本及知识图谱为相应领域下的数据,以医学领域为例,则训练文本为医学文本,对应的知识图谱为医学知识图谱。

当然,除了医学领域外,还可以应用于其它领域,如司法领域、农业领域等。

基于前述实施例介绍的模型预训练方法,本申请实施例进一步提供了一种自然语言处理方法,本申请可以在前述实施例的模型预训练方法所得到的预训练模型的基础上进行二次训练,得到二次训练后的自然语言处理任务模型。进一步将待进行自然语言处理的任务数据输入至自然语言处理任务模型,得到模型输出的自然语言处理结果。

其中自然语言处理任务可以是多种类型,如机器翻译、问答、对话、文本分类等等。在对预训练模型进行二次训练时,可以根据具体任务的不同,采用相应任务下的标注数据对预训练模型进行调整。

一种示例下,预训练模型可以应用于医疗文本结构化处理任务,则可以基于该任务下的标注数据对预训练模型进行二次训练,得到训练后的医疗文本结构化处理模型。进而可以利用医疗文本结构化处理模型对待结构化处理的文本数据进行处理,得到处理结果。

下面对本申请实施例提供的模型预训练装置进行描述,下文描述的模型预训练装置与上文描述的模型预训练方法可相互对应参照。

参见图5,图5为本申请实施例公开的一种模型预训练装置结构示意图。

如图5所示,该装置可以包括:

数据获取单元11,用于获取训练文本及所述训练文本所属领域的知识图谱;

目标实体词查找单元12,用于查找所述训练文本中与所述知识图谱匹配的目标实体词;

实体词掩码单元13,用于将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本;

三元组查找单元14,用于基于所述知识图谱,查找所述训练文本所匹配的三元组,所述三元组包括头实体词、关系词及尾实体词;

训练文本拼接单元15,用于在所述匹配的三元组中选取一目标三元组,将选取的所述目标三元组中头实体词及关系词与所述训练文本拼接,得到拼接后训练文本;

参数更新单元16,用于以预测所述掩码后训练文本中被掩码的目标实体词,以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为目标,训练神经网络模型,直至达到设定训练结束条件,得到预训练模型。

可选的,上述目标实体词查找单元查找所述训练文本中与所述知识图谱匹配的目标实体词的过程,可以包括:

获取所述知识图谱中的实体词;

在所述训练文本中查找与所述知识图谱中的实体词相同的词,作为目标实体词。

可选的,上述实体词掩码单元将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本的过程,可以包括:

将所述训练文本中每一个目标实体词分别用设定掩码字符进行替代,得到掩码后训练文本;

或,

以偏向对所述目标实体词进行掩码的方式,对所述训练文本进行随机掩码,得到掩码后训练文本。

可选的,本申请实施例介绍了上述三元组查找单元的两种处理逻辑,分别如下:

第一种,三元组查找单元基于所述知识图谱,查找所述训练文本所匹配的三元组的过程,可以包括:

获取所述知识图谱中包含的三元组集合;

对所述训练文本与所述知识图谱匹配的各目标实体词进行两两组合,对组合后每一目标实体词对,判断所述目标实体词对是否存在于三元组集合中的一个三元组中,若是,将目标实体词对所存在的三元组作为所述训练文本匹配的三元组。

第二种,三元组查找单元基于所述知识图谱,查找所述训练文本所匹配的三元组的过程,可以包括:

获取所述知识图谱中包含的三元组集合;

对于三元组集合中每一三元组:

判断所述三元组中头实体词和尾实体词是否同时存在于所述训练文本中,若是,将所述三元组作为所述训练文本所匹配的三元组。

可选的,上述训练文本拼接单元将选取的所述目标三元组中头实体词及关系词与所述训练文本拼接,得到拼接后训练文本的过程,可以包括:

将选取的所述目标三元组中头实体词及关系词,顺序拼接在所述训练文本的前面,且在所述关系词及所述训练文本之间用设定分隔符分隔,得到拼接后训练文本。

可选的,上述参数更新单元以预测所述掩码后训练文本中被掩码的目标实体词,以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为目标,训练神经网络模型的过程,可以包括:

将所述掩码后训练文本及所述拼接训练文本输入至神经网络模型;

利用所述神经网络模型预测所述掩码后训练文本中掩码字符对应的原始字符,并基于模型预测结果确定第一损失函数;

利用所述神经网络模型预测所述拼接后训练文本包含的所述目标三元组中的尾实体词,并基于模型预测结果确定第二损失函数;

基于所述第一损失函数及所述第二损失函数确定总损失函数,并基于总损失函数更新神经网络模型的参数。

可选的,上述参数更新单元利用所述神经网络模型预测所述掩码后训练文本中掩码字符对应的原始字符的过程,可以包括:

利用神经网络模型确定掩码后训练文本中每一字符的特征向量,并基于掩码字符的特征向量、所述掩码字符前、后最近邻的未掩码字符的特征向量,预测所述掩码字符对应的原始字符。

可选的,所述拼接后训练文本的标签可以包括正例标签和负例标签,所述正例标签为所述目标三元组中的尾实体词,所述负例标签为,所述训练文本所匹配的各目标实体词中,除所述目标三元组中的头实体词和尾实体词外,剩余的每一实体词。在此基础上,上述参数更新单元利用所述神经网络模型预测所述拼接后训练文本包含的所述目标三元组中的尾实体词,并基于模型预测结果确定第二损失函数的过程,可以包括:

利用神经网络模型确定拼接后训练文本中每一字符的特征向量,并基于各字符的特征向量,确定所述正例标签及负例标签各自的特征向量;

基于所述正例标签及负例标签各自的特征向量,计算正例标签及负例标签各自的得分;

基于正例标签及负例标签各自的得分确定第二损失函数。

可选的,所述训练文本可以是医学文本,所述知识图谱可以是医学知识图谱。

在本申请的一些实施例中,进一步提供了一种自然语言处理装置,其可以包括:

任务数据获取单元,用于获取待进行自然语言处理的任务数据;

任务数据处理单元,用于将所述任务数据输入至配置的自然语言处理任务模型,得到模型输出的自然语言处理结果;所述自然语言处理任务模型为,在前述实施例的模型预训练方法所得到的预训练模型的基础上进行二次训练得到。

本申请实施例提供的模型预训练装置可应用于模型预训练设备,如终端:手机、电脑等。可选的,图6示出了模型预训练设备的硬件结构框图,参照图6,模型预训练设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取训练文本及所述训练文本所属领域的知识图谱;

查找所述训练文本中与所述知识图谱匹配的目标实体词,并将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本;

基于所述知识图谱,查找所述训练文本所匹配的三元组;

在所述匹配的三元组中选取一目标三元组,将选取的所述目标三元组中头实体词及关系词与所述训练文本拼接,得到拼接后训练文本;

以预测所述掩码后训练文本中被掩码的目标实体词,以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为目标,训练神经网络模型,直至达到设定训练结束条件,得到预训练模型。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获取训练文本及所述训练文本所属领域的知识图谱;

查找所述训练文本中与所述知识图谱匹配的目标实体词,并将所述训练文本中匹配的目标实体词进行掩码,得到掩码后训练文本;

基于所述知识图谱,查找所述训练文本所匹配的三元组;

在所述匹配的三元组中选取一目标三元组,将选取的所述目标三元组中头实体词及关系词与所述训练文本拼接,得到拼接后训练文本;

以预测所述掩码后训练文本中被掩码的目标实体词,以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为目标,训练神经网络模型,直至达到设定训练结束条件,得到预训练模型。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号