首页> 中国专利> 阅读理解模型的训练方法及装置、阅读理解方法及装置

阅读理解模型的训练方法及装置、阅读理解方法及装置

摘要

本申请提供一种阅读理解模型的训练方法及装置、阅读理解方法及装置,其中阅读理解模型的训练方法包括:通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将第一图网络和第二图网络输入阅读理解模型的图卷积网络层中,得到预测答案;基于预测答案与样本答案间的差值对阅读理解模型进行训练,直至达到训练停止条件。

著录项

  • 公开/公告号CN112800186A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 北京金山数字娱乐科技有限公司;

    申请/专利号CN202110375810.5

  • 发明设计人 潘璋;李长亮;李小龙;

    申请日2021-04-08

  • 分类号G06F16/33(20190101);G06F40/289(20200101);G06K9/62(20060101);

  • 代理机构11637 北京智信禾专利代理有限公司;

  • 代理人吴肖肖

  • 地址 100085 北京市海淀区西二旗中路33号院5号楼11层002号

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本申请涉及自然语言处理技术领域,特别涉及阅读理解模型的训练方法及装置、阅读理解方法及装置、计算设备和计算机可读存储介质。

背景技术

机器阅读理解是致力于教会机器阅读人类的语言并理解其内涵的研究,随着自然语言处理技术的发展,机器阅读理解作为自然语言处理领域中一个热门方向被广泛应用。机器阅读理解任务更注重于对于文本的理解,并从文本中学习到相关信息,以便可以回答与文本相关的问题。

现有技术中,训练机器理解文本的方法主要是构建一种待训练模型,并通过对该待训练模型进行训练,得到符合需求的阅读理解模型,使得该阅读理解模型可以尽可能准确地完成阅读理解任务。具体地,可以将样本问题和样本答案作为训练样本输入待训练模型中,待训练模型可以输出预测答案,根据预测答案和样本答案间的差值对待训练模型进行优化,以便得到想要的阅读理解模型。

但上述方式仅考虑问题和答案之间的关联关系,比较单一,并且有些问题可以适用于不同的文本,且对于不同的文本得到的答案不同,因此,通过上述方式训练得到的阅读理解模型执行阅读理解任务的准确率可能较低。

发明内容

有鉴于此,本申请实施例提供了一种阅读理解模型的训练方法。本申请同时涉及一种阅读理解模型的训练装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面,提供了一种阅读理解模型的训练方法,包括:

通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;

将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;

将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;

基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。

根据本申请实施例的第二方面,提供了一种阅读理解方法,包括:

通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络;

将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;

将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到所述目标问题的答案。

根据本申请实施例的第三方面,提供了一种阅读理解模型的训练装置,包括:

第一图网络构建模块,被配置为通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;

第一文本处理模块,被配置为将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络中包括的节点和边添加注意力值,得到第一图网络和第二图网络;

预测模块,被配置为将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;

训练模块,被配置为基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。

根据本申请实施例的第四方面,提供了一种阅读理解装置,包括:

第二图网络构建模块,被配置为通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络;

第二文本处理模块,被配置为将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;

确定模块,被配置为将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,确定所述目标问题的答案。

根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述阅读理解模型的训练方法的步骤,或者,实现所述阅读理解方法的步骤。

根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述阅读理解模型的训练方法的步骤,或者,实现所述阅读理解方法的步骤。

根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述阅读理解模型的训练方法的步骤,或者,实现所述阅读理解方法的步骤。

本申请实施例中,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。通过本申请的方法,可以有效地利用样本文本片段、样本问题和样本答案的特征向量,提取三者之间的关联关系,结合样本文本片段、样本问题和样本答案之间的关联关系对阅读理解模型进行训练,可以提高阅读理解模型执行阅读理解任务的准确率。

附图说明

图1是本申请一实施例提供的一种计算设备的结构框图;

图2是本申请一实施例提供的一种阅读理解模型的训练方法的流程图;

图3是本申请一实施例提供的一种模型训练时阅读理解模型的层之间的数据流向图;

图4是本申请一实施例提供的一种初始第三图网络的示意图;

图5是本申请一实施例提供的一种初始第一图网络的示意图;

图6是本申请一实施例提供的一种初始第四图网络的示意图;

图7是本申请一实施例提供的一种初始第二图网络的示意图;

图8是本申请一实施例提供的一种应用于选择题的阅读理解模型训练方法的处理流程图;

图9是本申请一实施例提供的一种阅读理解方法的流程图;

图10是本申请一实施例提供的一种应用时阅读理解模型的层之间的数据流向图;

图11是本申请一实施例提供的另一种初始第一图网络的示意图;

图12是本申请一实施例提供的另一种初始第二图网络的示意图;

图13是本申请一实施例提供的一种应用于选择题的阅读理解模型的处理流程图;

图14是本申请一实施例提供的一种阅读理解模型的训练装置的结构示意图;

图15是本申请一实施例提供的一种阅读理解装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先,对本申请一个或多个实施例涉及的名词术语进行解释。

Bert模型:(Bidirectional Encoder Representations from Transformer),是一种动态词向量技术,采用双向Transformer模型,对无标记数据集进行训练,综合考虑前后文特征信息,可以更好地解决一词多义等问题。

GCN模型:Graph Convolutional Network,图卷积网络模型,可以用于提取图的特征。

词向量:词的一种表示,是为了让计算机能够处理的一种表示。

词嵌入:是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量的处理过程。

词单元:对输入文本做任何实际处理前,都需要将其分割成诸如字、标点符号、数字或字母等语言单元,这些语言单元被称为词单元。对于英文文本,词单元可以是一个单词、一个标点符号、一个数字等;对于中文文本,最小的词单元可以是一个字、一个标点符号、一个数字等。

word2vec:进行词嵌入处理的一种方法,是Mikolov在Bengio Neural NetworkLanguage Model(NNLM)的基础上构建的一种高效的词向量训练方法。即通过使用该方法可以对文本进行词嵌入处理,得到文本的词向量。

第一词单元:在阅读理解模型的模型训练阶段,第一词单元是指对样本文本片段进行分词处理后得到的词单元;在阅读理解模型执行阅读理解任务阶段,第一词单元是指对目标文本进行分词处理后得到的词单元。

第一词单元组:多个第一词单元组成的词单元组。

第二词单元:在阅读理解模型的模型训练阶段,第二词单元是指对样本问题进行分词处理后得到的词单元;在阅读理解模型执行阅读理解任务阶段,第二词单元是指对目标问题进行分词处理后得到的词单元。

第二词单元组:多个第二词单元组成的词单元组。

第三词单元:在阅读理解模型的模型训练阶段,第二词单元是指对样本答案进行分词处理后得到的词单元;在阅读理解模型执行阅读理解任务阶段,第二词单元是指对目标答案进行分词处理后得到的词单元。

第三词单元组:多个第三词单元组成的词单元组。

第一特征向量:在阅读理解模型的模型训练阶段,第一特征向量是指样本文本片段中的第一词单元进行词嵌入处理后得到的向量;在阅读理解模型执行阅读理解任务阶段,第一特征向量是指对目标文本的第一词单元进行词嵌入处理后得到的向量。

第一特征向量组:多个第一特征向量组成的特征向量组。

第二特征向量:在阅读理解模型的模型训练阶段,第二特征向量是指样本问题中的第二词单元进行词嵌入处理后得到的向量;在阅读理解模型执行阅读理解任务阶段,第一特征向量是指对目标问题的第二词单元进行词嵌入处理后得到的向量。

第二特征向量组:多个第二特征向量组成的特征向量组。

第三特征向量:在阅读理解模型的模型训练阶段,第三特征向量是指样本答案中的第三词单元进行词嵌入处理后得到的向量;在阅读理解模型执行阅读理解任务阶段,第三特征向量是指对目标答案的第三词单元进行词嵌入处理后得到的向量。

第三特征向量组:多个第三特征向量组成的特征向量组。

初始第一图网络:在阅读理解模型的模型训练阶段,初始第一图网络是表征样本文本片段与样本答案之间的关联关系的图网络;在阅读理解模型执行阅读理解任务阶段,初始第一图网络是表征目标文本与目标答案之间的关联关系的图网络。

初始第二图网络:在阅读理解模型的模型训练阶段,初始第二图网络是表征样本问题与样本答案之间的关联关系的图网络;在阅读理解模型执行阅读理解任务阶段,初始第二图网络是表征目标问题与目标答案之间的关联关系的图网络。

初始第三图网络:在阅读理解模型的模型训练阶段,初始第三图网络是表征样本文本片段中词单元之间的依存关系的图网络;在阅读理解模型执行阅读理解任务阶段,初始第三图网络是表征目标文本中词单元之间的依存关系的图网络。

初始第四图网络:在阅读理解模型的模型训练阶段,初始第三图网络是表征样本问题中词单元之间的依存关系的图网络;在阅读理解模型执行阅读理解任务阶段,初始第三图网络是表征目标问题中词单元之间的依存关系的图网络。

第一图网络:包括节点的注意力值和边的注意力值的初始第一图网络

第二图网络:包括节点的注意力值和边的注意力值的初始第二图网络

第一隐层特征向量:第一图网络经过图卷积网络层进行卷积处理后得到的第一图网络的向量表示。

第二隐层特征向量:第二图网络经过图卷积网络层进行卷积处理后得到的第二图网络的向量表示。

目标隐层特征向量:第一隐层特征向量和第二隐层特征向量结合之后得到的向量表示。

在本申请中,提供了一种阅读理解模型的训练方法,本申请同时涉及一种阅读理解模型的训练装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120可以执行图2所示阅读理解模型的训练方法中的步骤。图2示出了根据本申请一实施例提供的一种阅读理解模型的训练方法的流程图,包括步骤202至步骤210。

步骤202,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络。

其中,阅读理解模型用于执行阅读理解任务,可以在给定文本、问题和待选答案的情况下输出问题的正确答案。样本答案是样本文本片段对应的样本问题的正确答案。样本文本片段可以是对样本文本进行分段处理后得到的任意文本片段。

其中,初始第一图网络用于表征样本文本片段与样本答案之间的关联关系,初始第二图网络用于表征样本问题与样本答案之间的关联关系。

在一些实施例中,可以预先根据多个样本文本、多个样本问题和多个样本答案构建训练数据集。

作为一种示例,多个样本文本、多个样本问题和多个样本答案之间存在对应关系,由于样本文本通常是篇章级的文本,数据量比较大,模型处理比较困难,因此可以对每个样本文本进行分段或者分句处理,得到每个样本文本的多个样本文本片段,则每个样本文本的多个样本文本片段均与该样本文本对应的样本问题以及样本答案对应,则训练数据集中可以存储有多个样本文本片段、多个样本问题和多个样本答案,且样本文本片段、样本问题和样本答案之间存在对应关系,可以将存在对应关系的一个样本文本片段、一个样本问题和一个样本答案称为一组训练数据。

作为另一种示例,由于样本文本通常是篇章级的文本,数据量比较大,模型处理比较困难,因此可以对每个样本文本进行分段或者分句处理,得到每个样本文本的多个样本文本片段。以参考样本文本为例,该参考样本文本的多个样本文本片段可以称为参考样本文本片段,该参考样本文本对应的样本问题可以称为参考样本问题,该参考样本文本和参考样本问题均对应的样本答案可以称为参考样本答案,则可以将该多个样本文本片段分别和该参考样本问题进行匹配,确定多个第一相似度,并且将该多个样本文本片段分别和该参考样本答案进行匹配,确定多个第二相似度,获取第一相似度和第二相似度均大于相似度阈值的参考样本文本片段,可以认为获取的参考样本文本片段与参考样本问题的关联性很强,且参考样本文本片段和参考样本答案的关联性很强,因此,可以将获取的参考样本文本片段、参考样本问题和参考样本答案作为一组训练数据。对每个样本文本均进行上述处理,可以得到多组训练数据,且每组训练数据中的样本文本片段与其对应的样本问题和样本答案均关联性比较高。

通过上述两种示例性的方式,可以创建包括多组训练数据的训练数据集,则可以从训练数据集中获取多组训练数据,并且将该多组训练数据输入阅读理解模型的图构建网络层中。

示例性地,参见图3,可以将样本文本片段、样本问题和样本答案输入阅读理解模型的图构建网络层,基于样本文本片段和样本答案得到初始第一图网络,以及基于样本问题和样本答案得到初始第二图网络。

在实施中,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络的具体实现可以包括:基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络,以及基于所述样本问题中词单元之间的依存关系构建初始第四图网络。基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络,以及基于所述初始第四图网络和所述样本答案之间的关联关系构建所述初始第二图网络。

其中,初始第三图网络用于表征样本文本片段中词单元之间的依存关系。初始第四图网络用于表征样本问题中词单元之间的依存关系。

也就是说,可以先构建反映样本文本片段中词单元之间依存关系的初始第三图网络,再在初始第三图网络的基础上,根据样本答案与样本文本片段之间的关联关系,构建第一图网络。以及,先构建反映样本问题中词单元之间依存关系的初始第四图网络,再在初始第四图网络的基础上,根据样本答案与样本问题之间的关联关系,构建第二图网络。

如此,可以通过第一图网络清楚地描述样本文本片段的词单元和样本答案的词单元之间的关联关系,通过第二图网络清楚地描述样本问题的词单元和样本答案的词单元之间的关联关系,初步获取三者之间的关联关系,为后续进一步地使用做准备。

在一些实施例中,基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络的具体实现可以包括:以所述样本文本片段中的词单元为节点,得到多个节点;基于所述样本文本片段中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第三图网络。

也就是说,将样本文本片段中的词单元作为节点,将词单元之间的依存关系作为边,可以构建表征样本文本片段中词单元之间依存关系的初始第三图网络。如此,可以初步确定样本文本片段中词单元之间的关联关系,能够加强模型对样本文本片段中词单元之间关系的学习。

作为一种示例,可以通过Stanford Core NLP(Natural Language Processing,自然语言处理)算法对样本文本片段进行依存分析,可以得到样本文本片段中多个词单元之间的依存关系。

示例性地,通过Stanford Core NLP算法对样本文本片段“我爱我的祖国”进行依存分析,可以得到“我”为主语,“爱”为谓语,“我的祖国”为宾语,且可以得到“我”、“爱”、“我”、“的”“祖”和“国”彼此之间的依存关系。例如,样本文本片段中一个“我”与“爱”存在依存关系,一个“我”与“的”和“祖”均存在依存关系,“爱”还与“祖”存在依存关系,且“祖”与“国”存在依存关系,基于上述所述依存关系,可以得到图4所示的初始第三图网络。

在一些实施例中,所述基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络的具体实现可以包括:基于所述样本答案中的词单元与所述样本文本片段中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到所述初始第一图网络。

也就是说,可以以样本答案中的词单元为目标节点,将目标节点与初始第三图网络中样本文本片段的词单元对应的节点相连,如此,可以得到表征样本文本片段的词单元与样本答案的词单元之间的关联关系的初始第一图网络,使得模型初步学习到样本文本片段和样本答案之间的关联关系。

作为一种示例,可以将样本答案中的词单元对应的目标节点与样本文本片段中每个词单元对应的节点相连。或者,作为另一种示例,可以将样本答案中的词单元对应的目标节点与初始第三图网络中与目标节点存在关联关系的节点相连。

示例性地,以样本文本片段为“我爱我的祖国”,样本答案为“祖国”为例,可以将样本答案中的“祖”分别与初始第三图网络中每个节点相连,以及将样本答案中的“国”分别与初始第三图网络中每个节点相连,可以得到图5所示的第一图网络,图5中加粗的节点即为目标节点。

在一些实施例中,所述基于所述样本问题中词单元之间的依存关系构建初始第四图网络的具体实现可以包括:以所述样本问题中的词单元为节点,得到多个节点;基于所述样本问题中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第四图网络。

也就是说,将样本问题中的词单元作为节点,将词单元之间的依存关系作为边,可以构建表征样本问题中词单元之间依存关系的初始第四图网络。如此,可以初步确定样本问题中词单元之间的关联关系,能够加强模型对样本问题中词单元之间关系的学习。

作为一种示例,可以通过Stanford Core NLP算法对样本问题进行依存分析,可以得到样本问题中多个词单元之间的依存关系。

作为一种示例,通过Stanford Core NLP算法对样本问题“我爱谁”进行依存分析,可以得到“我”为主语,“爱”为谓语,“谁”为宾语,且可以得到“我”、“爱”、“谁”彼此之间的依存关系关系。例如,样本问题中“我”与“爱”之间存在依存关系,“爱”与“谁”之间存在依存关系,“我”与“谁”之间存在依存关系,基于上述所述依存关系,参见图6,可以得到图6所示的初始第四图网络。

在一些实施例中,所述基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络的具体实现可以包括:基于所述样本答案中的词单元与所述样本文本片段中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到所述初始第一图网络。

在一些实施例中,所述基于所述初始第四图网络和所述样本答案之间的关联关系构建所述初始第二图网络的具体实现可以包括:基于所述样本答案中的词单元与所述样本问题中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第四图网络中的节点相连,得到所述初始第二图网络。

也就是说,可以以样本答案中的词单元为目标节点,将目标节点与初始第四图网络中样本问题的词单元对应的节点相连,如此,可以得到表征样本问题的词单元与样本答案的词单元之间的关联关系的初始第二图网络,使得模型初步学习到样本问题和样本答案之间的关联关系。

作为一种示例,可以将样本答案中的词单元对应的目标节点与样本问题中每个词单元对应的节点相连。或者,作为另一种示例,可以将样本答案中的词单元对应的目标节点与初始第四图网络中与目标节点存在关联关系的节点相连。

示例性地,以样本问题为“我爱谁”,样本答案为“祖国”为例,可以将样本答案中的“祖”分别与初始第四图网络中每个节点相连,以及将样本答案中的“国”分别与初始第四图网络中每个节点相连,可以得到图7所示的初始第二图网络,图7中加粗的节点即为目标节点。

在本申请实施例中,可以充分利用样本文本片段和样本答案之间的关联关系,以及样本文本片段和样本问题之间的关联关系对阅读理解模型进行训练,可以提高阅读理解模型执行阅读理解任务的准确率。

步骤204,将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组。

作为一种示例,特征提取层可以用于提取输入的文本的特征。第一特征向量组是样本文本片段经过特征提取层之后得到的特征向量组,第二特征向量组是样本问题样本文本片段经过特征提取层之后得到的特征向量组,第三特征向量组是样本答案样本文本片段经过特征提取层之后得到的特征向量组。并且,第一特征向量组包括多个第一特征向量,每个第一特征向量与样本文本片段中一个词单元对应,第二特征向量组包括多个第二特征向量,每个第二特征向量与样本问题中一个词单元对应,第三特征向量组包括多个第三特征向量,每个第三特征向量与样本答案中一个词单元对应。

示例性地,参见图3,可以将样本文本片段、样本问题和样本答案输入阅读理解模型的特征提取层,分别确定第一特征向量组、第二特征向量组和第三特征向量组。

在实施中,本步骤的具体实现可以包括:对所述样本文本片段、所述样本问题和所述样本答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组;对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组;对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。

在本申请实施例中,特征提取层可以包括词嵌入处理功能和编码功能。作为一种示例,特征提取层可以包括词嵌入处理模块和编码模块。

示例性地,特征提取层可以采用Bert模型的结构。由于通过Bert模型得到的特征向量是结合全文语义信息后的特征向量,因此,能够更加充分地利用样本文本片段、样本问题、以及样本答案中词单元的特征向量,可以提高阅读理解模型的准确率。

作为一种示例,以样本文本片段为例,若样本文本片段为中文文本,可以将一个字划分为一个词单元,将一个标点符号划分为一个词单元;若样本文本片段为外文文本,可以将一个单词划分为一个词单元,将一个短语划分为一个词单元;若样本文本片段中有数字,可以将数字单独划分为一个词单元。

示例性地,假设样本文本片段为“李白被称为诗仙”,则可以得到“李”、“白”、“被”、“称”、“为”、“诗”、“仙”这七个第一词单元。

作为一种示例,可以通过one-hot(独热)编码的方式对第一词单元组中每个第一词单元进行词嵌入处理,得到每个第一词单元的词向量,对第二词单元组中每个第二词单元进行词嵌入处理,得到每个第二词单元的词向量,以及对第三词单元组中每个词单元进行词嵌入处理,得到每个第三词单元的词向量。

作为另一种示例,可以通过word2vec编码的方式对第一词单元组中每个第一词单元进行词嵌入处理,得到每个第一词单元的词向量,对第二词单元组中每个第二词单元进行词嵌入处理,得到每个第二词单元的词向量,以及对第三词单元组中每个词单元进行词嵌入处理,得到每个第三词单元的词向量。

作为一种示例,对每个第一词向量、每个第二词向量和每个第三词向量进行编码处理,可以得到每个第一词单元对应的融合样本文本片段全文语义信息后的向量表示,即第一特征向量,以及可以得到每个第二词单元对应的融合样本问题全文语义信息后的向量表示,即第二特征向量,以及可以得到每个第三词单元对应的融合样本答案全文语义信息后的向量表示,即第三特征向量,进而可以得到第一特征向量组、第二特征向量组和第三特征向量组。

示例性地,以样本答案为“李白”为例,将“李白”输入特征提取层,可以对“李白”进行分词,得到词单元“李”和“白”,对“李”和“白”分别进行词嵌入处理,可以得到“李”的词向量和“白”的词向量,对“李”的词向量和“白”的词向量进行编码,可以得到“李”结合“白”的词向量之后得到的第三特征向量,以及可以得到“白”结合“李”的词向量之后得到的第三特征向量,假设“李”对应的第三特征向量为x,“白”对应的第三特征向量为y,则第三特征向量组可以是xy。同理,将样本文本片段“李白被称为诗仙”输入特征提层,可以输出样本文本片段中每个字的第一特征向量,将样本问题“诗仙是谁”输入特征提取层,可以输出样本问题中每个字的第二特征向量。

通过上述特征提取,能够得到可以准确反映样本文本片段中每个词单元的语义的第一特征向量,得到可以准确反映样本问题中每个词单元的语义的第二特征向量,以及得到可以准确反映样本答案中每个词单元的语义的第三特征向量,即使用更加准确地特征向量对阅读理解模型进行训练,可以提高训练得到的模型的准确率。

需要说明的是,本申请实施例中特征提取层可以采用已经进行预处理,并使用阅读理解任务微调后的BERT模型的结构,如此,能够使得得到的第一特征向量组、第二特征向量组和第三特征向量组分别更加准确地反映样本文本片段的语义特征、样本问题的语义特征和样本答案的语义特征,可以提高模型的训练速率和使用准确率。

步骤206,将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络。

其中,第一图网络是包括节点的注意力值和边的注意力值的初始第一图网络。第二图网络是包括节点的注意力值和边的注意力值的初始第二图网络。

作为一种示例,注意力层可以采用BERT模型的注意力层的结构。或者,注意力层可以采用其他任意包括注意力机制的模型的结构,本申请实施例对此不做限定。

作为一种示例,在本步骤中,可以将第一特征向量组、第二特征向量组、第三特征向量组、初始第一图网络和初始第二图网络输入阅读理解模型的注意力层,基于第一特征向量组和第二特征向量组为初始第一图网络的节点和边添加注意力值,得到第一图网络,以及基于第二特征向量组和第三特征向量组为初始第二图网络的节点和边添加注意力值,得到第二图网络。示例性地,参见图3,可以将第一特征向量组、第二特征向量组、第三特征向量组、初始第一图网络和初始第二图网络输入阅读理解模型的注意力层,基于第一特征向量组、第二特征向量组为初始第一图网络包括的节点和边添加注意力值,得到第一图网络;以及基于第二特征向量组和第三特征向量组为初始第二图网络包括的节点和边添加注意力值,得到第二图网络。

或者,作为另一种示例,在本步骤中,可以将第一特征向量组、第二特征向量组和第三特征向量组输入阅读理解模型的注意力层,基于第一特征向量组和第二特征向量组,得到初始第一图网络包括的节点和边的注意力值,并将注意力值添加至初始第一图网络,得到第一图网络;以及基于第二特征向量组和第三特征向量组,得到初始第二图网络包括的节点和边的注意力值,并将注意力值添加至初始第二图网络,得到第二图网络。

在实施中,本步骤的具体实现可以包括:通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值;通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值。

作为一种示例,初始第一图网络表征样本文本片段和样本答案之间的关联关系,第一特征向量组是样本文本片段的特征表示,第三特征向量组是样本答案的特征表示,因此可以根据第一特征向量组和第三特征向量组为初始第一图网络的节点和边添加注意力值。同理,初始第二图网络表征样本问题和样本答案之间的关联关系,第二特征向量组是样本问题的特征表示,第三特征向量组是样本答案的特征表示,因此可以根据第二特征向量组和第三特征向量组为初始第二图网络的节点和边添加注意力值。

初始第一图网络中的节点是样本文本片段和样本答案的词单元,因此可以根据第一特征向量组和第三特征向量组,在注意力层为初始第一图网络的节点和边添加注意力值,可以进一步捕捉样本文本片段和样本答案之间的关联关系。同理,初始第二图网络中的节点是样本问题和样本答案的词单元,因此可以根据第二特征向量组和第三特征向量组,在注意力层为初始第二图网络的节点和边添加注意力值,可以进一步捕捉样本问题和样本答案之间的关联关系。如此,便于阅读理解模型进一步学习到样本文本片段、样本答案和样本问题之间的关联关系,提高阅读理解模型处理阅读理解任务的准确率。

在一些实施例中,通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值的具体实现可以包括:将所述第一特征向量组中的第一特征向量作为所述初始第一图网络中第一节点的注意力值,所述第一节点为所述初始第一图网络中所述样本文本片段的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第一图网络中第二节点的注意力值,所述第二节点为所述初始第一图网络中所述样本答案的词单元对应的节点;基于所述第一特征向量组,确定所述初始第一图网络中存在边的两个第一节点之间的注意力值并作为所述边的注意力值;基于所述第三特征向量组,确定所述初始第一图网络中存在边的第一节点和第二节点之间的注意力值并作为所述边的注意力值。

也就是说,可以将第一特征向量组中的第一特征向量作为初始第一图网络中样本文本片段的词单元对应的节点的注意力值,将第三特征向量组中的第三特征向量作为初始第一图网络中样本答案的词单元对应的节点的注意力值。并且根据第一特征向量组确定初始第一图网络中样本文本片段的词单元之间边的注意力值,以及根据第一特征向量组和第三特征向量组确定初始第一图网络中样本文本片段的词单元和样本答案的词单元之间边的注意力值。如此,可以进一步学习到样本文本片段中词单元之间的关联关系,以及样本文本片段与样本答案之间的关联关系,便于提高训练得到的阅读理解模型的准确率。

作为一种示例,对于存在边的两个第一节点,可以对这两个第一节点对应的词单元的第一特征向量进行注意力计算,可以得到该边的注意力值。具体的,对两个第一特征向量进行注意力计算是将两个第一特征向量相乘并对结果进行归一化处理,得到注意力值。参见图5,图5中的“我”和“爱”之间存在边,且“我”和“爱”是样本文本片段中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第一特征向量组中获取“爱”的第一特征向量,可以将“我”的第一特征向量和“爱”的第一特征向量相乘,对乘积进行归一化处理,可以得到“我”和“爱”之间边的注意力值。

作为一种示例,对于存在边的第一节点和第二节点,可以对第一节点对应的词单元的第一特征向量和第二节点对应的词单元的第三特征向量进行注意力计算,可以得到该边的注意力值。具体的,对第一特征向量和第三特征向量进行注意力计算是将第一特征向量和第三特征向量相乘并对结果进行归一化处理,得到注意力值。示例性地,参见图5,图5中的“我”和“祖”之间存在边,且“我”是样本文本片段中的词单元,“祖”是样本答案中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第三特征向量组中获取“祖”的第三特征向量,可以将“我”的第一特征向量和“祖”的第三特征向量相乘,对乘积进行归一化处理,可以得到“我”和“祖”之间边的注意力值。

通过上述方式,可以确定图5中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第一图网络中,则可以得到第一图网络。

在一些实施例中,通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值的具体实现可以包括:将所述第二特征向量组中的第二特征向量作为所述初始第二图网络中第三节点的注意力值,所述第三节点为所述初始第二图网络中所述样本问题的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第二图网络中第四节点的注意力值,所述第四节点为所述初始第二图网络中所述样本答案的词单元对应的节点;基于所述第二特征向量组,确定所述初始第二图网络中存在边的两个第三节点之间的注意力值并作为所述边的注意力值;基于所述第三特征向量组,确定所述初始第二图网络中存在边的第三节点和第四节点之间的注意力值并作为所述边的注意力值。

也就是说,可以将第二特征向量组中的第二特征向量作为初始第二图网络中样本问题的词单元对应的节点的注意力值,将第三特征向量组中的第三特征向量作为初始第二图网络中样本答案的词单元对应的节点的注意力值。并且根据第二特征向量组确定初始第二图网络中样本问题的词单元之间边的注意力值,以及根据第二特征向量组和第三特征向量组确定初始第二图网络中样本问题的词单元和样本答案的词单元之间边的注意力值。如此,可以进一步学习到样本问题中词单元之间的关联关系,以及样本问题与样本答案之间的关联关系,便于提高训练得到的阅读理解模型的准确率。

作为一种示例,对于存在边的两个第三节点,可以对这两个第三节点对应的词单元的第二特征向量进行注意力计算,可以得到该边的注意力值。具体的,对两个第二特征向量进行注意力计算是将两个第二特征向量相乘并对结果进行归一化处理,得到注意力值。示例性地,参见图7,图7中的“我”和“谁”之间存在边,且“我”和“谁”是样本问题中的词单元,可以从第二特征向量组中获取词单元“我”的第二特征向量,以及从第二特征向量组中获取“谁”的第二特征向量,可以将“我”的第二特征向量和“谁”的第二特征向量相乘,对乘积进行归一化处理,可以得到“我”和“谁”之间边的注意力值。

作为一种示例,对于存在边的第三节点和第四节点,可以对第三节点对应的词单元的第二特征向量和第四节点对应的词单元的第三特征向量进行注意力计算,可以得到该边的注意力值。具体的,对第二特征向量和第三特征向量进行注意力计算是将第二特征向量和第三特征向量相乘并对结果进行归一化处理,得到注意力值。示例性地,参见图7,图7中的“谁”和“国”之间存在边,且“谁”是样本问题中的词单元,“国”是样本答案中的词单元,可以从第二特征向量组中获取词单元“谁”的第二特征向量,以及从第三特征向量组中获取“国”的第三特征向量,可以将“谁”的第二特征向量和“国”的第三特征向量相乘,对乘积进行归一化处理,可以得到“谁”和“国”之间边的注意力值。

通过上述方式,可以确定图7中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第二图网络中,则可以得到第二图网络。

需要说明的是,在本申请实施例中,可以通过如下公式(1)对两个特征向量进行注意力计算。

其中,在公式(1)中,attention表示注意力值,softmax(·)是一个归一化函数,Q和K分别表示两个特征向量,d

例如,参见图7,图7中的“谁”和“国”之间存在边,且“谁”是样本问题中的词单元,“国”是样本答案中的词单元,可以从第二特征向量组中获取词单元“谁”的第二特征向量作为Q,以及从第三特征向量组中获取“国”的第三特征向量作为K,通过上述公式(1)可以确定“谁”和“国”之间边的注意力值。

本申请实施例中,可以通过注意力层进一步捕捉样本文本片段、样本问题和样本答案之间的关联关系,并将关联关系转换为注意力值赋予初始第一图网络和初始第二图网络,得到第一图网络和第二图网络,使得模型进一步学习到样本文本片段、样本问题和样本答案三者之间的关联关系,可以提高训练得到的阅读理解模型的准确率。

需要说明的是,步骤204-步骤206是步骤“将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络”的具体实现。

步骤208,将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案。

作为一种示例,图卷积网络层可以是GCN模型。

示例性地,参见图3,可以将第一图网络和第二图网络输入阅读理解模型的图卷积网络层中,得到预测答案。

在实施中,将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案的具体实现可以包括:通过所述图卷积网络层,确定所述第一图网络的第一隐层特征向量和所述第二图网络的第二隐层特征向量;将所述第一隐层特征向量和所述第二隐层特征向量进行加权求和,得到目标隐层特征向量;基于所述目标隐层特征向量确定所述预测答案。

作为一种示例,第一隐层特征向量是第一图网络经过图卷积网络层进行卷积处理后得到的第一图网络的向量表示,可以认为是第一图网络的图特征向量。第二隐层特征向量是第二图网络经过图卷积网络层进行卷积处理后得到的第二图网络的向量表示,可以认为是第二图网络的图特征向量。目标隐层特征向量是将第一图网络和第二图网络的向量表示结合后得到的向量表示。

在一些实施例中,在图卷积网络层可以通过如下公式(2)对图网络进行卷积处理。

其中,在公式(2)中,i表示图网络中第i个节点,j表示图网络中第j个节点,

作为一种示例,图卷积网络层中可以包括多个卷积层,每个卷积层包括预设的权重参数矩阵,每个节点在每个卷积层的权重可以是权重参数矩阵中的初始权重,同理,每个卷积层可以包括预设的截距参数矩阵,每个节点在每个卷积层的截距可以是截距参数矩阵中的初始截距。并且,在后续训练过程中,可以根据训练情况对每个卷积层的权重参数矩阵和截距参数矩阵进行调整。

示例性地,以第一图网络为例,假设该图卷积网络层包括两个卷积层,则在第一个卷积层,可以将第一图网络中每个节点的特征向量作为输入,将第一个卷积层的权重参数矩阵和截距参数矩阵作为预设参数,通过上述公式(2),可以确定第一图网络中每个节点输入第二个卷积层的特征向量,即第一图网络中每个节点进行一次卷积处理后得到的特征向量。然后在第二个卷积层,可以将上述得到的每个节点输入第二个卷积层的特征向量作为输入,将第二个卷积层的权重参数矩阵和截距参数矩阵作为预设参数,通过上述公式(2),可以确定第一图网络中每个节点输入第三个卷积层的特征向量,即第一图网络中每个节点进行两次卷积处理后得到的特征向量。将第一图网络中多个节点进行两次卷积处理后得到的特征向量进行拼接,可以得到第一图网络的第一隐层特征向量。

作为一种示例,将第一隐层特征向量和第二隐层特征向量进行加权求和时,第一隐层特征向量的权值和第二隐层特征向量的权值可以是相同的,也可以是不同的,可以由用户根据实际需求进行设置,也可以由计算设备默认设置,本申请实施例对此不做限定。

通过上述方式,可以获取第一图网络中节点之间潜在的关联关系,以及获取第二图网络中节点之间潜在的关联关系,便于阅读理解模型学习到样本文本片段、样本问题和样本答案之间潜在的关联关系,提高模型的准确率。

在一些实施例中,基于所述目标隐层特征向量确定所述预测答案的具体实现可以包括:通过序列标注函数将所述目标隐层特征向量每一维的值转换成至少一个预测概率,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率;基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签;基于所述每一维对应的词单元的预测标签确定所述预测答案。

作为一种示例,序列标注函数是进行序列标注时使用的函数,可以将输入的向量映射到至少一维的概率中,即对于每个向量可以得到至少一个概率。序列标注可以称为Sequence Tagging,通过序列标注函数确定每一维的向量对应的概率后,可以根据概率为每个词单元标注一个预设的标签。

作为一种示例,标签可以是B、I、O。其中,B可以称为Begin,表示答案开头词,即答案的第一个字;I可以称为Inside,表示答案中间结尾词,即答案的第二个字到最后一个字;O可以称为Outside,表示非答案词,即不是答案的字。

需要说明的是,目标隐层特征向量的长度与样本文本片段的长度相同,即可以认为目标隐层特征向量的维度与样本文本片段的词单元的数量是相同的。

示例性地,假设样本文本片段是“我爱我的祖国”,则目标隐层特征向量是6维向量,且该6维分别对应词单元我、爱、我、的、祖、国,则将目标隐层特征向量中每一维转换成3个预测概率,每一个预测概率对应的是标签“BIO”出现的可能性。例如,对于词单元“我”,假设计算得到的预测概率分别为0.2,0.3,0.5,可以确定预测标签为“O”的概率最大,则“我”对应的预测标签为“O”。同理,可以确定6个词单元分别对应的预测标签为“O”、“O”、“O”、“O”、“B”和“I”。由于标签“B”表示答案开头词,标签“I”表示答案中间结尾词,则可以认为“祖”和“国”是预测答案。

通过序列标注的方式,可以确定每个词单元的预测标签,且根据预测标签可以确定预测答案,在调整模型参数时,可以使得正确的预测答案的预测标签更加接近正确标签,这种方式可以提高阅读理解模型的训练效率和准确率。

作为一种示例,所述至少一个标签包括答案开头词、答案中间结尾词和非答案词,基于所述每一维对应的词单元的预测标签确定所述预测答案的具体实现可以包括:将对应答案开头词的词单元和对应答案中间结尾词的词单元作为所述预测答案。

也就是说,可以将答案开头词和答案中间结尾词进行拼接,得到预测答案。

继续上述举例,词单元“祖”的标签是B,词单元“国”的标签是I,标签“B”表示答案开头词,标签“I”表示答案中间结尾词,则可以将“祖国”确定为预测答案。

步骤210,基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。

在一些实施例中,可以通过损失函数确定预测函数和样本答案之间的差值,并根据差值对阅读理解模型进行训练。

作为一种示例,基于差值对阅读理解模型进行训练主要是基于差值对图卷积网络层的参数进行调整,以使得在后续训练中预测答案与样本答案能够更加接近。例如,假设答案是“祖国”,在训练过程中如果“国”对应的“O”标签的概率最高,则在模型训练中需要调整参数,使得“国”对应“I”标签的概率最高。

示例性地,参见图3,可以基于预测答案和样本答案确定差值,并基于差值对图卷积网络层的参数进行调整。

在一些实施例中,所述基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件的具体实现可以包括:若所述差值小于预设阈值,停止对所述阅读理解模型的训练;若所述差值大于或等于所述预设阈值,继续对所述阅读理解模型进行训练。

需要说明的是,预设阈值可以由用户根据实际需求进行设置,也可以由计算设备默认设置,本申请实施例对此不作限定。

也就是说,可以基于预测答案和样本答案的差值对阅读理解模型进行训练,若损失值小于预设阈值,可以认为当前的模型参数已经基本满足需求,可以认为阅读理解模型已经训练完成,因此,可以停止对阅读理解模型的训练。若损失值大于或等于预设阈值,可以认为模型的预测答案与样本答案的差异较大,当前的模型参数无法满足需求,因此,需要继续对阅读理解模型进行训练。

通过差值与预设阈值的关系确定是否继续对阅读理解模型进行训练,可以更精准地掌握阅读理解模型的训练程度,提高模型的训练效率和模型处理阅读理解任务的准确率。

在另一些实施例中,所述达到训练停止条件可以包括:每得到一次预测答案,记录进行一次迭代训练;统计迭代训练的训练次数,若所述训练次数大于次数阈值,确定达到所述训练停止条件。

需要说明的是,次数阈值可以由用户根据实际需求进行设置,也可以由计算设备默认设置,本申请实施例对此不作限定。

作为一种示例,每得到一次预测答案,说明进行了一次迭代训练,可以在记录迭代训练次数上加一,每进行一次迭代训练后统计训练次数,若训练次数大于次数阈值,说明对阅读理解模型的训练已经足够,即达到训练停止条件,再继续训练,可能无法达到更好的效果,因此可以停止训练。若训练次数小于或等于次数阈值,说明对阅读理解模型的训练次数太少,阅读理解模型可能还没训练至达到实际需求,因此还可以继续基于本次的预测答案和样本答案的差值进行训练。

通过迭代训练的次数与次数阈值的对应关系确定是否继续训练阅读理解模型,可以减少不必要的迭代训练,减少迭代训练导致的计算资源消耗,提高模型的训练效率。

本申请实施例中,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。通过本申请的方法,可以有效地利用样本文本片段、样本问题和样本答案的特征向量,提取三者之间的关联关系,结合样本文本片段、样本问题和样本答案之间的关联关系对阅读理解模型进行训练,可以提高阅读理解模型执行阅读理解任务的准确率。

下述结合附图8以本申请提供的阅读理解模型训练方法在阅读理解任务中的应用为例,对所述阅读理解模型的训练方法进行进一步说明。其中,图8示出了本申请一实施例提供的一种应用于选择题的阅读理解模型的训练方法的处理流程图,具体可以包括以下步骤:

步骤802,获取样本文本片段、样本问题和样本答案。

例如,假设样本文本片段为“我爱我的祖国”,样本问题为一道选择题,假设样本问题是“我爱谁”,选项包括“祖国”、“父亲”、“母亲”、“家人”,则样本答案为“祖国”。

步骤804,将样本文本片段、样本问题和样本答案输入阅读理解模型的图构建网络层,基于样本文本片段中词单元之间的依存关系构建初始第三图网络。

在实施中,可以以所述样本文本片段中的词为节点,得到多个节点,基于所述样本文本片段中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第三图网络。

例如,参见图4,初始第三图网络的节点包括样本文本片段中的词单元“我”、“爱”、“我”、“的”、“祖”和“国”,根据这六个词单元之间的依存关系,可以确定一个“我”和“爱”之间存在一条边,一个“我”分别和“的”、“祖”之间存在一条边,“爱”和“祖”之间存在一条边,“祖”和“国”之间存在一条边。

步骤806,基于所述样本答案中的词单元与所述样本文本片段中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到初始第一图网络。

例如,参见图5,可以将“祖”确定为一个目标节点,将“国”确定为一个目标节点,将目标节点“祖”与初始第三图网络中的每个节点相连,并将目标节点“国”与初始第三图网络中的每个节点相连,可以得到初始第一图网络。

步骤808,将样本文本片段、样本问题和样本答案输入阅读理解模型的图构建网络层,基于样本问题中词单元之间的依存关系构建初始第四图网络。

在实施中,可以以所述样本问题中的词为节点,得到多个节点;基于所述样本问题中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第四图网络。

例如,参见图6,初始第四图网络的节点包括样本问题中的词单元“我”、“爱”“谁”,根据这三个词单元之间的依存关系,可以确定“我”分别与“爱”、“谁”之间存在一条边,“爱”和“谁”之间存在一条边。

步骤810,基于所述样本答案中的词单元与所述样本问题中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第四图网络中的节点相连,得到所述初始第二图网络。

例如,参见图7,可以将“祖”确定为一个目标节点,将“国”确定为一个目标节点,将目标节点“祖”与初始第四图网络中的每个节点相连,并将目标节点“国”与初始第四图网络中的每个节点相连,可以得到初始第二图网络。

需要说明的是,步骤802-步骤810是对步骤202的下位描述,其实现过程与步骤202的过程相同,具体实现可以参见步骤202的相关描述,本实施例在此不再赘述。

步骤812,对所述样本文本片段进行分词处理得到第一词单元组、对所述样本问题进行分词处理得到第二词单元组、以及对所述样本答案进行分词处理得到第三词单元组。

继续上述举例,对样本文本片段进行分词后可以得到第一词单元组,分别为“我”、“爱”、“我”、“的”、“祖”、“国”。同理,对样本问题进行分词可以得到第二词单元组,分别为“我”、“爱”、“谁”。对样本答案进行分词可以得到第三词单元组,分别为“祖”和“国”。

步骤814,对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组。

以样本答案为“祖国”为例,特征提取层可以得到“祖国”这一文本中每个字的向量表示,假设“祖”对应的第三词向量为x,“国”对应的第三词向量为y。同理,对样本文本片段“我爱我的祖国”进行词嵌入处理,可以输出样本文本片段中每个字的第一词向量,对样本问题“我爱谁”进行词嵌入处理,可以输出样本问题中每个字的第二词向量。

步骤816,对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。

继续上述举例,对样本答案中的“祖”和“国”进行编码处理,可以分别得到“祖”的第三特征向量和“国”的第三特征向量。同理,对样本问题中的“我”、“爱”和“谁”进行编码处理,可以分别得到“我”的第一特征向量、“爱”的第一特征向量和“谁”的第一特征向量。对样本文本片段中的“我”、“爱”、“我”、“的”、“祖”和“国”进行编码处理,可以分别得到“我”的第二特征向量、“爱”的第二特征向量、“我”的第二特征向量、“的”的第二特征向量、“祖”的第二特征向量和“国”的第二特征向量。

需要说明的是,步骤812-步骤816是对步骤204的下位描述,其实现过程与步骤204的过程相同,具体实现可以参见步骤204的相关描述,本实施例在此不再赘述。

步骤818,通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值,得到第一图网络。

作为一种示例,可以将所述第一特征向量组中的第一特征向量作为所述初始第一图网络中第一节点的注意力值,所述第一节点为所述第一图网络中所述样本文本片段的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第一图网络中第二节点的注意力值,所述第二节点为所述第一图网络中所述样本答案的词单元对应的节点;基于所述第一特征向量组,确定所述初始第一图网络中存在边的两个第一节点之间的注意力值并作为所述边的注意力值;基于所述第三特征向量组,确定所述初始第一图网络中存在边的第一节点和第二节点之间的注意力值并作为所述边的注意力值。

示例性地,参见图5,对于存在边的两个第一节点,图5中的“我”和“爱”之间存在边,且“我”和“爱”是样本文本片段中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第一特征向量组中获取“爱”的第一特征向量,可以将“我”的第一特征向量和“爱”的第一特征向量相乘,对乘积进行归一化处理,可以得到“我”和“爱”之间边的注意力值。对于存在边的第一节点和第二节点,图5中的“我”和“祖”之间存在边,且“我”是样本文本片段中的词单元,“祖”是样本答案中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第三特征向量组中获取“祖”的第三特征向量,可以将“我”的第一特征向量和“祖”的第三特征向量相乘,对乘积进行归一化处理,可以得到“我”和“祖”之间边的注意力值。

通过上述方式,可以确定图5中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第一图网络中,则可以得到第一图网络。

步骤820,通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值,得到第二图网络。

作为一种示例,将所述第二特征向量组中的第二特征向量作为所述初始第二图网络中第三节点的注意力值,所述第三节点为所述初始第二图网络中所述样本问题的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第二图网络中第四节点的注意力值,所述第四节点为所述初始第二图网络中所述样本答案的词单元对应的节点;基于所述第二特征向量组,确定所述初始第二图网络中存在边的两个第三节点之间的注意力值并作为所述边的注意力值;基于所述第三特征向量组,确定所述初始第二图网络中存在边的第三节点和第四节点之间的注意力值并作为所述边的注意力值。

示例性地,参见图7,对于存在边的两个第三节点,图7中的“我”和“谁”之间存在边,且“我”和“谁”是样本问题中的词单元,可以从第二特征向量组中获取词单元“我”的第二特征向量,以及从第二特征向量组中获取“谁”的第二特征向量,可以将“我”的第二特征向量和“谁”的第二特征向量相乘,对乘积进行归一化处理,可以得到“我”和“谁”之间边的注意力值。对于存在边的第三节点和第四节点,图7中的“谁”和“国”之间存在边,且“谁”是样本问题中的词单元,“国”是样本答案中的词单元,可以从第二特征向量组中获取词单元“谁”的第二特征向量,以及从第三特征向量组中获取“国”的第三特征向量,可以将“谁”的第二特征向量和“国”的第三特征向量相乘,对乘积进行归一化处理,可以得到“谁”和“国”之间边的注意力值。

通过上述方式,可以确定图7中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第二图网络中,则可以得到第二图网络。

需要说明的是,步骤812-步骤820是对步骤206的下位描述,其实现过程与步骤206的过程相同,具体实现可以参见步骤206的相关描述,本实施例在此不再赘述。

步骤822,将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,通过所述图卷积网络层,确定所述第一图网络的第一隐层特征向量和所述第二图网络的第二隐层特征向量。

步骤824,将所述第一隐层特征向量和所述第二隐层特征向量进行加权求和,得到目标隐层特征向量。

步骤826,通过序列标注函数将所述目标隐层特征向量每一维的值转换成至少一个预测概率。

其中,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率。并且,目标隐层特征向量的长度与样本文本片段的长度是相同的,即可以认为目标隐层特征向量的维度与样本文本片段的词单元的数量是相同的。

示例性地,假设目标隐层特征向量是6维向量,且6维分别对应词单元我、爱、我、的、祖、国,则将目标隐层特征向量中每一维转换成3个预测概率,每一个概率对应的是标签“BIO”出现的可能性。例如,对于词单元“我”,假设计算得到的预测概率分别为0.2,0.3,0.5。

步骤828,基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签。

继续上述举例,由于0.5最大,则可以确定“我”对应的预测标签为“O”。

步骤830,将对应答案开头词的词单元和对应答案中间结尾词的词单元作为所述预测答案。

继续上述举例,假设确定6个词单元分别对应的预测标签为“O”、“O”、“O”、“O”、“B”和“I”。由于标签“B”表示答案开头词,标签“I”表示答案中间结尾词,则可以认为“祖”和“国”是预测答案。

需要说明的是,步骤822-步骤830是对步骤208的下位描述,其实现过程与步骤208的过程相同,具体实现可以参见步骤208的相关描述,本实施例在此不再赘述。

步骤832,基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练。

步骤834,若所述损失值小于预设阈值,停止对所述阅读理解模型的训练。

步骤836,若所述损失值大于或等于所述预设阈值,继续对所述阅读理解模型进行训练。

需要说明的是,步骤832-步骤836是对步骤210的下位描述,其实现过程与步骤210的过程相同,具体实现可以参见步骤210的相关描述,本实施例在此不再赘述。

本申请实施例中,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组;将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。通过本申请的方法,可以有效地利用样本文本片段、样本问题和样本答案的特征向量,提取三者之间的关联关系,结合样本文本片段、样本问题和样本答案之间的关联关系对阅读理解模型进行训练,可以提高阅读理解模型执行阅读理解任务的准确率。

参见图9,图9示出了根据本申请一实施例提供的一种阅读理解方法的流程图,包括步骤902至步骤908。

步骤902,通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络。

作为一种示例,若目标问题是选择题,则目标答案可以是多个选项进行拼接得到的文本;若目标问题是简答题,则目标答案可以是目标文本中的关键词。

示例性地,假设目标文本是“李白一生写诗无数,被称为诗仙”,目标问题是选择题,且目标问题是“哪位诗人被称为诗仙”,三个选项分别是“李白”、“杜甫”和“苏轼”,则可以将这三个选项拼接作为目标答案,则目标答案可以是“李白杜甫苏轼”。

示例性地,假设目标问题是简答题,且目标问题是“哪位诗人被称为诗仙”,目标文本是“《将进酒》以豪放的语言,抒写了旷达不羁、乐观自信的精神和对社会现实的愤闷,是诗仙李白的作品”,则可以从该目标文本中抽取关键词,得到“将进酒”、“旷达不羁”、“乐观自信”、“诗仙”和“李白”,则可以将“将进酒旷达不羁乐观自信诗仙李白”作为目标答案。

作为一种示例,初始第一图网络用于表征目标文本与目标答案之间的关联关系,初始第二图网络用于表征目标问题与目标答案之间的关联关系。

示例性地,参见图10,可以将目标文本、目标问题和目标答案输入阅读理解模型的图构建网络层,基于目标文本和目标答案得到初始第一图网络,以及基于目标问题和目标答案得到初始第二图网络。

在实施中,若目标文本的文本长度小于长度阈值,通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络的具体实现可以包括:基于所述目标文本中词单元之间的依存关系构建初始第三图网络,以及基于所述目标问题中词单元之间的依存关系构建初始第四图网络。基于所述初始第三图网络和所述目标答案之间的关联关系构建所述初始第一图网络,以及基于所述初始第四图网络和所述目标答案之间的关联关系构建所述初始第二图网络。

其中,初始第三图网络用于表征目标文本中词单元之间的依存关系。初始第四图网络用于表征目标问题中词单元之间的依存关系。

也就是说,若目标文本的文本长度小于长度阈值,则该阅读理解模型可以对该目标文本进行处理,可以先构建反映目标文本中词单元之间依存关系的初始第三图网络,再在初始第三图网络的基础上,根据目标答案与目标文本之间的关联关系,构建第一图网络。以及,先构建反映目标问题中词单元之间依存关系的初始第四图网络,再在初始第四图网络的基础上,根据目标答案与目标问题之间的关联关系,构建第二图网络。

需要说明的是,长度阈值可以由用户根据实际需求进行设置,也可以由设备默认设置,本申请实施例对此不作限定。

在一些实施例中,基于所述目标文本中词单元之间的依存关系构建初始第三图网络的具体实现可以包括:以所述目标文本中的词单元为节点,得到多个节点;基于所述目标文本中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第三图网络。

也就是说,将目标文本中的词单元作为节点,将词单元之间的依存关系作为边,可以构建表征目标文本中词单元之间依存关系的初始第三图网络。

作为一种示例,可以通过Stanford Core NLP算法对目标文本进行依存分析,可以得到目标文本中多个词单元之间的依存关系。

示例性地,以目标文本是“我爱我的祖国”为例,通过Stanford Core NLP算法对目标文本“我爱我的祖国”进行依存分析,可以得到“我”为主语,“爱”为谓语,“我的祖国”为宾语,且可以得到“我”、“爱”、“我”、“的”“祖”和“国”彼此之间的依存关系关系。例如,目标文本中一个“我”与“爱”存在依存关系,一个“我”与“的”和“祖”均存在依存关系,“爱”还与“祖”存在依存关系,且“祖”与“国”存在依存关系,基于上述所述依存关系,可以得到图4所示的初始第三图网络。

在一些实施例中,所述基于所述初始第三图网络和所述目标答案之间的关联关系构建所述初始第一图网络的具体实现可以包括:基于所述目标答案中的词单元与所述目标文本中的词单元之间的关联关系,以所述目标答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到所述初始第一图网络。

也就是说,可以以目标答案中的词单元为目标节点,将目标节点与初始第三图网络中目标文本的词单元对应的节点相连,如此,可以得到表征目标文本的词单元与目标答案的词单元之间的关联关系的初始第一图网络。

作为一种示例,可以将目标答案中的词单元对应的目标节点与目标文本中每个词单元对应的节点相连。或者,作为另一种示例,可以将目标答案中的词单元对应的目标节点与初始第三图网络中与目标节点存在关联关系的节点相连。

示例性地,以目标文本为“我爱我的祖国”,目标问题是选择题为例,假设选项包括“祖国”和“家乡”,则目标答案为“祖国家乡”,可以将目标答案中的词单元作为目标节点,将目标答案中的“祖”分别与初始第三图网络中每个节点相连,将目标答案中的“国”分别与初始第三图网络中每个节点相连,将目标答案中的“家”分别与初始第三图网络中每个节点相连,将目标答案中的“乡”分别与初始第三图网络中每个节点相连,可以得到图11所示的第一图网络,图11中加粗的节点即为目标节点。

在一些实施例中,所述基于所述目标问题中词单元之间的依存关系构建初始第四图网络的具体实现可以包括:以所述目标问题中的词单元为节点,得到多个节点;基于所述目标问题中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第四图网络。

也就是说,将目标问题中的词单元作为节点,将词单元之间的依存关系作为边,可以构建表征目标问题中词单元之间依存关系的初始第四图网络。

作为一种示例,可以通过Stanford Core NLP算法对目标问题进行依存分析,可以得到目标问题中多个词单元之间的依存关系。

作为一种示例,通过Stanford Core NLP算法对目标问题“我爱谁”进行依存分析,可以得到“我”为主语,“爱”为谓语,“谁”为宾语,且可以得到“我”、“爱”、“谁”彼此之间的依存关系关系。例如,目标问题中“我”与“爱”之间存在依存关系,“爱”与“谁”之间存在依存关系,“我”与“谁”之间存在依存关系,基于上述所述依存关系,参见图6,可以得到图6所示的初始第四图网络。

在一些实施例中,所述基于所述初始第四图网络和所述目标答案之间的关联关系构建所述初始第二图网络的具体实现可以包括:基于所述目标答案中的词单元与所述目标问题中的词单元之间的关联关系,以所述目标答案中的词单元为目标节点,将所述目标节点与所述初始第四图网络中的节点相连,得到所述初始第二图网络。

也就是说,可以以目标答案中的词单元为目标节点,将目标节点与初始第四图网络中目标问题的词单元对应的节点相连,如此,可以得到表征目标问题的词单元与目标答案的词单元之间的关联关系的初始第二图网络。

作为一种示例,可以将目标答案中的词单元对应的目标节点与目标问题中每个词单元对应的节点相连。或者,作为另一种示例,可以将目标答案中的词单元对应的目标节点与初始第四图网络中与目标节点存在关联关系的节点相连。

示例性地,以目标问题为“我爱谁”,目标答案为“祖国家乡”为例,可以将目标答案中的词单元作为目标节点,将目标答案中的“祖”分别与初始第四图网络中每个节点相连,将目标答案中的“国”分别与初始第四图网络中每个节点相连,将目标答案中的“家”分别与初始第四图网络中每个节点相连,将目标答案中的“乡”分别与初始第四图网络中每个节点相连,可以得到图12所示的初始第二图网络,图12中加粗的节点即为目标节点。

在本申请实施例中,可以充分利用目标文本和目标答案之间的关联关系,以及目标文本和目标问题之间的关联关系对阅读理解模型进行训练,可以提高阅读理解模型执行阅读理解任务的准确率。

需要说明的是,上述是以目标文本的文本长度小于长度阈值为例进行说明,若目标文本是篇章级的文本,即目标文本的文本长度大于或等于长度阈值,则阅读理解模型可能无法对该目标文本进行处理,因此,可以对目标文本进行分段或分句处理,得到多个目标文本片段,然后通过上述方法构建每个目标文本片段与目标问题的初始第一图网络。例如,若目标文本被划分为3个目标文本片段,则可以构建3个第一图网络。

步骤904,将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组。

其中,特征提取层可以用于提取输入的文本的特征。

作为一种示例,第一特征向量组是目标文本经过特征提取层之后得到的特征向量组,第二特征向量组是目标问题目标文本经过特征提取层之后得到的特征向量组,第三特征向量组是目标答案目标文本经过特征提取层之后得到的特征向量组。并且,第一特征向量组包括多个第一特征向量,每个第一特征向量与目标文本中一个词单元对应,第二特征向量组包括多个第二特征向量,每个第二特征向量与目标问题中一个词单元对应,第三特征向量组包括多个第三特征向量,每个第三特征向量与目标答案中一个词单元对应。

示例性地,参见图10,可以将目标文本、目标问题和目标答案输入阅读理解模型的特征提取层,分别确定第一特征向量组、第二特征向量组和第三特征向量组。

在实施中,若目标文本的文本长度小于长度阈值,本步骤的具体实现可以包括:对所述目标文本、所述目标问题和所述目标答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组;对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组;对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。

在本申请实施例中,特征提取层可以包括词嵌入处理功能和编码功能。作为一种示例,特征提取层可以包括词嵌入处理模块和编码模块。

示例性地,特征提取层可以采用Bert模型的结构。由于通过Bert模型得到的特征向量是结合全文语义信息后的特征向量,因此,能够更加充分地利用目标文本、目标问题、以及目标答案中词单元的特征向量,可以提高阅读理解模型的准确率。

作为一种示例,以目标文本为例,若目标文本为中文文本,可以将一个字划分为一个词单元,将一个标点符号划分为一个词单元;若目标文本为外文文本,可以将一个单词划分为一个词单元,将一个短语划分为一个词单元;若目标文本中有数字,可以将数字单独划分为一个词单元。

示例性地,假设目标文本是“李白一生写诗无数,被称为诗仙”,则可以得到“李”、“白”、“一”、“生”、“写”、“诗”、“无”、“数”、“,”、“被”、“称”、“为”、“诗”、“仙”该多个第一词单元。

作为一种示例,可以通过one-hot(独热)编码的方式对第一词单元组中每个第一词单元进行词嵌入处理,得到每个第一词单元的词向量,对第二词单元组中每个第二词单元进行词嵌入处理,得到每个第二词单元的词向量,以及对第三词单元组中每个词单元进行词嵌入处理,得到每个第三词单元的词向量。

作为另一种示例,可以通过word2vec编码的方式对第一词单元组中每个第一词单元进行词嵌入处理,得到每个第一词单元的词向量,对第二词单元组中每个第二词单元进行词嵌入处理,得到每个第二词单元的词向量,以及对第三词单元组中每个词单元进行词嵌入处理,得到每个第三词单元的词向量。

作为一种示例,对每个第一词向量、每个第二词向量和每个第三词向量进行编码处理,可以得到每个第一词单元对应的融合目标文本全文语义信息后的向量表示,即第一特征向量,以及可以得到每个第二词单元对应的融合目标问题全文语义信息后的向量表示,即第二特征向量,以及可以得到每个第三词单元对应的融合目标答案全文语义信息后的向量表示,即第三特征向量,进而可以得到第一特征向量组、第二特征向量组和第三特征向量组。

示例性地,以目标问题是“我爱谁”为例,将“我爱谁”输入特征提取层,可以对“我爱谁”进行分词,得到词单元“我”、“爱”和“谁”,对“我”、“爱”和“谁”分别进行词嵌入处理,可以得到“我”的词向量、“爱”的词向量和“谁”的词向量,对“我”的词向量、“爱”的词向量和“谁”的词向量进行编码,可以得到“我”结合“爱”、“谁”这两个字的词向量之后得到的第三特征向量,以及可以得到“爱”结合“我”、“谁”这两个字的词向量之后得到的第三特征向量,以及可以得到“谁”结合“我”、“爱”这两个字的词向量之后得到的第三特征向量。同理,将目标文本“我爱我的祖国”输入特征提取层,可以输出目标文本中每个字的第一特征向量,将目标答案“祖国家乡”输入特征提取层,可以输出目标答案中每个字的第二特征向量。

本申请实施例中特征提取层可以采用已经进行预处理,并使用阅读理解任务微调后的BERT模型的结构,如此,能够使得得到的第一特征向量组、第二特征向量组和第三特征向量组分别更加准确地反映目标文本的语义、目标问题的语义和目标答案的语义,可以提高模型的训练速率和使用准确率。

需要说明的是,上述是以目标文本的文本长度小于长度阈值为例进行说明,在目标文本的文本长度小于长度阈值的情况下,阅读理解模型能够对该目标文本进行处理,因此可以直接对该目标文本进行分词处理。在其他实施方式中,若目标文本是篇章级的文本,即目标文本的文本长度大于或等于长度阈值,则阅读理解模型可能无法对该目标文本进行处理,因此,可以先对目标文本进行分段或分句处理,得到多个目标文本片段,然后通过特征提取层提取每个目标文本片段的第一特征向量组。例如,若目标文本被划分为3个目标文本片段,则可以提取3个第一特征向量组,该3个第一特征向量组分别用于表示该3个目标文本片段的语义。并且,提取目标文本片段的第一特征向量组的方法与上述提取目标文本的第一特征向量组的方法相同,本实施例在此不再赘述。

步骤906,将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络。

其中,第一图网络是包括节点的注意力值和边的注意力值的初始第一图网络。第二图网络是包括节点的注意力值和边的注意力值的初始第二图网络。

作为一种示例,注意力层可以采用BERT模型的注意力层的结构。或者,注意力层可以采用其他任意包括注意力机制的模型的结构,本申请实施例对此不做限定。

作为一种示例,在本步骤中,可以将第一特征向量组、第二特征向量组、第三特征向量组、初始第一图网络和初始第二图网络输入阅读理解模型的注意力层,基于第一特征向量组和第二特征向量组为初始第一图网络的节点和边添加注意力值,得到第一图网络,以及基于第二特征向量组和第三特征向量组为初始第二图网络的节点和边添加注意力值,得到第二图网络。示例性地,参见图10,可以将第一特征向量组、第二特征向量组、第三特征向量组、初始第一图网络和初始第二图网络输入阅读理解模型的注意力层,基于第一特征向量组、第二特征向量组为初始第一图网络包括的节点和边添加注意力值,得到第一图网络;以及基于第二特征向量组和第三特征向量组为初始第二图网络包括的节点和边添加注意力值,得到第二图网络。

或者,作为另一种示例,在本步骤中,可以将第一特征向量组、第二特征向量组和第三特征向量组输入阅读理解模型的注意力层,基于第一特征向量组和第二特征向量组,得到初始第一图网络包括的节点和边的注意力值,并将注意力值添加至初始第一图网络,得到第一图网络;以及基于第二特征向量组和第三特征向量组,得到初始第二图网络包括的节点和边的注意力值,并将注意力值添加至初始第二图网络,得到第二图网络。

在实施中,若所述目标文本的文本长度小于长度阈值,本步骤的具体实现可以包括:通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值;通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值。

作为一种示例,初始第一图网络表征目标文本和目标答案之间的关联关系,第一特征向量组是目标文本的特征表示,第三特征向量组是目标答案的特征表示,因此可以根据第一特征向量组和第三特征向量组为初始第一图网络的节点和边添加注意力值。同理,初始第二图网络表征目标问题和目标答案之间的关联关系,第二特征向量组是目标问题的特征表示,第三特征向量组是目标答案的特征表示,因此可以根据第二特征向量组和第三特征向量组为初始第二图网络的节点和边添加注意力值。

在一些实施例中,通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值的具体实现可以包括:将所述第一特征向量组中的第一特征向量作为所述初始第一图网络中第一节点的注意力值,所述第一节点为所述初始第一图网络中所述目标文本的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第一图网络中第二节点的注意力值,所述第二节点为所述初始第一图网络中所述目标答案的词单元对应的节点;基于所述第一特征向量组,确定所述初始第一图网络中存在边的两个第一节点之间的注意力值并作为所述边的注意力值;基于所述第三特征向量组,确定所述初始第一图网络中存在边的第一节点和第二节点之间的注意力值并作为所述边的注意力值。

也就是说,可以将第一特征向量组中的第一特征向量作为初始第一图网络中目标文本的词单元对应的节点的注意力值,将第三特征向量组中的第三特征向量作为初始第一图网络中目标答案的词单元对应的节点的注意力值。并且根据第一特征向量组确定初始第一图网络中目标文本的词单元之间边的注意力值,以及根据第一特征向量组和第三特征向量组确定初始第一图网络中目标文本的词单元和目标答案的词单元之间边的注意力值。

作为一种示例,对于存在边的两个第一节点,可以对这两个第一节点对应的词单元的第一特征向量进行注意力计算,可以得到该边的注意力值。具体的,对两个第一特征向量进行注意力计算是将两个第一特征向量相乘并对结果进行归一化处理,得到注意力值。示例性地,参见图11,图11中的“我”和“爱”之间存在边,且“我”和“爱”是目标文本中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第一特征向量组中获取“爱”的第一特征向量,可以将“我”的第一特征向量和“爱”的第一特征向量相乘,对乘积进行归一化处理,可以得到“我”和“爱”之间边的注意力值。

作为一种示例,对于存在边的第一节点和第二节点,可以对第一节点对应的词单元的第一特征向量和第二节点对应的词单元的第三特征向量进行注意力计算,可以得到该边的注意力值。具体的,对第一特征向量和第三特征向量进行注意力计算是将第一特征向量和第三特征向量相乘并对结果进行归一化处理,得到注意力值。示例性地,参见图11,图11中的“我”和“家”之间存在边,且“我”是目标文本中的词单元,“家”是目标答案中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第三特征向量组中获取“家”的第三特征向量,可以将“我”的第一特征向量和“家”的第三特征向量相乘,对乘积进行归一化处理,可以得到“我”和“家”之间边的注意力值。

通过上述方式,可以确定图11中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第一图网络中,则可以得到第一图网络。

在一些实施例中,通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值的具体实现可以包括:将所述第二特征向量组中的第二特征向量作为所述初始第二图网络中第三节点的注意力值,所述第三节点为所述初始第二图网络中所述目标问题的词单元对应的节点;将所述第三特征向量组中的第三特征向量作为所述初始第二图网络中第四节点的注意力值,所述第四节点为所述初始第二图网络中所述目标答案的词单元对应的节点;基于所述第二特征向量组,确定所述初始第二图网络中存在边的两个第三节点之间的注意力值并作为所述边的注意力值;基于所述第三特征向量组,确定所述初始第二图网络中存在边的第三节点和第四节点之间的注意力值并作为所述边的注意力值。

也就是说,可以将第二特征向量组中的第二特征向量作为初始第二图网络中目标问题的词单元对应的节点的注意力值,将第三特征向量组中的第三特征向量作为初始第二图网络中目标答案的词单元对应的节点的注意力值。并且根据第二特征向量组确定初始第二图网络中目标问题的词单元之间边的注意力值,以及根据第二特征向量组和第三特征向量组确定初始第二图网络中目标问题的词单元和目标答案的词单元之间边的注意力值。

作为一种示例,对于存在边的两个第三节点,可以对这两个第三节点对应的词单元的第二特征向量进行注意力计算,可以得到该边的注意力值。具体的,对两个第二特征向量进行注意力计算是将两个第二特征向量相乘并对结果进行归一化处理,得到注意力值。示例性地,参见图12,图12中的“我”和“谁”之间存在边,且“我”和“谁”是目标问题中的词单元,可以从第二特征向量组中获取词单元“我”的第二特征向量,以及从第二特征向量组中获取“谁”的第二特征向量,可以将“我”的第二特征向量和“谁”的第二特征向量相乘,对乘积进行归一化处理,可以得到“我”和“谁”之间边的注意力值。

作为一种示例,对于存在边的第三节点和第四节点,可以对第三节点对应的词单元的第二特征向量和第四节点对应的词单元的第三特征向量进行注意力计算,可以得到该边的注意力值。具体的,对第二特征向量和第三特征向量进行注意力计算是将第二特征向量和第三特征向量相乘并对结果进行归一化处理,得到注意力值。示例性地,参见图12,图12中的“谁”和“家”之间存在边,且“谁”是目标问题中的词单元,“家”是目标答案中的词单元,可以从第二特征向量组中获取词单元“谁”的第二特征向量,以及从第三特征向量组中获取“家”的第三特征向量,可以将“谁”的第二特征向量和“家”的第三特征向量相乘,对乘积进行归一化处理,可以得到“谁”和“家”之间边的注意力值。

通过上述方式,可以确定图12中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第二图网络中,则可以得到第二图网络。

本申请实施例中,可以通过上述公式(1)对两个特征向量进行注意力计算,具体实现可以参见步骤206的相关描述,本申请实施例在此不再赘述。

需要说明的是,上述是以目标文本的文本长度小于长度阈值,即第一特征向量组与目标文本对应对确定第一图网络为例进行说明。在其他实施方式中,对于一个目标文本来说,若该目标文本被拆分为多个目标文本片段,则第一特征向量组是目标文本片段的特征向量组,则可以基于每个目标文本片段的第一特征向量组和目标答案的第三特征向量组为与该目标文本片段对应的初始第一图网络的节点和边添加注意力值。

例如,若目标文本被划分为3个目标文本片段,则可以提取3个第一特征向量组,生成3个初始第一图网络。对于参考初始第一图网络来说,该参考初始第一图网络是基于参考目标文本片段和目标答案生成的,则可以根据该参考目标文本片段的第一特征向量组和目标答案的第三特征向量组,为该参考初始第一图网络的节点和边添加注意力值,得到参考第一图网络。其中,参考目标文本片段是多个文本片段中的任一一个,且参考初始第一图网络与该参考目标文本片段对应,该参考第一图网络与该参考目标文本片段对应。同理,通过上述方式可以得到3个第一图网络。另外,为与目标文本片段对应的初始第一图网络的节点和边添加注意力值的实现过程与上述为初始第一图网络的节点和边添加注意力值的实现过程相同,具体可以参见本步骤上述实施例的相关描述,本实施例在此不再赘述。

需要说明的是,步骤904-步骤906是步骤“将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络”的具体实现。

步骤908,将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到所述目标问题的答案。

作为一种示例,图卷积网络层可以是GCN(Graph Convolutional Network,图卷积网络)模型。

示例性地,参见图10,可以将第一图网络和第二图网络输入阅读理解模型的图卷积网络层中,得到答案。

在实施中,若所述目标文本的文本长度小于长度阈值,则所述第一图网络是反映所述目标文本和所述目标答案的关联关系的图网络,将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到答案的具体实现可以包括:通过所述图卷积网络层,确定所述第一图网络的第一隐层特征向量和所述第二图网络的第二隐层特征向量;将所述第一隐层特征向量和所述第二隐层特征向量进行加权求和,得到目标隐层特征向量;基于所述目标隐层特征向量确定所述答案。

其中,第一隐层特征向量是第一图网络经过图卷积网络层进行卷积处理后得到的第一图网络的向量表示。第二隐层特征向量是第二图网络经过图卷积网络层进行卷积处理后得到的第二图网络的向量表示。

作为一种示例,可以将第一图网络输入图卷积网络层中进行卷积处理,可以得到第一隐层特征向量,将第二图网络输入图卷积网络层中进行卷积处理,可以得到第二隐层特征向量。

需要说明的是,在图卷积网络层可以通过上述公式(2)对图网络进行卷积处理,具体实现可以参见步骤208的相关描述,本申请实施例在此不再赘述。

作为一种示例,将第一隐层特征向量和第二隐层特征向量进行加权求和时,第一隐层特征向量的权值和第二隐层特征向量的权值可以是相同的,也可以是不同的,可以由用户根据实际需求进行设置,也可以由计算设备默认设置,本申请实施例对此不做限定。

在一些实施例中,基于所述目标隐层特征向量确定所述答案的具体实现可以包括:通过序列标注函数将所述目标隐层特征向量每一维的值转换成至少一个概率,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个概率表征每一维对应的词单元的标签是至少一个标签的概率;基于每一维对应的至少一个概率确定每一维对应的词单元的标签;基于所述每一维对应的词单元的标签确定所述答案。

作为一种示例,序列标注函数是进行序列标注时使用的函数,可以将输入的向量映射到至少一维的概率中,即对于每个向量可以得到至少一个概率。

示例性地,可以将目标隐层特征向量作为序列标注函数的输入,通过该序列标注函数的计算,可以得到该目标隐层特征向量每一维对应的概率。

作为一种示例,标签可以是B、I、O。其中,B表示答案开头词,即答案的第一个字;I表示答案中间结尾词,即答案的第二个字到最后一个字;O表示非答案词,即不是答案的字。

需要说明的是,目标隐层特征向量的长度与目标文本的长度相同。

示例性地,以目标文本是“我爱我的祖国”为例,则目标隐层特征向量是6维向量,且6维分别对应词单元我、爱、我、的、祖、国,则将目标隐层特征向量中每一维转换成3个概率,每一个概率对应的是标签“BIO”出现的可能性。例如,对于词单元“爱”,假设计算得到的概率分别为0.2,0.3,0.5,可以确定标签为“O”的概率最大,则“爱”对应的标签为“O”。同理,假设确定该6个词单元分别对应的标签为“O”、“O”、“O”、“O”“B”“I”。由于标签“B”表示答案开头词,标签“I”表示答案中间结尾词,则可以认为“祖”和“国”是答案。

作为一种示例,所述至少一个标签包括答案开头词、答案中间结尾词和非答案词,基于所述每一维对应的词单元的标签确定所述答案的具体实现可以包括:将对应答案开头词的词单元和对应答案中间结尾词的词单元作为所述答案。

也就是说,可以将答案开头词和答案中间结尾词进行拼接,得到答案。

继续上述举例,可以将“祖国”确定为答案。

需要说明的是,上述是以目标文本的文本长度小于长度阈值,即第一图网络与整个目标文本对应为例进行说明。在其他实施方式中,对于一个目标文本来说,若该目标文本被拆分为多个目标文本片段,则第一图网络是与目标文本片段对应的,将第一图网络和第二图网络输入图卷积网络层得到的答案是与该目标文本片段对应的,但该答案不一定是该目标问题的正确答案。因此,在该种情况下,每个目标文本片段可以得到一个答案,则可以得到多个答案,然后可以从多个答案中确定目标问题的正确答案。

作为一种示例,可以将多个答案中出现频率最高的目标答案作为目标问题的答案。例如,假设目标文本被划分为10个目标文本片段,将每个第一图网络和第二图网络输入图卷积网络层进行处理,可以得到10个答案,且该10个答案中包括目标答案,可以将这10个答案中出现次数最多的目标答案作为目标问题的答案。

通过本申请的方法,可以有效地利用目标文本、目标问题和目标答案的特征向量,提取三者之间的关联关系,结合样本文本、目标问题和目标答案之间的关联关系通过阅读理解模型确定目标问题的答案,可以提高阅读理解模型执行阅读理解任务的准确率。

下述结合附图13以本申请提供的阅读理解方法在阅读理解任务中的应用为例,对所述阅读理解模型的训练方法进行进一步说明。其中,图13示出了本申请一实施例提供的一种应用于选择题的阅读理解方法的处理流程图,具体可以包括以下步骤:

步骤1302:获取目标文本、目标问题和目标答案。

在本申请实施例中,对目标问题的形式以及目标文本的文本长度不作限定,本实施例仅以目标问题为选择题且目标文本的文本长度小于长度阈值为例对阅读理解方法进行说明。

例如,目标文本是“我爱我的祖国”,目标问题是“我爱谁”,目标答案是两个选项,即“祖国家乡”。

步骤1304:将目标文本、目标问题和目标答案输入阅读理解模型的图构建网络层,基于目标文本中词单元之间的依存关系构建初始第三图网络。

例如,以目标文本是“我爱我的祖国”为例,通过Stanford Core NLP算法对目标文本“我爱我的祖国”进行依存分析,可以得到“我”为主语,“爱”为谓语,“我的祖国”为宾语,且可以得到“我”、“爱”、“我”、“的”“祖”和“国”彼此之间的依存关系关系。例如,目标文本中一个“我”与“爱”存在依存关系,一个“我”与“的”和“祖”均存在依存关系,“爱”还与“祖”存在依存关系,且“祖”与“国”存在依存关系,基于上述所述依存关系,可以得到图4所示的初始第三图网络。

步骤1306:基于目标答案中的词单元与目标文本中的词单元之间的关联关系,以目标答案中的词单元为目标节点,将目标节点与初始第三图网络中的节点相连,得到初始第一图网络。

继续上述举例,可以将目标答案中的词单元作为目标节点,将目标答案中的“祖”分别与初始第三图网络中每个节点相连,将目标答案中的“国”分别与初始第三图网络中每个节点相连,将目标答案中的“家”分别与初始第三图网络中每个节点相连,将目标答案中的“乡”分别与初始第三图网络中每个节点相连,可以得到图11所示的第一图网络,图11中加粗的节点即为目标节点。

步骤1308:将目标文本、目标问题和目标答案输入阅读理解模型的图构建网络层,基于目标问题中词单元之间的依存关系构建初始第四图网络。

继续上述举例,通过Stanford Core NLP算法对目标问题“我爱谁”进行依存分析,可以得到“我”为主语,“爱”为谓语,“谁”为宾语,且可以得到“我”、“爱”、“谁”彼此之间的依存关系关系。例如,目标问题中“我”与“爱”之间存在依存关系,“爱”与“谁”之间存在依存关系,“我”与“谁”之间存在依存关系,基于上述所述依存关系,参见图6,可以得到图6所示的初始第四图网络。

步骤1310:基于目标答案中的词单元与目标问题中的词单元之间的关联关系,以目标答案中的词单元为目标节点,将目标节点与初始第四图网络中的节点相连,得到初始第二图网络。

继续上述举例,可以将目标答案中的词单元作为目标节点,将目标答案中的“祖”分别与初始第四图网络中每个节点相连,将目标答案中的“国”分别与初始第四图网络中每个节点相连,将目标答案中的“家”分别与初始第四图网络中每个节点相连,将目标答案中的“乡”分别与初始第四图网络中每个节点相连,可以得到图12所示的初始第二图网络,图12中加粗的节点即为目标节点。

步骤1312:将目标文本、目标问题和目标答案输入阅读理解模型的特征提取层,对目标文本进行分词处理得到第一词单元组、对目标问题进行分词处理得到第二词单元组、以及对目标答案进行分词处理得到第三词单元组。

继续上述举例,对目标文本进行分词后可以得到第一词单元组,分别为“我”、“爱”、“我”、“的”、“祖”、“国”。同理,对目标问题进行分词可以得到第二词单元组,分别为“我”、“爱”、“谁”。对目标答案进行分词可以得到第三词单元组,分别为“祖”、“国”、“家”和“乡”。

步骤1314,对第一词单元组、第二词单元组和第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组。

继续上述举例,对第一词单元组中每个第一词单元进行词嵌入处理,可以分别得到“我”的第一词向量、“爱”的第一词向量、“我”的第一词向量、“的”的第一词向量、“祖”的第一词向量和“国”的第一词向量。同理,对第二词单元组中每个第二词单元进行词嵌入处理,可以分别为“我”的第二词向量、“爱”的第二词向量、“谁”的第二词向量。对第三词单元组中每个第三词单元进行词嵌入处理,可以分别得到“祖”的第三词向量、“国”的第三词向量、“家”的第三词向量、“乡”的第三词向量。

步骤1316,对第一词向量组、第二词向量组和第三词向量组进行编码,分别得到第一特征向量组、第二特征向量组和第三特征向量组。

继续上述举例,对“我”的词向量、“爱”的词向量和“谁”的词向量进行编码,可以得到“我”结合“爱”、“谁”这两个字的词向量之后得到的第三特征向量,以及可以得到“爱”结合“我”、“谁”这两个字的词向量之后得到的第三特征向量,以及可以得到“谁”结合“我”、“爱”这两个字的词向量之后得到的第三特征向量。同理,可以得到目标问题中每个词单元的第二特征向量和目标答案中每个词单元的第三特征向量。

步骤1318,通过注意力层,基于第一特征向量组和第三特征向量组,为初始第一图网络的节点和边添加注意力值,得到第一图网络。

继续上述举例,可以将图11中每个节点的特征向量作为每个节点的注意力值。图11中的“我”和“爱”之间存在边,且“我”和“爱”是目标文本中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第一特征向量组中获取“爱”的第一特征向量,可以将“我”的第一特征向量和“爱”的第一特征向量相乘,对乘积进行归一化处理,可以得到“我”和“爱”之间边的注意力值。“我”和“家”之间存在边,且“我”是目标文本中的词单元,“家”是目标答案中的词单元,可以从第一特征向量组中获取词单元“我”的第一特征向量,以及从第三特征向量组中获取“家”的第三特征向量,可以将“我”的第一特征向量和“家”的第三特征向量相乘,对乘积进行归一化处理,可以得到“我”和“家”之间边的注意力值。

通过上述方式,可以确定图11中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第一图网络中,则可以得到第一图网络。

步骤1320,通过注意力层,基于第二特征向量组和第三特征向量组,为初始第二图网络的节点和边添加注意力值,得到第二图网络。

继续上述举例,可以将图11中每个节点的特征向量作为每个节点的注意力值。图12中的“我”和“谁”之间存在边,且“我”和“谁”是目标问题中的词单元,可以从第二特征向量组中获取词单元“我”的第二特征向量,以及从第二特征向量组中获取“谁”的第二特征向量,可以将“我”的第二特征向量和“谁”的第二特征向量相乘,对乘积进行归一化处理,可以得到“我”和“谁”之间边的注意力值。“谁”和“家”之间存在边,且“谁”是目标问题中的词单元,“家”是目标答案中的词单元,可以从第二特征向量组中获取词单元“谁”的第二特征向量,以及从第三特征向量组中获取“家”的第三特征向量,可以将“谁”的第二特征向量和“家”的第三特征向量相乘,对乘积进行归一化处理,可以得到“谁”和“家”之间边的注意力值。

通过上述方式,可以确定图12中每条边的注意力值和每个节点的注意力值,将节点和边的注意力值添加至初始第二图网络中,则可以得到第二图网络。

步骤1322,将第一图网络和第二图网络输入阅读理解模型的图卷积网络层中,通过图卷积网络层,确定第一图网络的第一隐层特征向量和第二图网络的第二隐层特征向量。

作为一种示例,可以将第一图网络输入图卷积网络层中进行卷积处理,可以得到第一隐层特征向量,将第二图网络输入图卷积网络层中进行卷积处理,可以得到第二隐层特征向量。

步骤1324,将第一隐层特征向量和第二隐层特征向量进行加权求和,得到目标隐层特征向量。

步骤1326,通过序列标注函数将目标隐层特征向量每一维的值转换成至少一个预测概率。

作为一种示例,序列标注函数是进行序列标注时使用的函数,可以将输入的向量映射到至少一维的概率中,即对于每个向量可以得到至少一个概率。

示例性地,可以将目标隐层特征向量作为序列标注函数的输入,通过该序列标注函数的计算,可以得到该目标隐层特征向量每一维对应的概率。

继续上述举例,目标文本是“我爱我的祖国”,包括6个词单元,则目标隐层特征向量是6维向量,且6维分别对应词单元我、爱、我、的、祖、国,则将目标隐层特征向量中每一维转换成3个预测概率,每一个概率对应的是标签“BIO”出现的可能性。例如,对于词单元“祖”,假设计算得到的预测概率分别为0.5,0.3,0.2,则0.5是词单元“祖”的标签是“B”的概率,0.3是词单元“祖”的标签是“I”的概率,0.2是词单元“祖”的标签是“O”的概率,对于词单元“国”,假设计算得到的预测概率分别为0.3,0.6,0.1,则0.3是词单元“国”的标签是“B”的概率,0.6是词单元“国”的标签是“I”的概率,0.1是词单元“国”的标签是“O”的概率。

步骤1328,基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签。

继续上述举例,由于词单元“祖”对应的预测概率中0.5最大,且0.5是词单元“祖”的标签是“B”的概率,则可以确定“祖”对应的预测标签为“O”,词单元“国”对应的预测概率中0.6最大,且0.6是词单元“国”的标签是“I”的概率,则可以确定“国”对应的预测标签为“I”。

步骤1330,将对应答案开头词的词单元和对应答案中间结尾词的词单元作为目标问题的答案。

继续上述举例,假设确定的“我、爱、我、的、祖、国”6个词单元分别对应的标签为“O”、“O”、“O”、“O”、“B”、“I”。由于标签“B”表示答案开头词,标签“I”表示答案中间结尾词,则可以确定目标问题的答案是“祖国”。

通过本申请的方法,可以有效地利用目标文本、目标问题和目标答案的特征向量,提取三者之间的关联关系,结合目标文本、目标问题和目标答案之间的关联关系通过阅读理解模型确定目标问题的答案,可以提高阅读理解模型执行阅读理解任务的准确率。

与上述方法实施例相对应,本申请还提供了阅读理解模型的训练装置实施例,图14示出了本申请一实施例提供的一种阅读理解模型的训练装置的结构示意图。如图14所示,该装置可以包括:

第一图网络构建模块1402,被配置为通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;

第一文本处理模块1404,被配置为将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;

预测模块1406,被配置为将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;

训练模块1408,被配置为基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。

可选地,第一文本处理模块1404,被配置为:

将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组;

将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络。

可选地,第一文本处理模块1404,被配置为:

对所述样本文本片段、所述样本问题和所述样本答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组;

对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组;

对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。

可选地,第一图网络构建模块1402,被配置为:

基于所述样本文本片段中词单元之间的依存关系构建初始第三图网络,以及基于所述样本问题中词单元之间的依存关系构建初始第四图网络;

基于所述初始第三图网络和所述样本答案之间的关联关系构建所述初始第一图网络,以及基于所述初始第四图网络和所述样本答案之间的关联关系构建所述初始第二图网络。

可选地,所述第一图网络构建模块1402,被配置为:

以所述样本文本片段中的词单元为节点,得到多个节点;

基于所述样本文本片段中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第三图网络。

可选地,所述第一图网络构建模块1402,被配置为:

基于所述样本答案中的词单元与所述样本文本片段中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到所述初始第一图网络。

可选地,所述第一图网络构建模块1402,被配置为:

以所述样本问题中的词单元为节点,得到多个节点;

基于所述样本问题中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第四图网络。

可选地,所述第一图网络构建模块1402,被配置为:

基于所述样本答案中的词单元与所述样本问题中的词单元之间的关联关系,以所述样本答案中的词单元为目标节点,将所述目标节点与所述初始第四图网络中的节点相连,得到所述初始第二图网络。

可选地,第一文本处理模块1404,被配置为:

通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值;

通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值。

可选地,第一文本处理模块1404,被配置为:

将所述第一特征向量组中的第一特征向量作为所述初始第一图网络中第一节点的注意力值,所述第一节点为所述第一图网络中所述样本文本片段的词单元对应的节点;

将所述第三特征向量组中的第三特征向量作为所述初始第一图网络中第二节点的注意力值,所述第二节点为所述第一图网络中所述样本答案的词单元对应的节点;

基于所述第一特征向量组,确定所述初始第一图网络中存在边的两个第一节点之间的注意力值并作为所述边的注意力值;

基于所述第三特征向量组,确定所述初始第一图网络中存在边的第一节点和第二节点之间的注意力值并作为所述边的注意力值。

可选地,第一文本处理模块1404,被配置为:

将所述第二特征向量组中的第二特征向量作为所述初始第二图网络中第三节点的注意力值,所述第三节点为所述初始第二图网络中所述样本问题的词单元对应的节点;

将所述第三特征向量组中的第三特征向量作为所述初始第二图网络中第四节点的注意力值,所述第四节点为所述初始第二图网络中所述样本答案的词单元对应的节点;

基于所述第二特征向量组,确定所述初始第二图网络中存在边的两个第三节点之间的注意力值并作为所述边的注意力值;

基于所述第三特征向量组,确定所述初始第二图网络中存在边的第三节点和第四节点之间的注意力值并作为所述边的注意力值。

可选地,预测模块1406,被配置为:

通过所述图卷积网络层,确定所述第一图网络的第一隐层特征向量和所述第二图网络的第二隐层特征向量;

将所述第一隐层特征向量和所述第二隐层特征向量进行加权求和,得到目标隐层特征向量;

基于所述目标隐层特征向量确定所述预测答案。

可选地,所述预测模块1406,被配置为:

通过序列标注函数将所述目标隐层特征向量每一维的值转换成至少一个预测概率,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个预测概率表征每一维对应的词单元的预测标签是至少一个标签的概率;

基于每一维对应的至少一个预测概率确定每一维对应的词单元的预测标签;

基于所述每一维对应的词单元的预测标签确定所述预测答案。

可选地,预测模块1406,被配置为:

所述至少一个标签包括答案开头词、答案中间结尾词和非答案词,将对应答案开头词的词单元和对应答案中间结尾词的词单元作为所述预测答案。

可选地,所述训练模块1408,被配置为:

若所述差值小于预设阈值,停止对所述阅读理解模型的训练;

若所述差值大于或等于所述预设阈值,继续对所述阅读理解模型进行训练。

可选地,所述训练模块1408,被配置为:

每得到一次预测答案,记录进行一次迭代训练;

统计迭代训练的训练次数,若所述训练次数大于次数阈值,确定达到所述训练停止条件。

本申请实施例中,通过阅读理解模型的图构建网络层构建样本文本片段和样本答案的初始第一图网络,以及构建样本问题和所述样本答案的初始第二图网络;将所述样本文本片段、所述样本问题和所述样本答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到预测答案;基于所述预测答案与所述样本答案间的差值对所述阅读理解模型进行训练,直至达到训练停止条件。通过本申请的方法,可以有效地利用样本文本片段、样本问题和样本答案的特征向量,提取三者之间的关联关系,结合样本文本片段、样本问题和样本答案之间的关联关系对阅读理解模型进行训练,可以提高阅读理解模型执行阅读理解任务的准确率。

上述为本实施例的一种阅读理解模型的训练装置的示意性方案。需要说明的是,该阅读理解模型的训练装置的技术方案与上述的阅读理解模型的训练方法的技术方案属于同一构思,阅读理解模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述阅读理解模型的训练方法的技术方案的描述。

与上述方法实施例相对应,本申请还提供了阅读理解装置实施例,图15示出了本申请一实施例提供的一种阅读理解装置的结构示意图。如图15所示,该装置可以包括:

第二图网络构建模块1502,被配置为通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络;

第二文本处理模块1504,被配置为将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;

确定模块1506,被配置为将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,确定所述目标问题的答案。

可选地,第二文本处理模块1504,被配置为:

将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的特征提取层,分别获得第一特征向量组、第二特征向量组和第三特征向量组;

将所述第一特征向量组、所述第二特征向量组和所述第三特征向量组输入所述阅读理解模型的注意力层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络。

可选地,第二文本处理模块1504,被配置为:

对所述目标文本、所述目标问题和所述目标答案进行分词处理,分别得到第一词单元组、第二词单元组和第三词单元组;

对所述第一词单元组、所述第二词单元组和所述第三词单元组进行词嵌入处理,分别得到第一词向量组、第二词向量组和第三词向量组;

对所述第一词向量组、所述第二词向量组和所述第三词向量组进行编码,分别得到所述第一特征向量组、所述第二特征向量组和所述第三特征向量组。

可选地,第二图网络构建模块1502,被配置为:

基于所述目标文本中词单元之间的依存关系构建初始第三图网络,以及基于所述目标问题中词单元之间的依存关系构建初始第四图网络;

基于所述初始第三图网络和所述目标答案之间的关联关系构建所述初始第一图网络,以及基于所述初始第四图网络和所述目标答案之间的关联关系构建所述初始第二图网络。

可选地,所述第二图网络构建模块1502,被配置为:

以所述目标文本中的词单元为节点,得到多个节点;

基于所述目标文本中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第三图网络。

可选地,所述第二图网络构建模块1502,被配置为:

基于所述目标答案中的词单元与所述目标文本中的词单元之间的关联关系,以所述目标答案中的词单元为目标节点,将所述目标节点与所述初始第三图网络中的节点相连,得到所述初始第一图网络。

可选地,所述第二图网络构建模块1502,被配置为:

以所述目标问题中的词单元为节点,得到多个节点;

基于所述目标问题中词单元之间的依存关系,将存在依存关系的节点相连,得到所述初始第四图网络。

可选地,所述第二图网络构建模块1502,被配置为:

基于所述目标答案中的词单元与所述目标问题中的词单元之间的关联关系,以所述目标答案中的词单元为目标节点,将所述目标节点与所述初始第四图网络中的节点相连,得到所述初始第二图网络。

可选地,第二文本处理模块1504,被配置为:

通过所述注意力层,基于所述第一特征向量组和所述第三特征向量组,为所述初始第一图网络的节点和边添加注意力值;

通过所述注意力层,基于所述第二特征向量组和所述第三特征向量组,为所述初始第二图网络的节点和边添加注意力值。

可选地,第二文本处理模块1504,被配置为:

将所述第一特征向量组中的第一特征向量作为所述初始第一图网络中第一节点的注意力值,所述第一节点为所述第一图网络中所述目标文本的词单元对应的节点;

将所述第三特征向量组中的第三特征向量作为所述初始第一图网络中第二节点的注意力值,所述第二节点为所述第一图网络中所述目标答案的词单元对应的节点;

基于所述第一特征向量组,确定所述初始第一图网络中存在边的两个第一节点之间的注意力值并作为所述边的注意力值;

基于所述第三特征向量组,确定所述初始第一图网络中存在边的第一节点和第二节点之间的注意力值并作为所述边的注意力值。

可选地,第二文本处理模块1504,被配置为:

将所述第二特征向量组中的第二特征向量作为所述初始第二图网络中第三节点的注意力值,所述第三节点为所述初始第二图网络中所述目标问题的词单元对应的节点;

将所述第三特征向量组中的第三特征向量作为所述初始第二图网络中第四节点的注意力值,所述第四节点为所述初始第二图网络中所述目标答案的词单元对应的节点;

基于所述第二特征向量组,确定所述初始第二图网络中存在边的两个第三节点之间的注意力值并作为所述边的注意力值;

基于所述第三特征向量组,确定所述初始第二图网络中存在边的第三节点和第四节点之间的注意力值并作为所述边的注意力值。

可选地,确定模块1506,被配置为:

通过所述图卷积网络层,确定所述第一图网络的第一隐层特征向量和所述第二图网络的第二隐层特征向量;

将所述第一隐层特征向量和所述第二隐层特征向量进行加权求和,得到目标隐层特征向量;

基于所述目标隐层特征向量确定所述答案。

可选地,所述确定模块1506,被配置为:

通过序列标注函数将所述目标隐层特征向量每一维的值转换成至少一个概率,所述目标隐层特征向量每一维对应一个词单元,每一维对应的至少一个概率表征每一维对应的词单元的标签是至少一个标签的概率;

基于每一维对应的至少一个概率确定每一维对应的词单元的标签;

基于所述每一维对应的词单元的标签确定所述答案。

可选地,确定模块1506,被配置为:

所述至少一个标签包括答案开头词、答案中间结尾词和非答案词,将对应答案开头词的词单元和对应答案中间结尾词的词单元作为所述答案。

本申请实施例中,通过阅读理解模型的图构建网络层构建目标文本和目标答案的初始第一图网络,以及构建目标问题和所述目标答案的初始第二图网络;将所述目标文本、所述目标问题和所述目标答案输入所述阅读理解模型的文本处理层,分别为所述初始第一图网络和所述初始第二图网络包括的节点和边添加注意力值,得到第一图网络和第二图网络;将所述第一图网络和所述第二图网络输入所述阅读理解模型的图卷积网络层中,得到所述目标问题的答案。通过本申请的方法,可以有效地利用目标文本、目标问题和目标答案的特征向量,且提取三者之间的关联关系,结合目标文本、目标问题和目标答案之间的关联关系通过阅读理解模型确定目标问题的答案,可以提高阅读理解模型执行阅读理解任务的准确率。

上述为本实施例的一种阅读理解装置的示意性方案。需要说明的是,该阅读理解装置的技术方案与上述的阅读理解方法的技术方案属于同一构思,阅读理解装置的技术方案未详细描述的细节内容,均可以参见上述阅读理解方法的技术方案的描述。

需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的阅读理解模型的训练方法的步骤,或者,实现上述所述的阅读理解方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的阅读理解模型的训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述阅读理解模型的训练方法的技术方案的描述。或者,该计算设备的技术方案与上述的阅读理解方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述阅读理解方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述阅读理解模型的训练方法的步骤,或者,实现上述所述的阅读理解方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的阅读理解模型的训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述阅读理解模型的训练方法的技术方案的描述。或者,该存储介质的技术方案与上述的阅读理解方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述阅读理解方法的技术方案的描述。

本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述阅读理解模型的训练方法的步骤,或者,实现上述所述的阅读理解方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号