首页> 中国专利> 人工智能理科文字题解题方法、装置、设备及存储介质

人工智能理科文字题解题方法、装置、设备及存储介质

摘要

本发明公开了一种人工智能理科文字题解题方法、装置、设备及存储介质,该方法通过获取目标题目内容,对目标题目内容进行分类,获得类别信息,对目标题目内容进行分词、词性标注和关键词标注,根据词性和词语到向量的对应表,将词性和词语转化为向量,获得目标题目内容的向量序列,根据类别信息选取目标模型池,根据目标模型池对向量序列进行向量计算匹配,获得目标题目内容中的直陈关系和/或隐含关系,根据直陈关系和/或所述隐含关系组成关系组,从关系组中挑选子集作为题目理解结果,对题目理解结果进行求解,获得求解过程。本发明基于关系演变、模型池、直陈关系和隐含关系提高解答理科文字题目的范围及效率。

著录项

  • 公开/公告号CN112949410A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 华中师范大学;

    申请/专利号CN202110151127.3

  • 发明设计人 余新国;吕小攀;

    申请日2021-02-05

  • 分类号G06K9/00(20060101);G06K9/20(20060101);G06K9/62(20060101);G06F40/211(20200101);G06F40/289(20200101);G06F40/30(20200101);G06Q50/20(20120101);

  • 代理机构42238 武汉知产时代知识产权代理有限公司;

  • 代理人孔灿

  • 地址 430000 湖北省武汉市珞喻路152号

  • 入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明涉及人工智能技术领域,尤其涉及一种人工智能理科文字题解题方法、装置、设备及存储介质。

背景技术

基础教育中理科包括数学、物理、化学三个科目,文字题是指这些科目里用各种自然语言描述的题目。理科科目的代数型题目是涉及代数关系计算的题目,包括物理代数题、化学代数题,算术文字题、数学中代数题、平面几何计算题和平面几何证明题等。理科文字题包含代数型文字题和平面几何证明文字题等。自20世纪50年代人工智能领域出现以来,在机器解答基础教育中理科题目方面,机器解答基础教育中数学题多次成为活跃研究问题,在相关领域的技术进步和智能化教育需求的合力推动下以机器解答基础教育中理科题的形式近年来再次成为了研究热点,一些面向智能化教育服务的几何专家系统、解答系统、在线解答辅导系统等陆续投入实际应用中。

目前针对基础教育中理科文字题目的机器解答主要有以下五类技术:

1.机器解答算术文字题的双框架方法

双框架方法预先建立解题框架和知识框架,在解题时先识别题目的类型,进而根据类型选择对应的解题框架,抽取题目中的知识并放到知识框中。由知识框和解题框一起推断各个框架的关系并计算未知量而形成解答过程。Kinsch等人(1995)提出了自动求解算术文字题的解题理论和双框架解题法,但只能解答一步的算术文字题。马玉慧等人(2012)扩展了金里奇的知识框表示,实现了多步小学数学应用题的机器求解。华盛顿大学的Hosseini等人(2014)采用动词分类及解题过程框来解决算术应用题,是金氏解题理论的另一种实现方式。该类方法由于没有公认的问题分类方法和系统,对于较为复杂的问题,难以采用题目类型来匹配适合的知识框和解题框。

2.基于形式语言的基础教育中几何文字题目的机器理解

基于形式语言的基础教育中几何文字题目的机器理解就是将所要理解的几何题目用形式化的语言来表示,并进一步将形式化语言转换成几何关系来表示几何文字题理解的结果。郭海燕等人(2012)提出了基于模板匹配的方法进行几何文字题目的理解,通过设计好的几何句子模板来匹配几何语句将题目转化为形式化的受限几何命题。该方法的目标是将这种受限几何命题作为中间语言进而生成作图命令序列从而自动构建几何图形,没有给出机器理解几何文字题目的具体形式,也难以扩展到其他类别的题目解答中。

3.基于形式语言的算术文字题机器解答

基于形式语言的算术文字题机器解答就是将所要解答的题目用比自然语言简单的形式语言来表示,并建立将自然语言转换成形式语言的方法来进一步推理解答题目。Shi等人(2015)开发了Dolphin系统来自动完成算术文字题的语义分析与推理,创立具有结构化语义的DOL语言用以表示题目文本,利用语义分析器实现将数学问题文本变换为DOL树,进而通过对DOL树的分析,推导出其中所包含的数量关系,从而完成题目理解。Liang等人(2016)提出了基于语义和标签的解答简单算术文字题的方法,将文字题目转化成固定的语义结构从而理解题目,通过推理模块选择题目问题中相关的部分进行推理,最终给出类人的解题表达。这种方法针对具体类别设计具体的形式语言表示,也就是没有统一的形式语言表示,难以扩展到其他类别的题目解答中。

4.基于机器学习的算术文字题理解

Kushman等人(2014)提出使用基于机器学习的算术文字题理解方法。该方法首先建立一个线性方程组模板库,采用统计模型来获取问题中的变量和参数与方程模板参数之间的对应关系,从而实例化得到解题所需要的线性方程组。这个方法目前的方程组模板只能由线性方程构成,模板的数量也有限,所以这个方法能理解的题目还很有限。另外,此方法对题目中的不相关信息较为敏感,面对较复杂的题目时性能严重下降。

5.序列到序列的算术文字题解答

Wang等人(2017)首先提出了序列到序列(Seq2Seq)的方法解答算术文字题。这种方法设计了一个深度神经网络将输入序列转换为输出序列,其中输入序列为题目文本,而输出序列则是由数字和操作数组成的答案表达式。答案表达式中出现的数字是出现在题目文本或其变体中的数字,以及从题目文本转换而来的一些数字。这种方法的主要缺点是它无法生成可读的解答过程,因为它的整个过程都在深层神经网络的黑盒内。另外,该方法解答题目的能力和范围非常有限,仅能解答数学文字题中单一未知量的题目。

综上所述,机器解答在解答方法、题目理解的深度以及大规模推广应用等方面还亟需进一步提高。首先,现有的机器解答方法来源于多个不同领域的专家学者,建立的算法往往相互独立,无论在解答效率还是在适应范围上都存在很大差异,缺乏适合基础教育中数学机器解答的完备方法和体系。其次,现有的题目理解往往采用规则或符号逻辑等浅层分析技术,导致题目理解的能力不足。最后,当前的机器解答系统能够解答的题目类型和范围非常有限,同时题目输入、题目理解的自动化程度不高,无法满足大规模推广应用的要求。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种人工智能理科文字题解题方法、装置、设备及存储介质,旨在解决现有技术中理科文字题解答范围有限且解答效率低的技术问题。

为实现上述目的,本发明提供一种人工智能理科文字题解题方法,所述人工智能理科文字题解题方法包括以下步骤:

获取目标题目内容,通过已训练的SVM分类器对所述目标题目内容进行分类,获得所述目标题目内容的类别信息;

通过分词工具对所述目标题目内容进行分词和词性标注,根据关键词表对题目内容的关键词进行标注,根据词性和词语到向量的对应表,将词性和词语转化为向量,获得目标题目内容的向量序列;

根据所述类别信息选取对应的目标模型池;

根据所述目标模型池对所述向量序列进行向量计算匹配,获得所述目标题目内容中的直陈关系和/或隐含关系;

根据所述直陈关系和/或所述隐含关系组成关系组,按照所述类别信息对应的挑选规则从所述关系组中挑选一个子集作为题目理解结果;

对所述题目理解结果进行求解,获得所述目标题目内容对应的求解过程。

优选地,所述根据所述目标模型池对所述向量序列进行向量计算匹配,获得所述目标题目内容中的直陈关系和/或隐含关系,包括:

根据所述目标模型池,通过基于嵌入句法语义模型的推理图对所述向量序列计算匹配网络,获得所述目标题目内容中的直陈关系;

和/或,

根据所述目标模型池,通过基于嵌入隐含关系模型的推理图对所述向量序列计算匹配网络,获得所述目标题目内容中的隐含关系。

优选地,所述目标模型池包括句法语义模型池;

所述根据所述目标模型池,通过基于嵌入句法语义模型的推理图对所述向量序列计算匹配网络,获得所述目标题目内容中的直陈关系,包括:

将所述句法语义模型池中向量化的句法语义模型与所述向量序列中的每一个词语作为起点,按照所述句法语义模型的匹配规则进行匹配,获得第一匹配置信度和第一关系;

若匹配成功,则记录所述句法语义模型中的实体对应于所述目标题目内容中的实体位置,并将所述第一匹配置信度和所述第一关系记录在所述句法语义模型的推理图的下一层节点中,若下一层节点没有空余的节点则淘汰所述第一匹配置信度中最小值对应的匹配;

循环匹配步骤,直到所有的匹配起点和所述句法语义模型池中的所有句法语义模型进行了匹配为止,获得所述目标题目内容中的直陈关系;

其中,所述句法语义模型为一个四元组M=(K,P,V,R),K代表关键字元素,P是POS词性和是标点符号的变化模式,V是计算匹配过程,R为相关实体之间的关系;所述句法语义模型池为Σ={Mi=(Ki,Pi,Vi,Ri)|i=1,2,…,m}。

优选地,所述目标模型池包括隐含关系模型池;

所述根据所述目标模型池,通过基于嵌入隐含关系模型的图对所述向量序列计算匹配网络,获得所述目标题目内容中的隐含关系,包括:

将所述隐含关系模型池中的隐含关系模型与所述向量序列中的每一个词语作为起点,按照所述隐含关系模型的匹配规则进行匹配,获得第二匹配置信度和第二关系;

若匹配成功,则记录所述隐含关系模型中的实体对应于所述目标题目内容中的实体位置,并将所述第二匹配置信度和所述第二关系记录在所述隐含关系模型的图的下一层节点中,若下一层节点没有空余的节点则淘汰所述第二匹配置信度中最小值对应的匹配;

循环匹配步骤,直到所有的匹配起点和所述隐含关系模型池中的所有隐含关系模型进行了匹配为止;

其中,所述隐含关系模型为一个三元组H=(F,V,R),F代表特征集,V是计算匹配过程,R为相关实体之间的关系;所述隐含关系模型池为Π={Hi=(Fi,Vi,Ri)|i=1,2,…,m}。

优选地,所述对所述题目理解结果进行求解,获得所述目标题目内容对应的求解过程,包括:

若所述目标题目内容的类别信息是平面几何证明文字题,则将所述题目理解结果通过几何证明系统进行证明,获得所述目标题目内容对应的求解过程;

若所述目标题目内容的类别信息是代数型文字题,则根据所述题目理解结果找出所述关系组中的所有数量实体,对所有的数量实体分配变量,将代数关系组转化成代数方程组,记录实体和变量的对照表,求解所述代数方程组中的可解部分,将部分解代入所述代数方程组得到新的可解部分,重复求解过程对所述代数方程组求解,获得所述目标题目内容对应的求解过程。

优选地,所述获取目标题目内容之前,还包括:

获取理科科目里各教学分领域中的所有题目,作为题目集合;

根据所述题目集合为各教学分领域构建向量化的句法语义模型池和向量化的隐含关系模型池。

优选地,所述按照所述类别信息对应的挑选规则从所述关系组中挑选一个子集作为题目理解结果,包括:

从所述关系组识别所述目标题目内容中的未知量,以所述未知量所在的关系为起点逐步添加点和边,构建关系连接森林;

按照所述类别信息对应的挑选规则,基于所述关系连接森林从所述关系组中挑选一个子集作为题目理解结果。

此外,为实现上述目的,本发明还提出一种人工智能理科文字题解题设备,所述人工智能理科文字题解题设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人工智能理科文字题解题程序,所述人工智能理科文字题解题程序配置为实现如上文所述的人工智能理科文字题解题方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有人工智能理科文字题解题程序,所述人工智能理科文字题解题程序被处理器执行时实现如上文所述的人工智能理科文字题解题方法的步骤。

此外,为实现上述目的,本发明还提出一种人工智能理科文字题解题装置,所述人工智能理科文字题解题装置包括:

分类模块,用于获取目标题目内容,通过已训练的SVM分类器对所述目标题目内容进行分类,获得所述目标题目内容的类别信息;

向量转化模块,用于通过分词工具对所述目标题目内容进行分词和词性标注,根据关键词表对题目内容的关键词进行标注,根据词性和词语到向量的对应表,将词性和词语转化为向量,获得目标题目内容的向量序列;

选取模块,用于根据所述类别信息选取对应的目标模型池;

匹配模块,用于根据所述目标模型池对所述向量序列进行向量计算匹配,获得所述目标题目内容中的直陈关系和/或隐含关系;

挑选模块,还用于根据所述直陈关系和/或所述隐含关系组成关系组,按照所述类别信息对应的选取规则从所述关系组中挑选一个子集作为题目理解结果;

求解模块,用于对所述题目理解结果进行求解,获得所述目标题目内容对应的求解过程。

本发明中,通过获取目标题目内容,通过已训练的SVM分类器对所述目标题目内容进行分类,获得所述目标题目内容的类别信息;通过分词工具对所述目标题目内容进行分词和词性标注,根据关键词表对题目内容的关键词进行标注,根据词性和词语到向量的对应表,将词性和词语转化为向量,获得目标题目内容的向量序列;根据所述类别信息选取对应的目标模型池;根据所述目标模型池对所述向量序列进行向量计算匹配,获得所述目标题目内容中的直陈关系和/或隐含关系;根据所述直陈关系和/或所述隐含关系组成关系组,按照所述类别信息对应的挑选规则从所述关系组中挑选一个子集作为题目理解结果;对所述题目理解结果进行求解,获得所述目标题目内容对应的求解过程。基于关系演变、模型池、直陈关系和隐含关系提高解答理科题目的范围及效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的人工智能理科文字题解题设备的结构示意图;

图2为本发明人工智能理科文字题解题方法第一实施例的流程示意图;

图3为本发明实施例中题目文本转化为向量的示意图;

图4为本发明实施例中基础教育中理科文字题的题目理解形成等价表示题目的关系组的流程图;

图5为本发明实施例中使用句法语义模型抽取直陈关系的示意图;

图6为本发明实施例中使用算术类的句法语义模型抽取一个代数关系的过程图解;

图7为本发明实施例中根据隐含关系题目类型选用相应的隐含关系模型获得隐含关系的流程图;

图8为本发明实施例中使用隐含关系模型抽取一个隐含关系的过程图解;

图9为本发明实施例中机器求解含有部分整体隐含关系类型题目的示意图;

图10为本发明实施例中机器解答基础教育中理科文字题系统模块示意图。

图11为本发明人工智能理科文字题解题装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的人工智能理科文字题解题设备结构示意图。

如图1所示,该人工智能理科文字题解题设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对人工智能理科文字题解题设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及人工智能理科文字题解题程序。

在图1所示的人工智能理科文字题解题设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述人工智能理科文字题解题设备通过处理器1001调用存储器1005中存储的人工智能理科文字题解题程序,并执行本发明实施例提供的人工智能理科文字题解题方法。

基于上述硬件结构,提出本发明人工智能理科文字题解题方法的实施例。

参照图2,图2为本发明人工智能理科文字题解题方法第一实施例的流程示意图,提出本发明人工智能理科文字题解题方法第一实施例。

在第一实施例中,所述人工智能理科文字题解题方法包括以下步骤:

步骤S10:获取目标题目内容,通过已训练的SVM分类器对所述目标题目内容进行分类,获得所述目标题目内容的类别信息。

应理解的是,本实施例的执行主体是所述人工智能理科文字题解题设备,其中,所述人工智能理科文字题解题设备可为个人电脑或服务器等电子设备,本实施例对此不加以限制。对于输入的题目图像,使用OCR(optical character recognition)技术识别出题目图像中所有的题目内容,获得所述目标题目内容。对于输入的语音,使用STT(Speech toText)技术识别出题目语音中所有的题目内容,获得所述目标题目内容。实现题目由题目输入状态到题目ASCII文本内容状态的等价转换,这里题目的ASCII文本是题目的自然语言描述文本。

可理解的是,对各个类别理科文字题,建立该类型题目的特征词向量集合,也建立所有理科文字题类型的特征词向量集合,称为理科文字题特征向量集。对于一个输入的题目文本,首先挑选出其理科文字题特征向量组。然后,使用训练好的SVM分类器进行分类,从而得到输入题目的类别信息。所述类别信息包括物理文字题、化学文字题、算术文字题、数学文字题、平面几何计算文字题、平面几何证明文字题等。

步骤S20:通过分词工具对所述目标题目内容进行分词和词性标注,根据关键词表对题目内容的关键词进行标注,根据词性和词语到向量的对应表,将词性和词语转化为向量,获得目标题目内容的向量序列。

需要说明的是,使用已有的分词工具完成对题目文本的分词和词性标注,并根据词性到向量的对应表,将词性转化为向量,如图3所示。

步骤S30:根据所述类别信息选取对应的目标模型池。

在具体实现中,所述类别信息表示所述目标题目内容所属的具体理科科目哪个分领域的题目,所述目标模型池包括句法语义模型池和隐含关系模型池。

步骤S40:根据所述目标模型池对所述向量序列进行向量计算匹配,获得所述目标题目内容中的直陈关系和/或隐含关系。

可理解的是,对题目中所包含的关系组提取的过程,如图4所示,包括直陈关系和隐含关系的获取。题目是由词语和标点符号组成的一个序列来表示,而每一个词和标点符号是一个向量,所以也可以说题目是由一个向量序列表示,同时关键词语已被标注出来。一个图推理过程将以这样的向量序列作为输入而得到一个直陈关系组。这个图推理的关键和特色的一步是进行将句法语义模型与题目进行匹配而抽取关系,这里的匹配是由向量间的运算来进行的,向量化的句法语义模型是已经嵌入到推理图之中,所以匹配过程完全在图上进行。

在抽取直陈关系的过程中,首先确定一个起点和一个句法语义模型,根据这个模型的匹配规则,与向量序列进行匹配计算,得到一个直陈关系和匹配值,将得到的直陈关系放入直陈关系候选集中。这里句法语义模型匹配过程推理图的直陈匹配层,存放直陈关系候选集的节点构成推理图的候选集层的直陈部分。

在获得隐含关系的过程中,首先确定一个起点和一个隐含关系模型,根据这个模型的匹配规则,与向量序列进行匹配计算,得到一个隐含关系和匹配值,将得到的隐含关系放入直陈关系候选集中。这里的隐含关系模型匹配过程构成推理图的隐含匹配层,存放隐含关系候选集的节点构成推理图的候选集层的隐含部分。本申请书公开的获得隐含关系的方法核心是将隐含模型转换成向量融入到图计算推理网络中与题目文本的向量进行计算匹配。向量化的隐含关系模型是已经嵌入到推理图之中,匹配过程完全在图上进行,所以称之为图推理的向量化隐含关系模型匹配方法。

进一步地,所述步骤S40,包括:

根据所述目标模型池,通过基于嵌入句法语义模型的推理图对所述向量序列计算匹配网络,获得所述目标题目内容中的直陈关系;

和/或,

根据所述目标模型池,通过基于嵌入隐含关系模型的推理图对所述向量序列计算匹配网络,获得所述目标题目内容中的隐含关系。

需要说明的是,本实施例提出基于嵌入模型图计算匹配的题目理解方法。具体地,针对直陈关系提出了基于嵌入句法语义模型的图计算匹配网络抽取直陈关系的方法;针对隐含关系提出了基于嵌入隐含关系模型的图计算匹配网络获得隐含关系的方法。句法语义模型由语义部分、句法部分、匹配规则和输出关系组成,其中语义部分是关键词,句法部分是词性表示符号的变化模式,而匹配规则则是规定模型的向量与题目中的向量的匹配对象和运算规则。一个句法语义模型定义为一个四元组M=(K,P,V,R),其中K代表关键字元素,P是POS词性和标点符号,V为模型中向量与题目中向量的匹配和计算规则,R为模型匹配后输出的相关实体之间关系。令Σ={Mi=(Ki,Pi,Vi,Ri)|i=1,2,…,m}表示为某一类基础教育中理科文字题目所准备的句法语义模型池,为所要解答的题目类型建立这样的模型池是实现直陈述关系提取的关键问题。图计算匹配网络模块,将模型嵌入到图计算网络中,将文字级别的匹配转换成向量在图网络中的计算,主要包括输入层、编码层、模型层、挑选层和输出层。

进一步地,所述根据所述目标模型池,通过基于嵌入句法语义模型的推理图对所述向量序列计算匹配网络,获得所述目标题目内容中的直陈关系,包括:

将所述句法语义模型池中向量化的句法语义模型与所述向量序列中的每一个词语作为起点,按照所述句法语义模型的匹配规则进行匹配,获得第一匹配置信度和第一关系;

若匹配成功,则记录所述句法语义模型中的实体对应于所述目标题目内容中的实体位置,并将所述第一匹配置信度和所述第一关系记录在所述句法语义模型的推理图的下一层节点中,若下一层节点没有空余的节点则淘汰所述第一匹配置信度中最小值对应的匹配;

循环匹配步骤,直到所有的匹配起点和所述句法语义模型池中的所有句法语义模型进行了匹配为止,获得所述目标题目内容中的直陈关系;

其中,所述句法语义模型为一个四元组M=(K,P,V,R),K代表关键字元素,P是POS词性和是标点符号的变化模式,V是计算匹配过程,R为相关实体之间的关系;所述句法语义模型池为Σ={Mi=(Ki,Pi,Vi,Ri)|i=1,2,…,m}。

应理解的是,所述第一匹配置信度为当前匹配的句法语义模型与所述向量序列之间的匹配程度,所述第一关系为当前匹配的句法语义模型与所述向量序列进行匹配时,匹配到的数量关系。

使用句法语义模型提取直陈述关系。如图5所示,具体执行过程如下:

a.根据题目所属的类别信息,载入与所述类别信息相应的句法语义模型池Σ={Mi=(Ki,Pi,Vi,Ri)|i=1,2,…,m};

b.使用模型Mi与题目的每一个词作为起点按照Mi的匹配规则进行计算匹配,若匹配成功,则记录模型中的实体对应于题目目中实体的位置,匹配置信度和得到的关系记录在图的下一层节点中,若下一层节点没有空余的节点则淘汰掉置信度最小的匹配。如图6所示,使用模型(每q有mq;a=b*c q m q)提取“每排有62棵”中的数学关系,其中“每q有mq”是句法P和语义K的混合,词性标签q、m、q分别是名词、数词和量词,“每、有”是数学关键词。“a=b*c”是该模型匹配的数学关系R,其中a、b、c是该数学关系中的变量,“q m q”是表示数学关系中的变量和句子中的实体之间的对照表,它是联系句子和数学关系组的纽带,其中第一个q的量词对应变量a,第二个m的数词对应变量b,第三个q的量词对应变量c。根据匹配规则V定义的匹配起点循环进行匹配,进而形成了一个代数关系“排=62*棵”。

c.循坏直到所有的匹配起点和所有模型进行了匹配为止。

进一步地,所述根据所述目标模型池,通过基于嵌入隐含关系模型的图对所述向量序列计算匹配网络,获得所述目标题目内容中的隐含关系,包括:

将所述隐含关系模型池中的隐含关系模型与所述向量序列中的每一个词语作为起点,按照所述隐含关系模型的匹配规则进行匹配,获得第二匹配置信度和第二关系;

若匹配成功,则记录所述隐含关系模型中的实体对应于所述目标题目内容中的实体位置,并将所述第二匹配置信度和所述第二关系记录在所述隐含关系模型的图的下一层节点中,若下一层节点没有空余的节点则淘汰所述第二匹配置信度中最小值对应的匹配;

循环匹配步骤,直到所有的匹配起点和所述隐含关系模型池中的所有隐含关系模型进行了匹配为止;

其中,所述隐含关系模型为一个三元组H=(F,V,R),F代表特征集,V是计算匹配过程,R为相关实体之间的关系;所述隐含关系模型池为Π={Hi=(Fi,Vi,Ri)|i=1,2,…,m}。

在具体实现中,所述第二匹配置信度为当前匹配的隐含关系模型与所述向量序列之间的匹配程度,所述第二关系为当前匹配的隐含关系模型与所述向量序列进行匹配时,匹配到的数量关系。

根据隐含关系题目类型选用相应隐含关系模型池获得隐含关系。如图7所示,具体执行过程如下:

a.根据题目所属的类别信息,启用与所述类别信息相应的隐含关系模型池Π={Hi=(Fi,Vi,Ri)|i=1,2,…,m};

b.使用模型Hi与题目的每一个词作为起点按照Hi的匹配规则进行计算匹配,若匹配成功,则记录模型中的实体对应于题目目中实体的位置,匹配置信度和得到的关系记录在图的下一层节点中,若下一层节点没有空余的节点则淘汰掉置信度最小的匹配。如图8所示,使用隐含关系题目类型识别网络识别出题目“一块正方形菜地,边长是12米,它的面积是多少?”中需要添加的隐含关系为正方形的面积公式“s=a*a”,其中s表示面积,a表示边长。然后根据正方形面积公式中的变量与实体映射关系的匹配模型“正方形|面积v多少”和“边长|边vmq”抽取题目文本中与隐含关系变量对应的实体,即“s=多少”和“a=12*米”。进而根据面积公式“s=a*a”可进一步得到一个代数关系“多少=(12*米)*(12*米)”。

步骤S50:根据所述直陈关系和/或所述隐含关系组成关系组,按照所述类别信息对应的挑选规则从所述关系组中挑选一个子集作为题目理解结果。

应理解的是,得到的直陈关系和隐含关系有一些是不必要或是同一个关系的不同形式,因而所得到的关系被看作候选关系,从中挑选出解题所需要的关系集合才作为题目理解结果。这个挑选方法的特色是首先识别出需要求出数值的未知量,以这些未知量所在的关系为起点构建关系连接森林,再根据作为题目理解关系集合的限制条件挑选几个关系集合作为题目理解的几个结果。

步骤S60:对所述题目理解结果进行求解,获得所述目标题目内容对应的求解过程。

可理解的是,根据题目类别,若是几何定理证明文字题,则将它们输入给几何证明模块。若是代数型文字题,首先找出关系集合中的所有数量实体,对所有的数量实体分配变量,将代数关系组转化成代数方程组,同时记录实体和变量的对照表,机器自动求解这个代数方程组的过程如下:先求解这个代数方程组中的可解部分,然后将部分解代入后得到新的可解部分,重复这个过程求解整个方程组。本实施例中,所述步骤S60,具体包括:若所述目标题目内容的类别信息是平面几何证明文字题,则将所述题目理解结果通过几何证明系统进行证明,获得所述目标题目内容对应的求解过程;若所述目标题目内容的类别信息是代数型文字题,则根据所述题目理解结果找出所述关系组中的所有数量实体,对所有的数量实体分配变量,将代数关系组转化成代数方程组,记录实体和变量的对照表,求解所述代数方程组中的可解部分,将部分解代入所述代数方程组得到新的可解部分,重复求解过程对所述代数方程组求解,获得所述目标题目内容对应的求解过程。

图9给出一个机器求解代数方程的例子。其中的数学题目是一个含有部分整体隐含关系类型题目,其代数方程等价表示是一个二阶代数方程组,依次求解这个方程组即可实现对所形成的代数关系组的机器求解。参照图10,给出一种机器解答基础教育中理科文字题系统模块示意图。

本实施例中,抽取直陈关系的核心是将句法语义模型转换成向量融入到图计算推理网络中与题目文本的向量进行计算匹配。不同于基于句法语义模型采用文本和符号匹配来抽取直陈关系的方法。各操作步骤都在图形上进行,所以称之为图推理的向量化句法语义模型匹配方法。基于关系演变、模型池、直陈关系和隐含关系提高解答理科文字题目的范围及效率。

基于上述图2所示的第一实施例,提出本发明人工智能理科文字题解题方法的第二实施例。

在第二实施例中,所述步骤S10之前,还包括:

获取理科科目里各教学分领域中的所有题目,作为题目集合;

根据所述题目集合为各教学分领域构建向量化的句法语义模型池和向量化的隐含关系模型池。

需要说明的是,在准备向量化模型池阶段,对每一个定义好了的题目集合(它包含理科科目里的一个教学分领域中的所有题目),为每一种自然语言准备一个向量化句法语义模型池和向量化隐含关系模型池。

对于每一个基础教育中理科科目教学分领域的每一种自然语言陈述的题目集合,比如用中文陈述的小学数学文字题、初中平面几何文字题、初中代数文字题、初中力学计算题、平面几何证明题等等,准备一个句法语义模型池。一个句法语义模型为一个四元组M=(K,P,V,R),其中K代表关键字元素,P是POS词性和是标点符号的变化模式,V是计算匹配过程,R为相关实体之间的关系;一个句法语义模型池为Σ={Mi=(Ki,Pi,Vi,Ri)|i=1,2,…,m}。

再准备一个隐含关系模型池。这个隐含关系模型池是获取公式和情景所表示关系。这里发现和添加隐含关系方法的特色是获得隐含关系和隐含关系中变量与题目文本中实体的映射关系同时得到。这一特性的得益于采用了隐含关系模型匹配的方法。事先为这个方法准备一个隐含关系模型池。一个隐含关系模型为一个三元组H=(F,V,R),其中F代表特征集,V计算匹配过程,R为相关实体之间的关系;一个隐含关系模型池为Π={Hi=(Fi,Vi,Ri)|i=1,2,…,m}。

对于每一个科目的分教学领域,为每一种自然语言陈述的题目集合,确立一个分词工具。比如中文和英文题目集合可以采用NLPIR作为分词工具。进一步确立一个向量化工具将题目集合的词语和标点符号全部向量化,即将集合中的每一个词、每个词类和每一个标点符号都给定一个向量来表示。比如对于中文和英文题目集合可以采用BERT模型作为向量化工具。采用分词工具和向量化工具将上面提到的两个模型池转化为相应的向量化模型池。

对每一个句法语义模型定义一个匹配过程,这个过程的输入是向量序列和一个匹配起点,主要包含一个匹配规则和计算函数,输出一个关系,关系中实体在题目中的对应位置,匹配质量值。

对每一个隐含关系模型也定义一个匹配过程,这个过程的输入是向量序列和一个匹配起点,主要包含一个匹配规则和计算函数,输出一个关系,关系中实体在题目中的对应位置,匹配质量值。

在本实施例中,所述按照所述类别信息对应的挑选规则从所述关系组中挑选一个子集作为题目理解结果,具体包括:

从所述关系组识别所述目标题目内容中的未知量,以所述未知量所在的关系为起点逐步添加点和边,构建关系连接森林;

按照所述类别信息对应的挑选规则,基于所述关系连接森林从所述关系组中挑选一个子集作为题目理解结果。

应理解的是,通过挑选子集得到题目理解结果,具体过程如下:

a.将得到的直陈关系和隐含关系组成一个候选关系全集。从这个全集中识别出题目的未知量,以这些未知量所在的关系为起点逐步添加点和边。若一个关系中已有实体在森林中,则为它的每一个不在森林中的实体添加一个点,并与已在森林中实体的点连接起来。

b.将得到的直陈关系和隐含关系组成一个候选关系全集。从这个全集中识别出题目的已知量,森林中连接未知量与已知量的部分的关系构成一种题目理解,这样一个题目可能有多个题目理解结果。

应理解的是,通过解答关系组得到代数型理科文字题目未知量的数值,具体过程如下:

a.题目理解得到的关系组中的所有文字实体集中起来得到一个实体的列表,对每一个实体分配一个变量,这样每一个关系转化为一个方程,整个关系组转化为一个方程组。

b.循环求可解部分得到所有未知量的值。具体地,将方程组分为可解部分和剩余部分,求解可解部分。将可解部分的解代入剩余部分,循环这个过程直到所有的未知量都有答案。

本实施例中,先求解这个代数方程组中的可解部分,部分求解后实现降维和简化,重复这个过程求解整个方程组,提高求解效率;从全集中识别出题目的未知量,森林中连接未知量与已知量的部分的关系构成一种题目理解,从而有唯一的题目理解结果,提高题目理解准确度,从而提高题目求解准确率。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有人工智能理科文字题解题程序,所述人工智能理科文字题解题程序被处理器执行时实现如上文所述的人工智能理科文字题解题方法的步骤。

此外,参照图11,本发明实施例还提出一种人工智能理科文字题解题装置,所述人工智能理科文字题解题装置包括:

分类模块10,用于获取目标题目内容,通过已训练的SVM分类器对所述目标题目内容进行分类,获得所述目标题目内容的类别信息;

向量转化模块20,用于通过分词工具对所述目标题目内容进行分词和词性标注,根据关键词表对题目内容的关键词进行标注,根据词性和词语到向量的对应表,将词性和词语转化为向量,获得目标题目内容的向量序列;

选取模块30,用于根据所述类别信息选取对应的目标模型池;

匹配模块40,用于根据所述目标模型池对所述向量序列进行向量计算匹配,获得所述目标题目内容中的直陈关系和/或隐含关系;

挑选模块50,还用于根据所述直陈关系和/或所述隐含关系组成关系组,按照所述类别信息对应的选取规则从所述关系组中挑选一个子集作为题目理解结果;

求解模块60,用于对所述题目理解结果进行求解,获得所述目标题目内容对应的求解过程。

本发明所述人工智能理科文字题解题装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号