首页> 中国专利> 基于人工智能的智慧教育自动阅卷方法及系统

基于人工智能的智慧教育自动阅卷方法及系统

摘要

本发明涉及人工智能技术领域,具体涉及一种基于人工智能的智慧教育自动阅卷方法及系统。该方法分别获取主观题的学生答案和对应的标准答案的多个句子;利用LSTM网络提取每个句子的初始全局语义特征;基于句子成分为句子的每个词分配初始化权重以得到每个句子的语义特征;利用初始全局语义特征和语义特征训练全连接神经网络;由全连接神经网络得到的长句子中每个词向量的权重对句子进行截取,将截取后的句子输入LSTM网络得到全局语义特征;由学生答案和标准答案中句子之间全局语义特征的相似度得到主观题的评分结果。基于句子成分,由句子中每个词的权重对长句子进行截取,使得截取后长句子的语义特征的损失最小,降低了主观题评分结果的误差。

著录项

  • 公开/公告号CN114781357A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 郭兵;

    申请/专利号CN202210349192.1

  • 发明设计人 郭兵;

    申请日2022-04-01

  • 分类号G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06Q50/20;

  • 代理机构

  • 代理人

  • 地址 315100 浙江省宁波市鄞州区精英路1号

  • 入库时间 2023-06-19 16:04:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于人工智能的智慧教育自动阅卷方法及系统。

背景技术

随着智慧教育的迅速发展,为了降低阅卷给老师带来负担,自动阅卷系统的需求大大增加。由于考试过程中主观题是很常见的题型,而学生的表述习惯和知识掌握程度的不同对主观题的评分带来很大影响。

现有技术中,主观题的自动评分方法包括:一种基于关键词的相似度匹配,这种方法仅仅获得文本表面的信息,不能反映关键词之间的关联性;另一种是基于神经网络提取句子的语义信息,根据语义信息的相似度对主观题评分,但神经网络对输入的句子长度有限制,当句子长度不一致时,直接将长度过大的句子的末端进行截断再进行语义提取,暴力的截断必然会导致句子语义信息的损失过大,使得自动评分的结果出现误差。

发明内容

为了解决上述技术问题,本发明的目的在于提供一种基于人工智能的智慧教育自动阅卷方法及系统,所采用的技术方案具体如下:

本发明实施例提供了一种基于人工智能的智慧教育自动阅卷方法,该方法包括:

获取主观题的学生答案和对应的标准答案,对所述学生答案和所述标准答案分别进行分句预处理以得到多个句子;

对所述句子进行分词操作后将每个词生成词向量,将所述词向量与LSTM网络的输入长度匹配以通过所述LSTM网络提取出每个所述句子的初始全局语义特征;

基于句子成分为所述句子中的每个所述词向量分配初始化权重,对每个所述词向量和对应的所述初始化权重进行加权求和得到每个所述句子的语义特征;利用所述初始全局语义特征和所述语义特征构建的损失函数训练全连接神经网络;

当所述句子的所述词向量大于所述LSTM网络的输入长度时,利用训练好的所述全连接神经网络得到所述句子中每个所述词向量的权重;根据所述权重对所述句子的所述词向量进行截取,将截取后的所述词向量输入所述LSTM网络得到每个所述句子的全局语义特征;

根据所述学生答案和所述标准答案中每个所述句子之间所述全局语义特征的相似度得到所述主观题的评分结果。

进一步地,所述分句预处理的方法,包括:

根据所述学生答案和所述标准答案中的标点符号进行分句;所述标点符号包括句号和分号。

进一步地,所述将所述词向量与LSTM网络的输入长度匹配以通过所述LSTM网络提取出每个所述句子的初始全局语义特征的方法,包括:

由所述词向量构成所述句子的初始特征矩阵;

根据所述LSTM网络的输入长度设定滑窗的尺寸,利用所述滑窗对所述初始特征矩阵从上到下进行截取得到与所述LSTM网络的输入长度匹配的特征矩阵;

将所述特征矩阵通过所述LSTM网络得到每个所述句子的初始全局语义特征。

进一步地,当截取的所述特征矩阵与所述LSTM网络的输入长度不匹配时,在所述特征矩阵的末端进行补零操作,使得所述特征矩阵与所述LSTM网络的输入长度匹配。

进一步地,所述损失函数为:

其中,Loss为所述损失函数;N为所述句子的数量;Y

进一步地,当所述句子的所述词向量小于或等于所述LSTM网络的输入长度时,直接利用所述LSTM网络获取所述句子的所述全局语义特征。

进一步地,所述利用训练好的所述全连接神经网络得到所述句子中每个所述词向量的权重的方法,包括:

将上一个所述句子的所述全局语义特征输入所述全连接神经网络得到相邻下一个所述句子中每个所述词向量的所述权重。

进一步地,所述根据所述权重对所述句子的所述词向量进行截取的方法,包括:

根据所述权重从小到大的顺序,依次从所述权重的最小值所对应的所述词向量进行截取,直到截取后的所述词向量与所述LSTM网络的输入长度匹配。

进一步地,所述句子成分包括主语、谓语、宾语、补语、定语、时间状语、地点状语和同位语。

进一步地,一种基于人工智能的智慧教育自动阅卷系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项方法的步骤。

本发明实施例至少存在以下有益效果:基于句子的全局语义特征和由句子成分的权重得到的语义特征构建损失函数以训练全连接神经网络,将上一句的全局语义特征通过训练好的全连接神经网络得到下一句中每个词对应的句子成分的权重,根据权重对长句子进行自适应的截取,使得截取后长句子的语义特征的损失最小,保证了语义特征提取的准确性,降低了主观题评分结果的误差。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于人工智能的智慧教育自动阅卷方法的流程图;

图2为本发明一个实施例所提供的一种基于人工智能的智慧教育自动阅卷方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的智慧教育自动阅卷方法及系统,其具体实施方式、结构、特征及其作用,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于人工智能的智慧教育自动阅卷方法及系统的具体方案。

本发明实施例所针对的具体场所为:自动阅卷场景下,实现主观题自动打分。

参照附图1和附图2,本发明实施例提供了一种基于人工智能的智慧教育自动阅卷方法,该方法包括以下具体步骤:

步骤S001,获取主观题的学生答案和对应的标准答案,对学生答案和标准答案分别进行分句预处理以得到多个句子。

具体的,获取主观题的学生答案和对应的标准答案,根据学生答案和标准答案中的标点符号进行分句预处理得到多个句子,由学生答案的分句结果得到第一句子集合

优选的,本发明实施例中标点符号包括句号和分号,在其他实施例中,实施者可根据自身需求对选取标点符号。

步骤S002,对句子进行分词操作后将每个词生成词向量,将词向量与LSTM网络的输入长度匹配以通过LSTM网络提取出每个句子的初始全局语义特征。

具体的,对第一句子集合和第二句子集合中的每个句子进行分词操作,然后将每个词利用word2vec的方法转为词向量,由词向量构成每一个句子的初始特征矩阵,令该初始特征矩阵的维度为[L,100],其中100表示每一个词向量的维度;L表示句子中包含的词向量的数量,能够反映句子的长度。

由于LSTM网络的输入长度N是固定的,且每个句子的长度不同,则需要对每个句子的初始特征矩阵的维度进行判断,判断方法为:当初始特征矩阵中词向量的数量L≤LSTM网络的输入长度N时,则能够保留句子中的所有词向量,进而直接利用LSTM网络获取该句子的初始全局语义特征;当初始特征矩阵中词向量的数量L>LSTM网络的输入长度N时,则不能直接利用LSTM网络获取句子的初始全局语义特征,因此本发明实施例通过借助滑窗对超过LSTM网络的输入长度的句子进行处理以得到该句子的初始全局语义特征,其中处理方法为:根据LSTM网络的输入长度设定滑窗的尺寸,利用滑窗对初始特征矩阵进行截取得到与LSTM网络的输入长度匹配的特征矩阵;将特征矩阵通过LSTM网络得到每个句子的初始全局语义特征。

优选的,本发明实施例中输入长度N=150,在其他实施例中,实施者可根据自身需求设定。

作为一个示例,本发明实施例借助滑窗对超过LSTM网络的输入长度的句子进行处理以得到该句子的初始全局语义特征的具体过程如下:

1)令超过LSTM网络的输入长度的句子所对应的初始特征矩阵为[L,100]且L>150,由LSTM网络的输入长度设置滑窗的尺寸为[150,100],让滑窗沿着初始特征矩阵从上到下滑动,每次滑动均截取部分初始特征矩阵,且部分初始特征矩阵的尺寸等于滑窗尺寸,经滑窗处理后得到L-149个部分初始特征矩阵,分别将部分初始特征矩阵送入LSTM网络得到每个部分初始特征矩阵的语义特征;

需要说明的是,由于LSTM网络输出的语义特征的尺寸是可以人为设定的,因此,本发明实施例中将语义特征的尺寸设定为100维。

2)将L-149个部分初始特征矩阵的语义特征构成维度为[L-149,100]的语义特征矩阵。

3)进一步对语义特征矩阵进行判断,若L-149>150,则按照步骤1)的方法继续利用滑窗对语义特征矩阵进行处理得到特征矩阵,使得特征矩阵与LSTM网络的输入长度匹配,进而将特征矩阵通过LSTM网络得到对应句子的初始全局语义特征;若L-149≤150,则在语义特征矩阵的末端进行补零操作使得语义特征矩阵的维度为[150,100],进而将填充后的语义特征矩阵送入LSTM网络得到对应句子的初始全局语义特征。

需要说明的是,初始全局语义特征的维度为[1,100]。

进一步地,利用上述初始全局语义特征的获取方法得到第一句子集合中每个句子的初始全局语义特征;同理,也能够得到第二句子集合中每个句子的初始全局语义特征。

步骤S003,基于句子成分为句子中的每个词向量分配初始化权重,对每个词向量和对应的初始化权重进行加权求和得到每个句子的语义特征;利用初始全局语义特征和语义特征构建的损失函数训练全连接神经网络。

具体的,分别对第一句子集合和第二句子集合中每个句子中的每个词进行句子成分分析,为每个句子中的每个词向量分配初始化权重以得到对应句子的语义特征。本发明实施例中设定八类句子成分:主语、谓语、宾语、补语、定语、时间状语、地点状语和同位语。基于句子成分对句子中的每个词向量分配初始化权重,分别为α

优选的,本发明实施例中将八类句子成分对应的初始化权重进行平均分配,即

需要说明的是,每一个句子成分还能够细分多个子类别,在其他实施例中实施者可以根据自身需要设定句子成分的数量,句子成分的类别越细对于截断后的句子所保留的语义信息的效果越好。

进一步地,由于文本中的上下文会存在紧密的关联信息,因此,本发明实施例通过搭建神经网络,将上一个句子的全局语义特征输入神经网络得到相邻下一个句子中每个词向量分配权重。该神经网络为全连接神经网络,包括输入层、隐藏层和输出层;输入层包含100个神经元,用于接收上一个句子的全局语义特征;隐藏层的层数和每层的神经元数量可根据自身需要设定,本发明实施例中隐藏层的层数优选为3层;输出层包含8个神经元,代表八类句子成分的权重。

本发明实施例由初始全局语义特征和语义特征构建的损失函数训练全连接神经网络,且损失函数采用均方差损失函数,其计算公式如下:

其中,Loss为损失函数;N为句子的数量;Y

需要说明的是,利用词向量和初始化权重加权得到的语义特征并不能反应词向量之间的关联信息,该损失函数的目的能够不断更新各句子成分的权重使得语义特征更加靠近句子的初始全局语义特征,当损失函数不再降低时,停止训练。

步骤S004,当句子的词向量大于LSTM网络的输入长度时,利用训练好的全连接神经网络得到句子中每个词向量的权重;根据权重对句子的词向量进行截取,将截取后的词向量输入LSTM网络得到每个句子的全局语义特征。

具体的,首先判断每一个句子的长度,根据句子的长度设定该句子的词向量的数目为L

根据权重从小到大的顺序,依次从权重的最小值所对应的词向量进行截取,直到截取后的词向量与LSTM网络的输入长度匹配,这样实现了长句子的自适应截取,进而将截取后的词向量输入LSTM网络得到每个句子的全局语义特征。

需要说明的是,对于任意一个文本中的首句而言,是没有上文信息的,无法通过句子成分的权重对超过LSTM网络的输入长度的首句进行截取,进而无法获取首句的全局语义特征,因此,本发明实施例利用步骤S002的方法获取首句的全局语义特征。

步骤S005,根据学生答案和标准答案中每个句子之间全局语义特征的相似度得到主观题的评分结果。

具体的,利用步骤S004中句子的全局语义特征的获取方法,能够获得学生答案对应的第一句子集合

分别计算第一句子集合中句子

需要说明的是,由于标准答案中的每一个句子和学生答案中的句子不一定是一一对应的关系,所以标准答案中每个句子对应的最大值序列中会存在多个余弦相似度。

根据得到的最大值序列构建主观题评分模型以得到主观题的评分结果,其中主观题评分模型为:

其中,Score

综上,本发明实施例提供了一种基于人工智能的智慧教育自动阅卷方法,该方法获取主观题的学生答案和对应的标准答案,对学生答案和标准答案分别进行分句预处理得到多个句子;对句子进行分词操作后将每个词生成词向量,将词向量与LSTM网络的输入长度匹配以通过LSTM网络提取出每个句子的初始全局语义特征;基于句子成分为句子中的每个词向量分配初始化权重,对每个词向量和对应的初始化权重进行加权求和得到每个句子的语义特征;利用初始全局语义特征和语义特征构建的损失函数训练全连接神经网络;当句子的词向量大于LSTM网络的输入长度时,利用训练好的全连接神经网络得到句子中每个词向量的权重;根据权重对句子的词向量进行截取,将截取后的词向量输入LSTM网络得到每个句子的全局语义特征;根据学生答案和标准答案中每个句子之间全局语义特征的相似度得到主观题的评分结果。基于句子成分为句子中每个词的分配权重,由权重对长句子进行截取,使得截取后长句子的语义特征的损失最小,进而降低了截取对长句子的语义特征的影响,保证了语义特征提取的准确性。

进一步地,一种基于人工智能的智慧教育自动阅卷系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于人工智能的智慧教育自动阅卷方法的步骤。

需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号