公开/公告号CN112560429A
专利类型发明专利
公开/公告日2021-03-26
原文格式PDF
申请/专利权人 信雅达科技股份有限公司;
申请/专利号CN202011538508.9
申请日2020-12-23
分类号G06F40/194(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/08(20060101);G10L15/22(20060101);G10L15/26(20060101);
代理机构33289 杭州裕阳联合专利代理有限公司;
代理人金方玮
地址 310051 浙江省杭州市滨江区江南大道3888号信雅达科技大厦
入库时间 2023-06-19 10:24:22
技术领域
本发明涉及一种基于深度学习的智能培训检测方法及系统。
背景技术
由于业务增长和人员扩张,以致业务知识更新快、培训量大、培训的方式呈现多样化等,传统的人工线下培训往往面临以下难题:
1.传统线下培训需协调各方时间,以保证课程进行。
2.传统培训为一对多教学,学习内容固定,无法针对不同学员进行个性化教学。
3.传统培训为讲师讲理论知识和典型案例,学员课后自行练习,理论知识难以转化为业务能力,课后练习次数和效果不易监控。
4.传统培训时一对一模拟训练主观性强,次数有限,难以反映学员真实业务能力变化情况。
5.培训的结果评估。
发明内容
本发明提供了一种基于深度学习的智能培训检测方法及系统,采用如下的技术方案:
一种基于深度学习的智能培训检测方法,包括以下步骤:
向被检测者提问;
接收被检测者的语音回答并将其转换成文本信息;
通过BERT模型对文本信息进行纠错;
对纠错后的文本信息进行多模式综合评分。
进一步地,对纠错后的文本信息进行多模式综合评分的具体方法为:
计算文本信息和所提问题的标准答案的相似度;
计算文本信息和所提问题的核心词汇之间的匹配度;
根据相似度和匹配度计算评分。
进一步地,计算文本信息和所提问题的标准答案的相似度得具体方法为:
使用训练好的BERT模型对述文本信息和所提问题的标准答案进行编码得到文本编码和答案编码;
将文本编码和答案编码进行dropout处理;
将dropout处理后的文本编码和答案编码输入一输出维度为2的全连接层以计算相似度。
进一步地,基于深度学习的智能培训检测方还包括:
识别纠错后的文本信息的含义;
根据识别出的文本信息的含义向被检测者再次提问。
进一步地,识别文本信息的含义的具体方法为:
识别文本信息属于大样本数据还是小样本数据;
当文本信息属于小样本数据时通过训练好的小样本语义识别模型识别其含义;
当文本信息属于大样本数据时通过训练好的大样本语义识别模型识别其含义。
进一步地,训练小样本语义识别模型的方法为:
构建分析模型、预训练数据集、支撑数据集和预测数据集;
通过预训练数据集对分析模型进行预训练;
通过支撑数据集对预训练后的分析模型进行正式训练;
通过预测数据集对正式训练后的分析模型进行评估验证最后得到小样本语义识别模型。
一种基于深度学习的智能培训检测系统,包括:
语音提问模块,用于向被检测者提问;
语音识别模块,用于接收被检测者的语音回答并将其转换成文本信息;
文本纠错模块,用于通过BERT模型对文本信息进行纠错;
多模式评分模块,对于对纠错后的文本信息进行多模式综合评分。
进一步地,多模式评分模块包括:
相似度计算子模块,用于计算文本信息和所提问题的标准答案的相似度;
匹配度计算子模块,用于计算文本信息和所提问题的核心词汇之间的匹配度;
评分计算子模块,用于根据相似度计算子模块计算得到的相似度和匹配度计算子模块计算得到的匹配度计算评分。
进一步地,基于深度学习的智能培训检测系统还包括:
语义识别模块,用于识别纠错后的文本信息的含义;
语音提问模块根据语义识别模块识别出的文本信息的含义向被检测者再次提问。
进一步地,语义识别模块包括:
样本识别子模块,用于识别文本信息属于大样本数据还是小样本数据;
小样本语义识别子模块,用于当文本信息属于小样本数据时通过训练好的小样本语义识别模型识别其含义;
大样本语义识别子模块,用于当文本信息属于大样本数据时通过训练好的大样本语义识别模型识别其含义识别其含义。
本发明的有益之处在于所提供的基于深度学习的智能培训检测方法及系统,能够自动对被培训者进行语音提问,并对其语音回答进行智能转化和纠错,同时,采用多模式综合评分的评分架构,避免单模型评分的偏差。
附图说明
图1是本发明的基于深度学习的智能培训检测方法的示意图;
图2是本发明的基于深度学习的智能培训检测系统的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于深度学习的智能培训检测方法,包括以下步骤:S1:向被检测者提问。S2:接收被检测者的语音回答并将其转换成文本信息。S3:通过BERT模型对文本信息进行纠错。S4:对纠错后的文本信息进行多模式综合评分。根据本发明的基于深度学习的智能培训检测方法,能够自动对被检测者进行提问,并根据被检测者的回答进行分析,并进行多模式的评分,结合多种评分模式对被检测者的回答进行综合评分。以下具体介绍上述方法。
对于步骤S1:向被检测者提问。
具体的,根据系统中预存的多个问题,自动选择一个问题,通过语音播放的方式向被检测者提问。
对于步骤S2:接收被检测者的语音回答并将其转换成文本信息。
当被检测者对所提问题进行回答时,接收被检测者的语音回答,并将其转换成文本信息。
对于步骤S3:通过BERT模型对文本信息进行纠错。
在本发明中,采用BERT模型对文本信息进行纠错。具体的,BERT与常用的深度学习模型的主要区别在于:预训练阶段使用了“掩码语言模型”MLM和“判断语句s1是否为语句s2下一句”的NSP两个任务,特征抽取使用12层双向Transformer。其中,MLM任务使得模型并不知道输入位置的词汇是否为正确的词汇,这就迫使模型更多地依赖于上下文信息去预测词汇,赋予了模型一定的纠错能力。本发明依次将文本s中的每一个字c做mask掩码,依赖c的上下文来预测c位置最合适的字。设置一个容错阈值k,如果原先的字c出现在预测结果的top5中,就认为该位置不是错别字,否则是错别字。容错阈值K可以根据具体情况进行选择,在本发明中,k为5。
对于步骤S4:对纠错后的文本信息进行多模式综合评分。
在本发明中,多模式综合评分包括相似度评分和关键词匹配评分。对纠错后的文本信息进行多模式综合评分的具体方法为:计算文本信息和所提问题的标准答案的相似度。计算文本信息和所提问题的核心词汇之间的匹配度。根据相似度和匹配度计算评分。采用多模式综合评分的评分架构,避免单模型评分的偏差,而且每种评分模式的权重可灵活配置。
计算文本信息和所提问题的标准答案的相似度的具体方法为:使用训练好的BERT模型对述文本信息和所提问题的标准答案进行编码得到文本编码和答案编码,。将文本编码和答案编码进行dropout处理,以避免过度拟合。在本发明中,dropout比例设为10%。将dropout处理后的文本编码和答案编码输入一输出维度为2的全连接层以输出相似度。因为Bert中双向Attention机制,两个句子会相互Attention,也就是通过训练会学到两个句子的相似程度。
计算文本信息和所提问题的核心词汇之间的匹配度的具体方法为:通过DFA算法自动识别文本信息和核心词汇的匹配度。在本发明中,将每个答案对应的核心词汇保存在HashMap中,DFA算法能够根据HashMap中存储的核心词汇迅速匹配文本中的关键词。
作为一种优选的实施方式,基于深度学习的智能培训检测方还包括:识别纠错后的文本信息的含义。根据识别出的文本信息的含义向被检测者再次提问。再次提问后,针对被检测者的语音回答,再通过步骤S2-S4进行评分。最后,对所有问题的评分加权得到总评分。
可以理解的是,通常情况下,需要对被检测者的提出过个问题,并且根据被检测者对每个问题的回答进行分别打分,最后得到总得分。同时,为了提高人机交互体验,所提问题是根据被检测者的回答进行调整。即,识别被检测者的回答的含义,并根据该含义确定接下来需要提问的问题,使检测过程更加拟人化。
进一步地,识别文本信息的含义的具体方法为:识别文本信息属于大样本数据还是小样本数据。当文本信息属于小样本数据时通过训练好的小样本语义识别模型识别其含义。当文本信息属于大样本数据时通过训练好的大样本语义识别模型识别其含义。
其中,训练小样本语义识别模型的方法为:首先构建分析模型、预训练数据集、支撑数据集和预测数据集。其中,预训练数据集为一个大数量级的数据,包含数十万条数据,支撑数据集和预测数据集为现有的带有标记的小样本数据。通过预训练数据集对构件的分析模型进行预训练,之后再通过支撑数据集对预训练后的分析模型进行正式训练,最后再通过预测数据集对正式训练后的分析模型进行评估验证最后得到小样本语义识别模型。对于大样本语义识别模型,由于训练数据较多,可以采用通用的模型。在本发明中,大样本语义识别模型包含三层,其中,最底层是具有较强迁移能力的通用BERT模型。
如图2所示为本发明的一种基于深度学习的智能培训检测系统100,用于执行上述的方法。主要包括:语音提问模块10、语音识别模块20、文本纠错模块30和多模式评分模块40。
语音提问模块10用于向被检测者提问。语音识别模块20用于接收被检测者的语音回答并将其转换成文本信息。文本纠错模块30用于通过BERT模型对文本信息进行纠错。多模式评分模块40对于对纠错后的文本信息进行多模式综合评分。
作为一种优选的实施方式,多模式评分模块包括:相似度计算子模块、匹配度计算子模块和
相似度计算子模块,用于计算文本信息和所提问题的标准答案的相似度。
匹配度计算子模块,用于计算文本信息和所提问题的核心词汇之间的匹配度。
评分计算子模块,用于根据相似度计算子模块计算得到的相似度和匹配度计算子模块计算得到的匹配度计算评分。
作为一种优选的实施方式,基于深度学习的智能培训检测系统还包括:语义识别模块50。
语义识别模块50用于识别纠错后的文本信息的含义。语音提问模块根据语义识别模块识别出的文本信息的含义向被检测者再次提问。
进一步地,语义识别模块包括:样本识别子模块、小样本语义识别子模块和大样本语义识别子模块。
样本识别子模块用于识别文本信息属于大样本数据还是小样本数据。小样本语义识别子模块用于当文本信息属于小样本数据时通过训练好的小样本语义识别模型识别其含义。大样本语义识别子模块用于当文本信息属于大样本数据时通过训练好的大样本语义识别模型识别其含义识别其含义。
上述的基于深度学习的智能培训检测系统100的各个模块的具体执行方法参考前述的基于深度学习的智能培训检测方法,不再赘述。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
机译: AI该系统和方法利用深度学习培训模块和基于人工智能的优先级排序框架模块为法律专家提供最佳答案,并利用字符串字典模块提供在线法律词典,该模块将法律信息转换为重要向量
机译: AI该系统和方法利用深度学习培训模块和基于人工智能的优先级排序框架模块为法律专家提供最佳答案,并利用字符串字典模块提供在线法律词典,该模块将法律信息转换为重要向量
机译: 基于机器视觉深度学习的制造过程中智能基于人工智能质量检验的AI方法和系统