首页> 中国专利> 一种汉译英翻译试题的自动解题方法、装置及存储介质

一种汉译英翻译试题的自动解题方法、装置及存储介质

摘要

本发明公开了一种汉译英翻译试题的自动解题方法、装置及存储介质,所述汉译英翻译试题的自动解题方法,包括:基于汉英文本对语料针对预训练语言模型进行训练得到自动解题模型;针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本;基于所述自动解题模型针对所述统一格式试题文本进行编码处理,得到编码文本,所述编码文本中含有对应汉译英翻译试题中待翻译解答部分填充掩盖字符;基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案。本发明有助于学生在汉译英翻译试题作答过程中给予辅导,以及针对汉译英翻译试题作答结果与自动解答结果进行比对实现自动批改。

著录项

  • 公开/公告号CN114970569A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 北京云思智学科技有限公司;

    申请/专利号CN202210515567.7

  • 发明设计人 崔寅生;胡科;

    申请日2022-05-12

  • 分类号G06F40/58(2020.01);G06F40/126(2020.01);G06F40/151(2020.01);G06F16/35(2019.01);G06N3/04(2006.01);G09B7/00(2006.01);

  • 代理机构北京中联智道知识产权代理事务所(普通合伙) 11963;

  • 代理人熊蒙

  • 地址 101106 北京市通州区经济开发区东区靓丽三街9号-2060

  • 入库时间 2023-06-19 16:30:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F40/58 专利申请号:2022105155677 申请日:20220512

    实质审查的生效

  • 2022-08-30

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及在自然语言处理技术领域,具体的涉及一种汉译英翻译试题的自动解题方法、装置及存储介质。

背景技术

为了帮助中小学生更好的掌握和使用英语,中小学的英语训练试题中含有大量的汉译英翻译试题。汉译英翻译试题的题型多种多样,如图1所示的给出汉语语句以及给出部分英文语句,根据汉语语句填写英文语句中空缺位置上的单词;如图2所述的给出汉语语句描述使用场景,根据使用场景提示翻译出英语语句。

现有汉译英翻译试题一般通过人工解答,当学生在进行汉译英翻译试题作答时,没有一定英语经验的人员无法进行辅导,对于英语老师进行汉译英翻译试题批改时,需要逐份人工批改,无法进行批量自动批改,增加英语老师的批改工作量。

有鉴于此,特提出本发明专利,旨在解决汉译英翻译试题的自动解题,有助于学生在汉译英翻译试题作答过程中给予辅导,以及实现针对汉译英翻译试题作答结果的自动批改。

发明内容

为了解决上述问题,本发明提供一种汉译英翻译试题的自动解题方法、装置及存储介质,具体地,采用了如下技术方案:

一种汉译英翻译试题的自动解题方法,包括:

基于汉英文本对语料针对预训练语言模型进行训练得到自动解题模型;

针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本;

基于所述自动解题模型针对所述统一格式试题文本进行编码处理,得到编码文本,所述编码文本中含有对应汉译英翻译试题中待翻译解答部分填充掩盖字符;

基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案。

作为本发明的可选实施方式,本发明所述的一种汉译英翻译试题的自动解题方法中,所述基于汉英文本对语料针对预训练语言模型进行训练得到自动解题模型,包括:

将大规模的通用平行语料统一整理成汉语+英语的语句对;

基于所述汉语+英语的语句对训练预训练语言模型,得到初级自动解题模型。

作为本发明的可选实施方式,本发明所述的一种汉译英翻译试题的自动解题方法中,所述基于汉英文本对语料针对预训练语言模型进行训练得到自动解题模型包括:

获取设定领域汉译英翻译试题相关的语料文本,统一整理成汉语+英语的语句对;

基于设定领域统一整理的所述汉语+英语的语句对增强训练初级自动解题模型,得到增强自动解题模型;

可选地,所述的设定领域为教育领域时,所述教育领域汉译英翻译试题相关的语料文本包括题库、课本以及通过模型在通用平行语料中过滤出与教育领域相近的语料。

作为本发明的可选实施方式,本发明所述的一种汉译英翻译试题的自动解题方法中,所述基于汉英文本对语料针对预训练语言模型进行训练得到自动解题模型包括:

根据汉译英翻译试题的题型特点设计MASK任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式;

基于所述MASK任务继续训练所述增强自动解题模型,最终得到自动解题模型。

作为本发明的可选实施方式,本发明所述的一种汉译英翻译试题的自动解题方法中,所述根据汉译英翻译试题的题型特点设计MASK任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式包括:

汉译英翻译试题的题型特点为给出一定的提示补全剩下需要翻译的单词;

所述MASK任务将所述汉译英翻译试题转换为统一的输入+输出格式为:

[句子起始标识符]汉语语句部分[句子结束标识符]+英语语句部分 +[MASK]部分[句子结束标识符];

其中,所述的[MASK]部分对应汉译英翻译试题中英语语句中需要补全的单词空缺位置。

作为本发明的可选实施方式,本发明所述的一种汉译英翻译试题的自动解题方法中,所述根据汉译英翻译试题的题型特点设计MASK任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式包括:

汉译英翻译试题的题型特点为给出部分场景提示来翻译出整个句子;

所述MASK任务将所述汉译英翻译试题转换为统一的输入+输出格式为:

[句子起始标识符]+[问句标识]场景提示汉语语句部分[句子结束标识符]+英语语句部分[句子结束标识符]。

作为本发明的可选实施方式,本发明所述的一种汉译英翻译试题的自动解题方法中,所述针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本包括:

扫描待解答的所述汉译英翻译试题文本得到原始OCR文本;

针对所述原始OCR文本进行结构化处理,得到结构化OCR文本;

基于所述结构化OCR文本,构造统一的MASK文本。

作为本发明的可选实施方式,本发明所述的一种汉译英翻译试题的自动解题方法中,所述基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案中采用束搜索进行搜索解码。

本发明同时提供一种汉译英翻译试题的自动解题装置,包括:

自动解题模型训练模块,基于大规模汉英文本对语料针对预训练语言模型进行训练得到自动解题模型;

以及自动解题模块,所述自动解题模块包括:

文本格式处理单元,针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本;

文本编码处理单元,基于所述自动解题模型针对所述统一格式试题文本进行编码处理,得到编码文本,所述编码文本中含有对应汉译英翻译试题中待翻译解答部分填充掩盖字符;

以及文本解码处理单元,基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案。

本发明还提供一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的一种汉译英翻译试题的自动解题方法。

与现有技术相比,本发明的有益效果:

本发明的一种汉译英翻译试题的自动解题方法,通过基于大规模汉英文本对语料针对预训练语言模型进行训练得到自动解题模型,通过使用自动解题模型实现汉译英翻译试题的自动解答,有助于学生在汉译英翻译试题作答过程中给予辅导,以及针对汉译英翻译试题作答结果与自动解答结果进行比对实现自动批改。

附图说明:

图1本发明实施例汉译英翻译试题的一种题型示例;

图2本发明实施例汉译英翻译试题的另一种题型示例;

图3本发明实施例汉译英翻译试题的自动解题方法的流程图;

图4本发明实施例汉译英翻译试题的自动解题方法中自动解题模型的训练流程图;

图5本发明实施例汉译英翻译试题的自动解题方法中针对平行语料统一整理成汉语+英语的语句对示例;

图6本发明实施例汉译英翻译试题的自动解题方法中针对教育领域汉译英翻译试题相关的语料文本统一整理成汉语+英语的语句对示例;

图7本发明实施例汉译英翻译试题的自动解题方法中自动解题模型的解题流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。

因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,这类术语仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

参见图3所示,本实施例的一种汉译英翻译试题的自动解题方法,包括:

基于大规模汉英文本对语料针对预训练语言模型进行训练得到自动解题模型;

针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本;

基于所述自动解题模型针对所述统一格式试题文本进行编码处理,得到编码文本,所述编码文本中含有对应汉译英翻译试题中待翻译解答部分填充掩盖字符;

基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案。

本实施例的一种汉译英翻译试题的自动解题方法,通过基于大规模汉英文本对语料针对预训练语言模型进行训练得到自动解题模型,通过使用自动解题模型实现汉译英翻译试题的自动解答,有助于学生在汉译英翻译试题作答过程中给予辅导,以及针对汉译英翻译试题作答结果与自动解答结果进行比对实现自动批改。

本实施例所针对的汉译英翻译试题主要是面向中小学生的,汉译英翻译试题的题型为如图1所示给出一定的提示补全剩下需要翻译的单词(完形填空),或者如图2所示给出部分场景提示来翻译出整个句子(情景翻译),本实施例针对上述试题的题型特点,预训练语言模型采用的是UniLM模型。

UniLM是预训练语言模型,被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点, Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。

UniLM也是一个多层Transformer网络,能够同时完成三种预训练目标, UniLM模型基于mask词的语境来完成对mask词的预测,也是完形填空任务。对于不同的训练目标,其语境是不同的。

单向训练语言模型,mask词的语境就是其单侧的words,左边或者右边。

双向训练语言模型,mask词的语境就是左右两侧的words。

Seq-to-Seq语言模型,左边的seq我们称source sequence,右边的seq 我们称为target sequence,我们要预测的就是target sequence,所以其语境就是所有的sourcesequence和其左侧已经预测出来的target sequence。

UniLM模型预训练的目标,针对不同语言模型的训练目标,在某个完形填空任务中,会随机选择一些WordPiece替换为[MASK],然后通过Transformer网络计算得到相应的输出向量,再把输出向量喂到softmax分类器中,预测被[MASK] 的word。UniLM参数优化的目标就是最小化被[MASK]token的预测值和真实值之间的交叉熵。值得注意的是,由于使用的是完形填空任务,所以可以为所有语言模型(无论是单向还是双向)都使用同样的训练流程。

单向语言模型:

单向语言模型,分别采取从左到右和从右到左的训练目标。以从左到右为例子,例如去预测序列'X1X2[MASK]X4'中的掩码,仅仅只有X1,X2和它自己的信息可用,X4的信息是不可用的。

双向语言模型:

双向语言模型,还以'X1X2[MASK]X4'为例子,其中X1,X2,X4及自己的信息都可用,所以相比单向语言模型,能够生成更好的与上下文相关token表征。

序列到序列语言模型:

左侧的序列其实就是我们的已知序列,叫source sequence,右侧的序列就是我们想要的序列,叫target sequence。左侧的序列属于编码阶段,所以相互的上下文信息都能看到;右侧的序列属于解码阶段,能看到source sequence 的信息、target sequence中其左侧的信息及自己的信息。以T1T2->T3T4T5举例说明,我们的输入就变成[SOS]T1T2[EOS]T3T4T5[EOS],T1和T2相互都能看到,并能看到两边的[SOS]和[EOS];而T4能看到[SOS]、T1、T2、[EOS]、T3及自己的信息。

在训练的时候,source sequence和target sequence中的token都会被随机替换为[MASK],以达到模型学习训练的目的。在预测[MASK]的同时,因为这两个语句对被打包在一起了,其实模型也无形中学到了两个语句之间存在的紧密关系。这在NLG任务中,比如抽象文摘,非常有用。

UniLM模型三大优势:

三种不同的训练目标,网络参数共享。

正是因为网络参数共享,使得模型避免了过拟合于某单一的语言模型,使得学习出来的模型更加general,更具普适性。

因为采用了Seq-to-Seq语言模型,使得其在能够完成NLU任务的同时,也能够完成NLG任务,例如:抽象文摘,问答生成。

作为本实施例的可选实施方式,参见图4所示,本实施例所述的一种汉译英翻译试题的自动解题方法中,所述基于大规模汉英文本对语料针对UniLM模型进行训练得到自动解题模型包括:

将大规模的通用平行语料统一整理成汉语+英语的语句对,参见图5所示;

基于所述汉语+英语的语句对训练UniLM模型,得到初级自动解题模型。

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。按照语料的语种,语料库也可以分成单语的 (Monolingual)、双语的(Bilingual)和多语的(Multilingual)。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。本实施例的自动解题模型训练为了实现汉译英翻译试题的自动解题,因此采用大规模的通用平行语料训练UniLM模型。

进一步地,本实施例所述的一种汉译英翻译试题的自动解题方法,特别针对设定领域的汉译英试题的自动解答,具体地,本实施例以基于教育领域为例,基于教育领域的汉译英试题的题型特点,本实施例所述基于大规模汉英文本对语料针对UniLM模型进行训练得到自动解题模型包括:

获取教育领域汉译英翻译试题相关的语料文本,统一整理成汉语+英语的语句对,参见图6所示;

基于教育领域统一整理的所述汉语+英语的语句对增强训练初级自动解题模型,得到增强自动解题模型;

所述教育领域汉译英翻译试题相关的语料文本包括题库、课本以及通过模型在通用平行语料中过滤出与教育领域相近的语料。

本实施例的汉译英试题包括如图1所示给出一定的提示补全剩下需要翻译的单词(完形填空),或者如图2所示给出部分场景提示来翻译出整个句子(情景翻译),因此,本实施例的汉译英翻译试题的自动解题方法所针对的汉译英试题的题型特点进行增强训练,以提升针对教育领域的汉译英翻译试题的自动解题的准确性。

作为本实施例的可选实施方式,本实施例所述的一种汉译英翻译试题的自动解题方法中,所述基于大规模汉英文本对语料针对UniLM模型进行训练得到自动解题模型包括:

根据汉译英翻译试题的题型特点设计MASK任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式;

基于所述MASK任务继续训练所述增强自动解题模型,最终得到自动解题模型。

在语言模型中,常常需要从上一个词预测下一个词,但如果要在LM中应用selfattention或者是同时使用上下文的信息,要想不泄露要预测的标签信息,就需要mask来“遮盖”它。不同的mask方式,也对应了一篇篇的paper。在自动解题模型的过程中需要进行NLU任务,NLU任务的作用,是让机器准确理解人类生成的自然语言。对于NLG的任务,S1:source segment,S2:target segment,则输入为“[SOS]S1[EOS]S2[EOS]”.我们和预训练的时候一样也是随机mask一些span,目标是在给定的context下最大化我们的mask的token的概率。值得注意的是[EOS],which marks the end of the target sequence, 也是可以被masked,因为这样可以让模型学习到什么时候生成[EOS]这样可以标志文本生成的结束。

具体地,本实施例所述的一种汉译英翻译试题的自动解题方法中,所述根据汉译英翻译试题的题型特点设计span mask任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式包括:

汉译英翻译试题的题型特点为给出一定的提示补全剩下需要翻译的单词;

所述span mask任务将所述汉译英翻译试题转换为统一的输入+输出格式为:[句子起始标识符]汉语语句部分[句子结束标识符]+英语语句部分+[MASK] 部分[句子结束标识符];

其中,所述的[MASK]部分对应汉译英翻译试题中英语语句中需要补全的单词空缺位置。

针对图1中的示例汉译英翻译试题,span mask任务处理转换后的格式为: [SOS]我喜欢有游泳池的公园。[EOS]I love the park[MASK][MASK][MASK] a swiming pool.[EOS]。

具体地,本实施例所述的一种汉译英翻译试题的自动解题方法中,所述根据汉译英翻译试题的题型特点设计span mask任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式包括:

汉译英翻译试题的题型特点为给出部分场景提示来翻译出整个句子;

所述span mask任务将所述汉译英翻译试题转换为统一的输入+输出格式为:

[句子起始标识符]+[问句标识]场景提示汉语语句部分[句子结束标识符]+英语语句部分[句子结束标识符]。

针对图2中的示例汉译英翻译试题,span mask任务处理转换后的格式为: [SOS][ASK]:你想知道你的朋友最喜欢那个音乐家[EOS]Who is your favorite musician?[EOS]。

自然语言处理常用标识符:

:低频词或未在词表中的词;

:补全字符;

/:句子起始标识符;

:句子结束标识符;

[SEP]:两个句子之间的分隔符;

[MASK]:填充被掩盖掉的字符。

作为本实施例的可选实施方式,本实施例所述的一种汉译英翻译试题的自动解题方法中,所述针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本包括:

扫描待解答的所述汉译英翻译试题文本得到原始OCR文本;

针对所述原始OCR文本进行结构化处理,得到结构化OCR文本;

基于所述结构化OCR文本,构造统一的MASK文本。

本实施例的汉译英翻译试题的自动解题方法基于训练生成的自动解题模型实现了汉译英翻译试题的自动解答,在自动解答的过程中,首先需要针对汉译英翻译试题文本进行预处理,构造统一的MASK文本,以用于自动解题模型实现自动解题。

OCR(opticalcharacterrecognition,光学字符识别)技术主要是将图像中的文字识别为可编辑的字符串。早期的ocr技术主要识别的是一些简单的文档图像,由于深度学习的发展,目前的ocr技术已经广泛应用于各种复杂场景下图像的文字识别。然而,ocr技术识别出的结果仅仅是一串可编辑的字符串,不包含任何结构化信息,整个看来,业务处理需要不同板式的文字识别,因此针对所述原始OCR文本进行结构化处理,能够针对性的处理汉译英翻译试题文本的原始OCR文本获取更加精准的信息,确保利用自动解题模型解题的准确性,而且能够提升自动解题的效率。

进一步地,本实施例所述的一种汉译英翻译试题的自动解题方法中,所述基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案中采用搜索算法beam search(束搜索)进行搜素解码。

Beam Search(集束搜索)是一种启发式图搜索算法,通常用在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点。这样减少了空间消耗,并提高了时间效率,但缺点就是有可能存在潜在的最佳方案被丢弃,因此,Beam Search算法是不完全的,一般用于解空间较大的系统中。

该算法常用的场景如:机器翻译,语音识别,当系统的数据集比较大,计算资源受限,而且没有唯一最优解时,该算法能够较快的找到接近最正确的解。

本实施例同时提供一种汉译英翻译试题的自动解题装置,包括:

自动解题模型训练模块,基于大规模汉英文本对语料针对预训练语言模型进行训练得到自动解题模型;

以及自动解题模块,所述自动解题模块包括:

文本格式处理单元,针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本;

文本编码处理单元,基于所述自动解题模型针对所述统一格式试题文本进行编码处理,得到编码文本,所述编码文本中含有对应汉译英翻译试题中待翻译解答部分填充掩盖字符;

以及文本解码处理单元,基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案。

本实施例的一种汉译英翻译试题的自动解题装置,自动解题模型训练模块通过基于大规模汉英文本对语料针对预训练语言模型进行训练得到自动解题模型,自动解题模块通过使用自动解题模型实现汉译英翻译试题的自动解答,有助于学生在汉译英翻译试题作答过程中给予辅导,以及针对汉译英翻译试题作答结果与自动解答结果进行比对实现自动批改。

本实施例所针对的汉译英翻译试题主要是面向中小学生的,汉译英翻译试题的题型为如图1所示给出一定的提示补全剩下需要翻译的单词(完形填空),或者如图2所示给出部分场景提示来翻译出整个句子(情景翻译),本实施例针对上述试题的题型特点,自动解题模型训练模块训练的预训练语言模型采用的是UniLM模型。

作为本实施例的可选实施方式,参见图4所示,本实施例所述的一种汉译英翻译试题的自动解题装置,所述自动解题模型训练模块基于大规模汉英文本对语料针对UniLM模型进行训练得到自动解题模型包括:

将大规模的通用平行语料统一整理成汉语+英语的语句对,参见图5所示;

基于所述汉语+英语的语句对训练UniLM模型,得到初级自动解题模型。

进一步地,本实施例所述的一种汉译英翻译试题的自动解题装置,特别针对教育领域的汉译英试题的自动解答,基于教育领域的汉译英试题的题型特点,本实施例所述自动解题模型训练模块,基于大规模汉英文本对语料针对UniLM 模型进行训练得到自动解题模型包括:

获取教育领域汉译英翻译试题相关的语料文本,统一整理成汉语+英语的语句对,参见图6所示;

基于教育领域统一整理的所述汉语+英语的语句对增强训练初级自动解题模型,得到增强自动解题模型;

所述教育领域汉译英翻译试题相关的语料文本包括题库、课本以及通过模型在通用平行语料中过滤出与教育领域相近的语料。

本实施例的汉译英试题包括如图1所示给出一定的提示补全剩下需要翻译的单词(完形填空),或者如图2所示给出部分场景提示来翻译出整个句子(情景翻译),因此,本实施例的汉译英翻译试题的自动解题模型训练模块所针对的汉译英试题的题型特点进行增强训练,以提升针对教育领域的汉译英翻译试题的自动解题的准确性。

作为本实施例的可选实施方式,本实施例所述的自动解题模型训练模块基于大规模汉英文本对语料针对UniLM模型进行训练得到自动解题模型包括:

根据汉译英翻译试题的题型特点设计MASK任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式;

基于所述MASK任务继续训练所述增强自动解题模型,最终得到自动解题模型。

在语言模型中,常常需要从上一个词预测下一个词,但如果要在LM中应用 selfattention或者是同时使用上下文的信息,要想不泄露要预测的标签信息,就需要mask来“遮盖”它。不同的mask方式,也对应了一篇篇的paper。在自动解题模型的过程中需要进行NLU任务,NLU任务的作用,是让机器准确理解人类生成的自然语言。对于NLG的任务,S1:source segment,S2:target segment,则输入为“[SOS]S1[EOS]S2[EOS]”.我们和预训练的时候一样也是随机mask一些span,目标是在给定的context下最大化我们的mask的token的概率。值得注意的是[EOS],which marks the end of the target sequence, 也是可以被masked,因为这样可以让模型学习到什么时候生成[EOS]这样可以标志文本生成的结束。

具体地,本实施例所述的一种汉译英翻译试题的自动解题装置,所述自动解题模型训练模块根据汉译英翻译试题的题型特点设计MASK任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式包括:

汉译英翻译试题的题型特点为给出一定的提示补全剩下需要翻译的单词;

所述MASK任务将所述汉译英翻译试题转换为统一的输入+输出格式为:

[句子起始标识符]汉语语句部分[句子结束标识符]+英语语句部分 +[MASK]部分[句子结束标识符];

其中,所述的[MASK]部分对应汉译英翻译试题中英语语句中需要补全的单词空缺位置。

针对图1中的示例汉译英翻译试题,span mask任务处理转换后的格式为: [SOS]我喜欢有游泳池的公园。[EOS]I love the park[MASK][MASK][MASK] a swiming pool.[EOS]。

具体地,本实施例所述的一种汉译英翻译试题的自动解题装置,所述自动解题模型训练模块根据汉译英翻译试题的题型特点设计span mask任务将各种题型的汉译英翻译试题转换为统一的输入+输出格式包括:

汉译英翻译试题的题型特点为给出部分场景提示来翻译出整个句子;

所述span mask任务将所述汉译英翻译试题转换为统一的输入+输出格式为:

[句子起始标识符]+[问句标识]场景提示汉语语句部分[句子结束标识符]+英语语句部分[句子结束标识符]。

针对图2中的示例汉译英翻译试题,span mask任务处理转换后的格式为: [SOS][ASK]:你想知道你的朋友最喜欢那个音乐家?[EOS]Who is your favorite musician?[EOS]。

作为本实施例的可选实施方式,本实施例所述的一种汉译英翻译试题的自动解题装置,所述文本格式处理单元针对汉译英翻译试题文本进行文本预处理,得到统一格式试题文本包括:

扫描待解答的所述汉译英翻译试题文本得到原始OCR文本;

针对所述原始OCR文本进行结构化处理,得到结构化OCR文本;

基于所述结构化OCR文本,构造统一的MASK文本。

本实施例的汉译英翻译试题的自动解题装置基于训练生成的自动解题模型实现了汉译英翻译试题的自动解答,在自动解答的过程中,首先需要针对汉译英翻译试题文本进行预处理,构造统一的MASK文本,以用于自动解题模型实现自动解题。

进一步地,本实施例所述的一种汉译英翻译试题的自动解题装置,所述基于所述自动解题模型针对所述编码文本中的掩盖字符进行搜索解码,自动生成汉译英翻译试题的解题答案中采用搜索算法beam search(束搜索)进行搜素解码。

本实施例还提供一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的一种汉译英翻译试题的自动解题方法。

本实施例所述存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

本实施例还提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述一种汉译英翻译试题的自动解题方法。

电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。

所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。

应当理解,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。

通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。

以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号