首页> 中国专利> 拼写纠错模型生成方法和装置、拼写纠错方法和装置

拼写纠错模型生成方法和装置、拼写纠错方法和装置

摘要

本公开提供了一种拼写纠错模型生成方法和装置,涉及人工智能技术领域,具体涉及深度学习、自然语言处理等技术领域,可应用于OCR等场景。具体实现方案为:获取包括至少一个纠错样本的纠错样本集;基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型;从纠错样本集选取包括低频词汇的低频样本,得到低频样本集;基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。该实施方式提高了拼写纠错模型对拼写错误的泛化能力。

著录项

  • 公开/公告号CN114861637A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202210546618.2

  • 发明设计人 马芸;桂睿;曹宇慧;黄硕;陈永锋;

    申请日2022-05-18

  • 分类号G06F40/232(2020.01);G06F40/216(2020.01);G06F40/30(2020.01);G06K9/62(2022.01);

  • 代理机构北京英赛嘉华知识产权代理有限责任公司 11204;北京英赛嘉华知识产权代理有限责任公司 11204;

  • 代理人王达佐;马晓亚

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-06-16

    授权

    发明专利权授予

  • 2022-08-23

    实质审查的生效 IPC(主分类):G06F40/232 专利申请号:2022105466182 申请日:20220518

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本公开涉及人工智能技术领域,具体涉及深度学习、自然语言处理等技术领域,可应用于OCR等场景,尤其涉及一种拼写纠错模型生成方法和装置、拼写纠错方法和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术

拼写纠错系统旨在基于自然语言处理技术,自动化地识别文本中的拼写错别字,并给出相应的修改建议。传统的拼写纠错系统多采用规则匹配结合排序模型的技术路线:规则匹配基于词典资源、编辑距离进行召回,召回的候选经过特征提取输入排序模型得到打分并形成纠错结果。传统的规则匹配结合排序模型的拼写纠错技术过度依赖词典资源与特征工程,人工成本高,缺乏泛化能力。

发明内容

提供了一种拼写纠错模型生成方法和装置、电子设备、计算机可读介质以及计算机程序产品。

根据第一方面,提供了一种拼写纠错模型生成方法,该方法包括:获取包括至少一个纠错样本的纠错样本集;基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型;从纠错样本集选取包括低频词汇的低频样本,得到低频样本集;基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。

根据第二方面,提供了一种拼写纠错方法,该方法包括:获取待纠错文本数据;将待纠错文本数据输入第一方面任一实现方式描述的方法生成的拼写纠错模型中,得到待纠错文本数据中错误目标以及错误目标的纠正结果。

根据第三方面,提供了一种拼写纠错模型生成装置,该装置包括:纠错获取单元,被配置成获取包括至少一个纠错样本的纠错样本集;待调训练单元,被配置成基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型;低频获取单元,被配置成从纠错样本集选取包括低频词汇的低频样本,得到低频样本集;拼写训练单元,被配置成基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。

根据第四方面,提供了一种拼写纠错装置,该装置包括:文本获取单元,被配置成获取待纠错文本数据;得到单元,被配置成将待纠错文本数据输入第三方面任一实现方式描述的装置生成的拼写纠错模型中,得到待纠错文本数据中错误目标以及错误目标的纠正结果。

根据第五方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。

根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。

根据第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。

本公开的实施例提供的拼写纠错模型生成方法和装置,首先,获取包括至少一个纠错样本的纠错样本集;其次,基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型;再次,从纠错样本集选取包括低频词汇的低频样本,得到低频样本集;最后,基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。由此,采用纠错样本集中的低频词汇对待调纠错模型进行微调可以提升拼写纠错模型对低频词汇的理解能力,减少误纠错现象,提升了拼写纠错模型的泛化性以及拼写纠错模型在拼写纠错任务中的表现。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开拼写纠错模型生成方法的一个实施例的流程图;

图2是本公开实施例中拼写纠错模型生成的一种结构示意图;

图3是根据本公开拼写纠错方法的一个实施例的流程图;

图4是根据本公开拼写纠错模型生成装置的实施例的结构示意图;

图5是根据本公开拼写纠错装置的实施例的结构示意图;

图6是用来实现本公开实施例的拼写纠错模型生成方法、拼写纠错方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本实施例中,“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

图1示出了根据本公开拼写纠错模型生成方法的一个实施例的流程100,上述拼写纠错模型生成方法包括以下步骤:

步骤101,获取包括至少一个纠错样本的纠错样本集。

本实施例中,纠错样本集为拼写纠错模型生成方法运行于其上的执行主体为了训练拼写纠错模型而获取的文本数据集。拼写纠错模型生成方法的执行主体可以通过多种方式来获取纠错样本集。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器中获取存储于其中的纠错样本集。再例如,执行主体也可以接收终端或其他设备实时采集的纠错样本集。

本实施例中,纠错样本集包括至少一个纠错样本,每个纠错样本可以为一段文本数据,该段文本数据中的一些错别字标注有相应的字标签,该字标签为对应错别字的正确的字;可选地,该段文本数据中的一些错别词标注有相应的词标签,该词标签为对应错别词的正确的词。

可选地,纠错样本集包括至少一段文本数据,每段文本数据包括:原始文本以及对应该原始文本的文本标签,文本标签是对应该原始文本的正确的文本。

步骤102,基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型。

本实施例中,预训练的文本识别模型是通过训练掩码语言模型的方法训练得到的模型,文本识别模型用于预测文本中的内容。

预训练的文本识别模型的训练过程如下:在大规模无标注文本数据上,随机将文本数据中的一部分文字替换为特殊字符(该特殊字符由文本识别模型识别为对文字的掩膜),将替换后的文本数据和原始数据输入对应文本识别模型的文本识别网络,经过文本识别网络的编码,得到文本识别网络对替换后的文本数据的预测结果,基于预测结果与原始数据调整文本识别网络的参数,直至文本识别网络的迭代训练次数达到训练阈值或者文本识别网络的损失值达到损失值阈值,得到文本识别模型,该文本识别模型在任何一个替换后的文本输入之后,均可以最终预测出特殊字符位置的原始的文字。

本实施例中,文本识别模型的网络结构可以采用Ernie(EnhancedRepresentation from Knowledge Integration,知识增强语义表示模型)以及其他基于transformer结构的双向模型如BERT(Bidirectional Encoder Representation fromTransformers,双向的Transformers的编码器)、ELECTRA(Efficiently Learning anEncoder that Classifies Token Replacements Accurately,高效地学习对Token替换进行准确分类的编码器)等。

本实施例中,预训练的文本识别模型不具备纠错能力,即预训练的文本识别模型没有任何纠错能力,当输入具有掩膜遮挡的文本数据之后,该文本识别模型仅可以对输入的文本数据中的掩膜部分进行预测,预测掩膜部分的文字。

本实施例中,通过纠错样本集对文本识别模型进行拼写纠错训练,得到的待调纠错模型是具有一定纠错能力的模型,但是待调纠错模型的纠错能力并不成熟,纠错能力较弱。

步骤103,从纠错样本集选取包括低频词汇的低频样本,得到低频样本集。

本实施例中,低频样本是纠错样本集出现比例较低的纠错样本,并且低频样本中的低频词汇在纠错样本集中的所有纠错样本中出现的次数较少,由于低频样本中低频词汇出现次数较少,模型极易认为低频词汇位置为错误,从而发生误纠,为此,选取低频样本组成低频样本集,专门用于对待调纠错模型进行纠错训练,可以提高待调纠错模型对低频样本的识别能力。

步骤104,基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。

本实施例中,待调纠错模型的训练步骤包括:步骤一、在低频样本集中选取低频样本;步骤二、将选取的低频样本输入待调纠错模型,使待调纠错模型对该选取的低频样本进行编码,预测该选取的低频样本中每个文本位置的真正的文本;步骤三、基于待调纠错模型预测的文本和选取的低频样本计算待调纠错模型的损失值;步骤四、若待调纠错模型不满足训练完成条件,则调整待调纠错模型的参数,继续执行步骤一至步骤四,直至待调纠错模型满足训练完成条件为止,将待调纠错模型作为拼写纠错模型。本实施例中,训练完成条件包括:待调纠错模型的损失值达到一定损失阈值或者待调纠错模型训练迭代次数达到预设次数,其中,训练迭代次数是指执行步骤一至步骤四的次数。

本实施例中,通过选取包含低频词汇的低频样本继续训练待调纠错模型,可以使训练完成的拼写纠错模型更好地理解低频词汇的语义,减少拼写纠错模型的误纠现象。

可选地,上述拼写纠错模型生成方法还可以包括:从纠错样本集中选取易误纠的纠错样本,得到易误纠样本集;采用易误纠样本集训练拼写纠错模型,得到最终的纠错模型。本实施例中,易误纠样本集中的纠错样本是容易发生误纠的样本类型,如包含专名(如人名、地名等)的纠错样本。

本公开的实施例提供的拼写纠错模型生成方法,首先,获取包括至少一个纠错样本的纠错样本集;其次,基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型;再次,从纠错样本集选取包括低频词汇的低频样本,得到低频样本集;最后,基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。由此,采用纠错样本集中的低频词汇对待调纠错模型进行微调可以提升拼写纠错模型对低频词汇的理解能力,减少误纠错现象,提升了拼写纠错模型的泛化性以及拼写纠错模型在拼写纠错任务中的表现。

在本公开的一些实施例中,上述拼写纠错模型生成方法还包括:在待调纠错模型训练过程中,对低频样本集中低频样本的第一目标位置的语义表征进行对比学习,得到第一对比学习损失;基于第一对比学习损失,调整待调纠错模型的参数。

本实施例中,在待调纠错模型训练过程中是指待调纠错模型每次迭代训练过程中,对当前输入的低频样本,待调纠错模型对其编码后,除了要预测低频样本的每个位置的真实文本,还随机选取目标位置(一部分文字所在的位置),对该目标位置增加一个对比学习的目标,目标为该位置在待调纠错模型的语义表征要靠近对其预设的正样本,远离对其预设的负样本。

本实施例中,语义表征可以选取待调纠错模型最后一层的输出,例如,当待调纠错模型采用Ernie编码器时,语义表征为Ernie编码器最后一层的输出。

本实施例中,低频样本集中低频样本是在待调纠错模型当前迭代训练过程中从低频样本中选取的低频样本,低频样本的第一目标位置是各个文本所在位置(如文字或词语正确的文本正确位置,或文字或词语错误的文本错误位置),第一目标位置的语义表征是文本在待调纠错模型最后一层的向量表示。通过将待调纠错模型的第一目标位置的语义表征与预先构建的正样本、负样本进行对比,确定第一对比学习损失,在对比过程第一目标位置的语义表征应该最大化地靠近正样本,远离负样本,在语义表征达到最优时,确定待调纠错模型的预测结果最优。

本实施例提供的拼写纠错模型生成方法,在待调纠错模型训练过程中,引入对比学习机制,可以减少待纠错模型对低频样本学习不充分而产生的误纠现象。

在本实施例的一些可选实现方式中,上述第一目标位置为文本正确位置,上述对低频样本集中低频样本的第一目标位置的语义表征进行对比学习,得到第一对比学习损失,包括:采用预先构造的正样本与文本正确位置的语义表征进行相似度对比,得到第一正相似度;采用预先构造的负样本与文本正确位置的语义表征进行相似度对比,得到第一负相似度;基于第一正相似度和第一负相似度,计算得到第一对比学习损失。

本可选实现方式中,第一目标位置为文本正确位置是低频样本中文字或词语正确的位置,例如,低频样本为:今天天气恨好,其中,“天”所在位置为文本正确位置,而“恨”所在位置为文本错误位置。如图2所示,在待调识别模型训练过程中,添加入文本正确位置对比学习机制,可以增加拼写纠错模型训练的可靠性。

本可选实现方式中,第一正相似度用于反映文本正确位置的语义表征与正样本的相似度,第一正相似度的值越大,说明文本正确位置的语义表征与正样本越相似;第一负相似度用于反映文本正确位置的语义表征与负样本的相似度,第一负相似度的值越大,说明文本正确位置的语义表征与负样本越相似。

本可选实现方式中,上述基于第一正相似度和第一负相似度,计算得到第一对比学习损失,包括:将第一正相似度和第一负相似度带入对比损失计算公式,得到第一对比学习损失。具体地,对比损失计算公式可以采用如式(1):

在式(1)中,a

本可选实现方式提供的第一对比学习损失计算方法,采用文本正确位置对比学习结合待调纠错模型的低频样本的微调,旨在增强待调纠错模型对正确文本中低频词汇的理解,减少因对低频词汇学习不充分而产生的误纠。

本可选实现方式中,上述正样本通过以下至少一种方式构造得到:(z1)将输入的低频样本进行截断后第一目标位置的语义表征;(z2)利用待调纠错模型中丢弃层的随机性将输入的低频样本进行额外一次前馈过程后第一目标位置的语义表征;(z3)在输入的低频样本的词向量上加入对抗扰动值后第一目标位置的语义表征。本可选实现方式中,输入的低频样本是指待调纠错模型的当前迭代训练轮次中,当前输入待调纠错模型中的低频样本。

本可选方式中,正样本是低频样本应当靠近的样本,正样本构造方式中的(z1)具体实现为:给定一个低频样本,选中该低频样本的第一目标位置的x,将低频样本进行截断(不能截掉选中的x),截断后的文本作为一个新输入,经过待调纠错模型编码,则编码后x对应的语义表征称为原始完整文本编码后x对应的语义表征的正样本。

本可选实现方式中,上述负样本通过以下至少一种方式构造得到:(t1)将包含第一目标位置真实标签的易混标签的样本输入待调纠错模型后,得到易混标签位置的语义表征;(t2)获取其他随机样本随机位置的语义表征。本可选实现方式中,其他随机样本是与当前迭代训练轮次中,与当前输入待调纠错模型中的低频样本完全不同的样本。

本可选实现方式中,负样本指选中的第一目标位置的文本的语义表征应当远离的样本。负样本构造方法中的(t1)是假设,一条随机输入文本(不同于当前输入文本)应当与当前输入文本是没有关联的,故该随机样本经过模型编码后的任意带标签的语义表征可以作为负样本。具体实践中,由于模型训练是以批次(batch)为单位进行的,可直接选取与当前输入样本同批次的其他样本作为随机样本。

在本实施的一些可选实现方式中,上述纠错样本集包括:伪纠错子样本集和真纠错子样本集,上述基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型包括:采用伪纠错子样本集,对文本识别模型进行拼写纠错训练,得到初始纠错模型;采用真纠错子样本集,对初始纠错模型进行拼写纠错训练,得到待调纠错模型。

本实施例中,伪纠错子样本集包括至少一个伪纠错样本,伪纠错样本为利用文字的音近和/或形近的特征替换构造纠错样本而得到的样本。真纠错子样本集包括至少一个真纠错样本,真纠错样本为经过人工标注的真实的纠错样本。需要说明的是,真纠错子样本集可以是从第三方实时获取的人工标注完成的样本集。

本可选实现方式中,文本识别模型几乎不具备纠错能力,经过采用伪纠错子样本集对文本识别模型进行拼写纠错训练,得到的初始纠错模型此时具备了较弱的纠错能力,即纠错能力并不成熟。较弱的原因是:训练数据是自动生成的,而非真实数据,真实数据与自动生成数据是存在差距的,因此仅在自动生成数据上训练后的模型无法将其能力完全泛化到真实数据场景。

进一步地,采用真纠错子样本集对初始纠错模型进行拼写纠错训练,得到的待调纠错模型,可以完全泛化到真实数据场景,提高了待调纠错模型的纠错能力。

如图2所示,拼写纠错模型训练过程包括三个阶段,其中,该三个阶段中的前两个阶段为待调纠错模型训练过程:

第一阶段:该阶段利用音/形近替换构造伪纠错子样本集,对预训的文本识别模型进行拼写纠错训练,训练目标为预测伪纠错样本每个位置的真实文本,最终为第二阶段训练生成初始纠错模型。

第二阶段:该阶段利用经人工标注的真实成对构造真纠错子样本集,对阶段1得到的初始纠错模型进行再次拼写纠错训练,训练目标与第一阶段相同,采用与第一阶段相同的损失函数进行损失值计算。在该阶段由于采用的是真实数据,经过此阶段后,初始纠错模型面向真实数据的纠错能力将增强,该阶段最终为第三阶段训练生成待调纠错模型。

第三阶段:该阶段选取真纠错子样本集中包含低频词汇的样本,对阶段2得到的待调识别模型进行微调,训练目标与第一阶段相同,采用与第一阶段相同的损失函数进行损失值计算,最终训练得到拼写纠错模型。

本可选实现方式提供的待调纠错模型训练方法,在一阶段通过伪纠错子样本集训练文本识别模型,得到初始纠错模型;在另一阶段通过真纠错子样本集训练初始纠错模型,得到待调纠错模型,提高了待调纠错模型的纠错能力和泛化能力。

在本公开的一些实施例中,上述拼写纠错模型生成方法还包括:在文本识别模型和初始纠错模型训练过程中,对纠错样本中第二目标位置的语义表征进行对比学习,得到第二对比学习损失;基于第二对比学习损失,调整文本识别模型和初始纠错模型的参数。

本实施例中,在文本识别模型每次迭代训练过程中,对当前输入的伪纠错子样本集中的伪纠错样本,文本识别模型对其编码后,除了要预测伪纠错样本的每个位置的真实文本,还随机选取目标位置(一部分文字所在的位置),对该目标位置增加一个对比学习的目标,目标为该位置在待调纠错模型的语义表征要靠近对其预设的正样本,远离对其预设的负样本。

在初始纠错模型每次迭代训练过程中,对当前输入的真纠错子样本集中的真纠错样本,初始纠错模型对其编码后,除了要预测真纠错样本的每个位置的真实文本,还随机选取目标位置(一部分文字所在的位置),对该目标位置增加一个对比学习的目标,目标为该位置在待调纠错模型的语义表征要靠近对其预设的正样本,远离对其预设的负样本。

本实施例提供的拼写纠错模型生成方法,在待文本识别模型和初始纠错模型训练过程中,引入对比学习机制,可以提升模型对拼写错误的泛化能力,减少漏纠现象。

在本实施例的一些可选实现方式,上述第二目标位置为文本错误位置,上述对纠错样本中第二目标位置的语义表征进行对比学习,得到第二对比学习损失,包括:采用预先构造的正样本与文本错误位置的语义表征进行相似度对比,得到第二正相似度;采用预先构造的负样本与文本错误位置的语义表征进行相似度对比,得到第二负相似度;基于第二正相似度和第二负相似度,计算得到第二对比学习损失。

本可选实现方式中,第二目标位置为文本错误位置是指纠错样本集中纠错样本中文字或词语错误的位置,当纠错样本集包括:伪纠错子样本集和真纠错子样本集,第二目标位置为伪纠错样本中文字或词语错误的位置,和真纠错样本中文字或词语错误的位置,具体如图2所示。

本可选实现方式中,上述基于第二正相似度和第二负相似度,计算得到第二对比学习损失,包括:将第二正相似度和第二负相似度带入对比损失计算公式,得到第二对比学习损失。具体地,对比损失计算公式可以采用如式(2):

在式(1)中,a

本可选实现方式提供的第二对比学习损失计算方法,将对文本错误位置语义表征的对比学习作为伪纠错子样本集对文本识别模型的预训和真纠错子样本集对初始纠错模型的纠错微调的辅助任务,旨在提升模型对错误的鲁棒性,减少因上下文改变而产生的漏纠。

本实施例的一些可选实现方式中,上述伪纠错子样本集的得到步骤如下:获取初始文本样本集;确定与初始文本样本集中各个文本样本的字或词音近或形近的替换词;采用替换词替换初始文本样本集中各个文本样本的字或词,得到伪纠错子样本集。

可选地,伪纠错子样本集的得到步骤还可以如下:获取初始文本样本集;确定与初始文本样本集中各个文本样本的字或词音近和形近的替换词;采用替换词替换初始文本样本集中各个文本样本的字或词,得到伪纠错子样本集。

本可选实现方式提供的伪纠错子样本集得到方法,在得到初始文本样本集之后,采用与各个文本样本集中文本样本的字或词音近或形近的替换词替换初始文本样本集中的各个文本样本的字或词,可以最大化的扩充伪纠错子样本集,实现了样本数据增强的效果。

在本实施的一些可选实现方式中,正样本通过以下至少一种方式构造得到:将输入的纠错样本进行截断后第二目标位置的语义表征;利用模型中丢弃层的随机性将输入的纠错样本进行额外一次前馈过程后第二目标位置的语义表征;在输入的纠错样本的词向量上加入对抗扰动值后第二目标位置的语义表征。

本可选实现方式中,上述模型可以是文本识别模型和初始纠错模型。在训练文本识别模型时,可以利用文本识别模型中丢弃层的随机性将输入的纠错样本进行额外一次前馈过程后第二目标位置的语义表征;在训练初始纠错模型时,可以利用初始纠错模型中丢弃层的随机性将输入的纠错样本进行额外一次前馈过程后第二目标位置的语义表征。本实施例中,对抗扰动值为任意的、可以添加在词向量上的值。

本可选实现方式中,正样本的构造方式可以参照上述实施例中低频样本对应的正样本构造方式。

本可选实现方式提供的正样本构造方法,采用多种方式实现正样本,高了正样本获取的多样性。

在本实施例的一些可选实现方式中,负样本通过以下至少一种方式构造得到:将包含第二目标位置真实标签的易混标签的样本输入模型后,得到易混标签位置的语义表征;获取其他随机样本随机位置的语义表征。

本可选实现方式中,负样本的构造方式可以参照上述实施例中低频样本对应的负样本构造方式。

本可选实现方式提供的负样本构造方法,采用多种方式实现负样本,提高了负样本获取的多样性。

图3示出了本公开拼写纠错方法的一个实施例的流程图300,上述拼写纠错方法包括以下步骤:

步骤301,获取待纠错文本数据。

在本实施例中,待纠错文本数据是待检测的文本数据,该待纠错文本数据中的文字或者词语可能部分正确,也可以能全部正确。拼写纠错方法的执行主体可以通过多种方式来获取待纠错文本数据。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器中获取存储于其中的待纠错文本数据。再例如,执行主体也可以接收终端或其他设备实时采集的待纠错文本数据。

在本实施例中,待纠错文本数据可以是一段文本的文本数据,也可能是多段文本的文本数据等,且该待纠错文本数据的格式在本公开中也不限制。

步骤302,将待纠错文本数据输入采用拼写纠错模型生成方法生成的拼写纠错模型中,得到待纠错文本数据中错误目标以及错误目标的纠正结果。

在本实施例中,执行主体可以将步骤301中获取的待纠错文本数据输入拼写纠错模型中,从而得到拼写纠错模型输出的错误目标以及错误目标的纠正结果。其中,错误目标是待纠错文本数据中的错误文字或者错误词语,在错误目标是错误文字时,错误目标的纠正结果是错误文字对应的正确文字;在错误目标是错误词语时,错误目标的纠正结果是错误词语对应的正确词语。可选地,错误目标的纠正结果还可以包括:错误目标对应的正确文字或正确词语的位置信息(正确文字或正确词语在待纠错文本数据中的坐标等)。

在本实施例中,拼写纠错模型可以是采用如上述图1实施例所描述的方法而生成的。具体生成过程可以参见图1实施例的相关描述,在此不再赘述。

需要说明的是,本实施例拼写纠错方法可以用于测试上述各实施例所生成的拼写纠错模型。进而根据错误目标以及错误目标的纠正结果可以不断地优化拼写纠错模型。该方法也可以是上述各实施例所生成的拼写纠错模型的实际应用方法。采用上述各实施例所生成的拼写纠错模型,来进行拼写纠错,有助于提高待纠错文本数据的正确性,提高了文本编辑规则的可靠性。

本实施例提供的拼写纠错方法,获取待纠错文本数据,将待纠错文本数据输入预训练完成的拼写纠错模型,可以有效识别待纠错文本数据中的错误目标以及错误目标的纠正结果,提高了错误目标的识别效率。

进一步参考图4,作为对上述各图所示方法的实现,本公开提供了拼写纠错模型生成装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可应用于各种电子设备中。

如图4所示,本实施例提供的拼写纠错模型生成装置400包括:纠错获取单元401,待调训练单元402,低频获取单元403,拼写训练单元404。其中,上述纠错获取单元401,可以被配置成获取包括至少一个纠错样本的纠错样本集。上述待调训练单元402,可以被配置成基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型。上述低频获取单元403,可以被配置成从纠错样本集选取包括低频词汇的低频样本,得到低频样本集。上述拼写训练单元404,可以被配置成基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。

在本实施例中,拼写纠错模型生成装置400中:纠错获取单元401,待调训练单元402,低频获取单元403,拼写训练单元404的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明,在此不再赘述。

在本实施例的一些可选的实现方式中,上述装置400还包括:第一对比学习单元(图中未示出),第一调整单元(图中未示出)。其中,上述第一对比学习单元,可以被配置成在待调纠错模型训练过程中,对低频样本集中低频样本的第一目标位置的语义表征进行对比学习,得到第一对比学习损失。上述第一调整单元,可以被配置成基于第一对比学习损失,调整待调纠错模型的参数。

在本实施例的一些可选的实现方式中,上述第一目标位置为文本正确位置,上述第一对比学习单元进一步被配置成:采用预先构造的正样本与文本正确位置的语义表征进行相似度对比,得到第一正相似度;采用预先构造的负样本与文本正确位置的语义表征进行相似度对比,得到第一负相似度;基于第一正相似度和第一负相似度,计算得到第一对比学习损失。

在本实施例的一些可选的实现方式中,上述纠错样本集包括:伪纠错子样本集和真纠错子样本集,待调训练单元402进一步被配置成:采用伪纠错子样本集,对文本识别模型进行拼写纠错训练,得到初始纠错模型;采用真纠错子样本集,对初始纠错模型进行拼写纠错训练,得到待调纠错模型。

在本实施例的一些可选的实现方式中,上述装置400还包括:第二对比学习单元(图中未示出),第二调整单元(图中未示出)。其中,上述第二对比学习单元,可以被配置成在文本识别模型和初始纠错模型训练过程中,对纠错样本中第二目标位置的语义表征进行对比学习,得到第二对比学习损失。上述第二调整单元,可以被配置成基于第二对比学习损失,调整文本识别模型和初始纠错模型的参数。

在本实施例的一些可选的实现方式中,上述第二对比学习单元进一步配置成:采用预先构造的正样本与文本错误位置的语义表征进行相似度对比,得到第二正相似度;采用预先构造的负样本与文本错误位置的语义表征进行相似度对比,得到第二负相似度;基于第二正相似度和第二负相似度,计算得到第二对比学习损失。

在本实施例的一些可选实现方式中,上述伪纠错子样本集采用样本聚合单元(图中未示出)得到;上述样本聚合单元可以被配置成:获取初始文本样本集;确定与初始文本样本集中各个文本样本的字或词音近或形近的替换词;采用替换词替换初始文本样本集中各个文本样本的字或词,得到伪纠错子样本集。

在本实施例的一些可选实现方式中,上述正样本通过以下至少一个单元构造得到:截断单元(图中未示出),前馈单元(图中未示出),添加单元(图中未示出)。其中,上述截断单元,可以被配置成将输入的纠错样本进行截断后第二目标位置的语义表征。上述前馈单元,可以被配置成利用模型中丢弃层的随机性将输入的纠错样本进行额外一次前馈过程后,得到目标位置的语义表征;上述添加单元,可以被配置成在输入的纠错样本的词向量上加入对抗扰动值后第二目标位置的语义表征。

在本实施例的一些可选实现方式中,上述负样本通过以下至少一个单元构造得到:输入单元(图中未示出),随机获取单元(图中未示出),其中,上述输入单元,可以被配置成将包含第二目标位置真实标签的易混标签的样本输入模型后,得到易混标签位置的语义表征。上述随机获取单元,可以被配置成获取其他随机样本随机位置的语义表征。

本公开的实施例提供的拼写纠错模型生成装置,首先,纠错获取单元401获取包括至少一个纠错样本的纠错样本集;其次,待调训练单元402基于纠错样本集,对预训练的文本识别模型进行拼写纠错训练,得到待调纠错模型;再次,低频获取单元403从纠错样本集选取包括低频词汇的低频样本,得到低频样本集;最后,拼写训练单元404基于低频样本集,对待调纠错模型进行拼写纠错训练,得到拼写纠错模型。由此,采用纠错样本集中的低频词汇对待调纠错模型进行微调可以提升拼写纠错模型对低频词汇的理解能力,减少误纠错现象,提升了拼写纠错模型的泛化性以及拼写纠错模型在拼写纠错任务中的表现。

继续参见图5,作为对上述图3所示方法的实现,本申请提供了一种拼写纠错装置的一个实施例。该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例的拼写纠错装置500可以包括:文本获取单元501,被配置成获取待纠错文本数据。结果得到单元502,被配置成将待纠错文本数据输入如上述图4实施例所描述的装置生成的拼写纠错模型中,得到待纠错文本数据中错误目标以及错误目标的纠正结果。

可以理解的是,该装置500中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置500及其中包含的单元,在此不再赘述。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如拼写纠错模型生成方法、拼写纠错方法。例如,在一些实施例中,拼写纠错模型生成方法、拼写纠错方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的拼写纠错模型生成方法、拼写纠错方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行拼写纠错模型生成方法、拼写纠错方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程拼写纠错模型生成装置、拼写纠错装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号