首页> 中国专利> 一种蒙古语大词汇量连续语音识别的方法

一种蒙古语大词汇量连续语音识别的方法

摘要

本发明公开了一种蒙古语大词汇量连续语音识别的方法,由预处理阶段、准备阶段、训练阶段、解码阶段及合成转换阶段组成;预处理阶段是对文本训练语料的切分,并建立发音词典;准备阶段是对输入的语音信号提取声学特征;训练阶段是利用整词发音词典训练声学模型、利用切分后的训练文本训练语言模型;解码阶段是利用声学模型、语言模型和发音词典,将输入的声学特征识别成文本信息;合成转换阶段是利用规则纠正解码过程中的格后缀错误并将词干与格后缀合并,最终输出由蒙古文单词组成的句子。解决了现有技术中语音识别系统无法包含大规模蒙古语单词,由单词量过大导致语音识别的时间过长,语音识别系统中语言模型数据稀疏的问题。

著录项

  • 公开/公告号CN105957518A

    专利类型发明专利

  • 公开/公告日2016-09-21

    原文格式PDF

  • 申请/专利权人 内蒙古大学;

    申请/专利号CN201610440618.9

  • 发明设计人 飞龙;高光来;张红伟;

    申请日2016-06-16

  • 分类号G10L15/02(20060101);G10L15/18(20130101);

  • 代理机构北京国坤专利代理事务所(普通合伙);

  • 代理人郭伟红

  • 地址 010021 内蒙古自治区呼和浩特市大学西路235号

  • 入库时间 2023-06-19 00:31:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-31

    授权

    授权

  • 2016-10-19

    实质审查的生效 IPC(主分类):G10L15/02 申请日:20160616

    实质审查的生效

  • 2016-09-21

    公开

    公开

说明书

技术领域

本发明属于语音识别技术领域,涉及一种蒙古语大词汇量连续语音识别的方法。

背景技术

语音识别是实现人机语音通信的一项关键技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题是如何将接收到的声音信息转换为文本信息。根据不同的任务要求,语音识别可以分为:说话人识别、关键词检出和连续语音识别等几种类型。目前它已经成功应用到工业、家电、通信、汽车电子、医疗、家庭服务和消费电子产品等各个领域,并取得了非常好的效果。

在实际研究应用领域中识别的语言仍然以英语和中文等使用最为广泛的语种为主,而对一些使用范围较小或使用人数较少的语言,语音识别的研究仍处在初始阶段。蒙古语作为这样一种语言,研究它的语音识别技术不但对我国的少数民族地区的教育、交通、通讯、自动化办公具有重要的意义,而且给同样属于黏着语的他国语言语音识别的研究提供了新的思路和方法。

根据“蒙古语语音关键词检测技术的研究,飞龙,《中国博士学位论文全文数据库信息科技辑》,2013年11月”所述的搭建语音识别系统的方案分为三个阶段。如图1所示,第一阶段是准备阶段(或前端处理阶段),它主要的作用是对输入的语音信号提取声学特征。第二阶段是训练阶段,其主要作用是训练用来解码的声学模型和语言模型。第三阶段是解码阶段,也就是利用第二阶段训练所得到的声学模型和语言模型将输入的声学特征识别成文本信息。

声学特征特提取是对语音信号信息的一个处理压缩过程,这个过程中对语音信号进行分析处理,保留其与语音识别相关的信息,去除与其无关的冗余信息。常见的提取声学特征的方式有线性预测倒谱系数(LPCC),梅尔频率倒谱系数(MFCC)和Filter-Bank(Fbank)特征。但是由于这些特征的区分性和适应性并没有达到预计的效果,因此在训练过程中常使用线性判别分析(Linear Discriminant Analysis,LDA)和特征空间最大似然线性回归(featurespace Maximum Likelihood Linear Regression fMLLR)等方法来增强特征的区分性和适应性。

在训练过程中,常采用先训练GMM-HMM(高斯混合-马尔可夫)模型,之后训练DNN(深度神经网络)模型用来替代GMM(高斯混合)模型,形成基于深度神经网络的DNN-HMM(深度神经网络-马尔可夫)模型。对语言模型,则一般训练N-gram语言模型或者是基于RNN的语言模型。

针对声学特征,利用声学模型、语言模型和发音词典构建立成一个识别网络。该网络是一个有向无环图,通过Viterbi算法找到该网络的一条最佳路径(概率最大的路径),这条路径就是语音信号通过识别系统识别出的最佳文本信息。同时在使用过程中,通常给语言模型赋予不同的权重,并设置一个长词惩罚分数,用来找到语言模型与声学模型的最佳比重。

蒙古语中包含百万以上的蒙古语单词并且在不断引入新的词汇。在实际环境中我们无法将所有的蒙古语单词全部包含在发音词典中,收集到的文本语料也无法将所有蒙古语单词全部概括,对许多单词会出现缺失或少见的情况,这样会导致在训练语言模型的时候出现数据稀疏的问题。同时随着发音词典中单词数量的增加,会导致语音识别系统在识别过程中计算量增加,识别时间延长到用户无法忍受的程度。

发明内容

为实现上述目的,本发明提供一种蒙古语大词汇量连续语音识别的方法,解决了现有技术中语音识别系统无法包含大规模蒙古语单词,由单词量过大导致语音识别的时间过长,语音识别系统中语言模型数据稀疏的问题。

本发明所采用的技术方案是,一种蒙古语大词汇量连续语音识别的方法,由预处理阶段、准备阶段、训练阶段、解码阶段及合成转换阶段组成;

预处理阶段就是将语言模型训练文本中的单词切分成动词以外词干、格后缀和动词的形式,同时建立基于动词以外词干、格后缀和动词的发音词典;

准备阶段是对输入的语音信号提取声学特征;

训练阶段是利用基于蒙古文整词的发音词典建立声学模型,利用基于动词以外词干、格后缀和动词的发音词典建立语言模型;

解码阶段是利用声学模型、语言模型和基于动词以外词干、格后缀和动词的发音词典构建识别网络,将输入的声学特征识别成文本信息;

合成转换阶段是利用规则纠正解码过程中的格后缀错误并将词干与格后缀合并,最终输出由蒙古文单词组成的句子。

本发明的特征还在于,进一步的,预处理阶段,具体按照以下步骤进行:在训练模型前,将语言模型的训练集文本中的蒙古文单词转换成对应的拉丁状态;之后将转换后的单词切分成对应的动词以外词干、格后缀和动词形式,并将动词以外词干、格后缀和动词存放在基于动词以外词干、格后缀和动词的发音词典中。

进一步的,发音词典的使用方法,具体按照以下步骤进行:建立两种发音词典,一种发音词典存放蒙古文的整词以及对应的发音,用于声学模型的训练;另一种发音词典存放动词以外词干、格后缀和动词以及动词以外词干、格后缀和动词相应的发音,同时建立发音词典时将格后缀的所有可能的发音全部加入到发音词典中,用于声学模型的解码。

进一步的,合成转换阶段,具体按照以下步骤进行:

步骤1,利用规则纠正解码后文本中的格后缀错误;

步骤2,将词干与格词缀合并组合成相应拉丁形式的单词,同时利用条件随机场模型对识别后的句子进行标点符号预测,并将预测结果添加到识别的句子中;

步骤3,通过拉丁单词和蒙文单词的对照关系,将已合并的拉丁单词转换成实际的蒙古文单词,由蒙古文单词组成的句子就是实际的输出结果。

本发明的有益效果是,本发明具有以下优点:

(1)基于动词以外词干、格词缀和动词的蒙古语语音识别系统能够通过识别词干、格后缀和动词来实现对大多数蒙古文单词的识别。

(2)基于动词以外词干、格词缀和动词的蒙古语语音识别系统减少了发音词典中单词的个数,大大降低了系统识别的计算量,将识别时间控制在可接受范围之内。

(3)基于动词以外词干、格词缀和动词的蒙古语语音识别系统解决了系统中语言模型数据稀疏的问题,使得系统性能大大提高。

附图说明

图1是现有技术中语音识别系统框架图。

图2是本发明蒙古文拼接构词方式示意图。

图3是本发明语音识别系统框架图。

图4是本发明预处理阶段切分蒙古文句子的实例图。

图5是本发明两种发音词典部分内容对照表。

图6是本发明规则矫正部分结尾后缀的选择规则图。

图7是本发明合成转换阶段的实例图。

具体实施方式

蒙古语分割识别的原理:

蒙古语是典型的黏着语,主要通过词根与词缀拼接来构成蒙古语单词,如图2所示。从词根与词缀的拼接组合上,可以看出词根与构词词缀或构形后缀的拼接存在着实际的语义修改,而之后与结尾后缀的拼接则只有语法上的含义,并且位置始终存放在构成单词的最后。结尾后缀则不属于词干后缀,它包含静词的格后缀、领属(物主)后缀、式动词(时间、人称)后缀和副动词后缀。而对于形动词后缀,如果形动词充当主句的谓语时可以认为是结尾后缀,但是当形动词当作静词使用时(尤其后边接加格后缀时)可以认为是词干后缀。在一般情况下,后缀的次序是构词后缀在前,构形后缀在后,结尾后缀在最后。单词中构词后缀和构形后缀都可以有一个以上,但结尾后缀一般只有一个(蒙古文缀接反身领属后缀时可以有两个结尾后缀)。将词根、构词后缀和构形后缀拼接组成词干,让词干和结尾词缀作为蒙文语构词的基础,不同的词干和不同的结尾后缀可以组合成绝大多数的蒙古语单词。这样在语音识别系统中对单词的训练识别就可以转换成对词干和结尾后缀的训练识别。但是单纯的基于词干和结尾后缀的训练识别方式存在以下几点问题。首先,蒙古文动词进行词干和结尾后缀切分时会出现,元音的脱落和插入等现象,所以切分时很难保证切分的准确率。其次,动词词干和动词的结尾后缀的发音在动词词干后缀拼接不同的动词的结尾后缀时,动词词干和结尾后缀的发音都会出现元音和辅音音素的变换、插入和脱落等一系列问题,所以将所有动词词干和动词结尾后缀的发音加入到发音词典是不可能完成的任务,这对发音词典的建立提出了很大的挑战。然而,动词以外的其他词干缀接的结尾后缀是格后缀,格后缀的发音跟词干是相对独立的,缀接不同的格后缀,不会影响词干的发音,所以动词以外词干的发音比较稳定,我们只需要将格的不同发音加入发音词典即可。

因此,我们将动词单独分离出来,将动词与动词以外词干和格后缀共同作为识别的单位,所以在文中识别系统称为基于动词以外词干、格后缀和动词的语音识别系统。

基于词干和结尾后缀的蒙古语语音识别系统的搭建:

基于动词以外词干、格后缀和动词的蒙古语语音识别系统由预处理阶段、准备阶段、训练阶段、解码阶段及合成转换阶段组成。预处理阶段是对语音标记文本和语言模型训练文本的拉丁转换及转换后语言模型训练文本内蒙古文单词的切分,同时建立基于动词 以外词干、格后缀和动词的发音词典;准备阶段是对输入的语音信号提取声学特征;训练阶段是利用整词发音词典训练声学模型、利用切分后的训练文本训练语言模型;解码阶段是利用声学模型、语言模型和基于动词以外词干、格后缀和动词的发音词典,将输入的声学特征识别成文本信息。其中准备阶段、训练阶段和解码阶段与语言无关,本发明主要是对发音词典、新添加的预处理阶段和合成转换阶段进行调整。由于蒙古语的字母在单词的不同位置会有不同的变形,并且在字母中存在同形不同音的问题,这在搭建蒙古语语音识别系统时,不利于对系统的识别性能做研究,所以本申请在预处理阶段将发音词典、语音库中的文本标注和训练语言模型的文本训练集中的蒙文单词均转写成了拉丁形式,并且通过增加的合成转换过程来显示实际的蒙文句子,框架图如图3所示。

语言模型训练的预处理:

对于语言模型的训练集,需要将训练集中的单词切割成对应的动词以外词干、格后缀和动词形式。蒙古文格后缀在书面语中使用蒙古文窄无间断空格分写。蒙古文窄无间断空格的宽度为全角字符的三分之一,比普通空格稍微短一些,拉丁形式用“-”表示。如图4所示,在转换成拉丁形式后的训练语言模型的文本语料根据“-”字母方便的进行动词以外词干和格后缀的切分;切分后的训练文本用来对语言模型进行训练。

使用切割后的训练文本对语言模型进行训练,使得语言模型能够在解码过程中很好的与动词以外词干、格后缀和动词的发音词典进行匹配。这样在解码后得到的结果均是以动词以外词干、格后缀和动词形式存在。动词以外词干和格后缀可以组合大规模的蒙古文单词,并且动词以外词干、格后缀和常用动词总数在数万之内。这种方法解决了语言模型在训练过程中的数据稀疏问题和大规模蒙古文单词的识别问题。

发音词典的变化和使用:

不同于原有的蒙古语语音识别系统,本发明将使用两种发音词典,一种是传统的存放蒙古文整词和其对应发音的发音词典,另一种是存放动词以外词干、格后缀和动词以及其相应发音的发音词典,并且针对同一格后缀的多种发音情况,在发音词典中需一一表示出来。如图5所示,为两个发音词典部分内容对照表,可以看出整词发音词典存放的单词在基于动词以外词干、格后缀和动词的发音词典有两种表现形式,一种是不变形式,即动词和整词就是词干的其他词性,在两种发音词典中表示一致,图5中的“sagvjv”和“qasidahv”属于动词,“elqin”则是仅有词干,它们在两个发音词典中存放的形式不变;另一种则是由词干和格后缀组成的非动词的其他单词,这种单词在基于动词以外词干、 格后缀和动词的发音词典中是分为词干和格后缀分别存放的。图5中的“tarihi-ban”和“tere-yi”,它们由词干和格后缀组合而成,因此在基于动词以外词干、格后缀和动词的发音词典中被分为词干“tarihi”、“tere”和格后缀“-ban”、“-yi”来分别存放。我们在训练声学模型时,使用整词发音词典,这样声学模型训练可以更准确的表示训练语句对应的发音音素。否则,格后缀有多个发音,训练语句的发音默认选择其中的第一种发音,这样会出现很多训练语句的发音音素转换错误。在解码过程中则使用基于动词以外词干、格后缀和动词的发音词典。

使用基于动词以外词干、格后缀和动词的发音词典来进行解码不但对集内词有着与基于整词的发音词典同样的效果,而且利用基于动词以外词干、格后缀和动词的发音词典可以和切割后的语言模型更好的搭配,并使得利用动词以外词干、格后缀和动词的方式能够解决识别大规模的蒙古文单词的问题,同时这种方式使得发音词典中单词数量减少,降低了识别所需的时间,解决了现有蒙古语语音识别时间过长的问题。

合成转换阶段:

在实验过程中,我们发现在解码后的一些错误结果中,有着普遍的规律。这些规律,主要集中在蒙古语中格后缀的解码错误上。因此针对这些错误,可以采用蒙古语的一些规则,将其纠正。如图6所示,判断格后缀“-dv”、-du”、“-tv”、“-tu”的选取,在词干是阳性词的情况下,若词干不以元音或“n”、“N”、“l”,“m”结尾则选取“-tv”格后缀,若词干是以元音或“n”结尾则选择“-dv”格后缀。反之,在词干不是阳性词的情况下,若词干不是以元音或“n”、“N”、“l”,“m”结尾,则选择格后缀“-tu”,若词干是以元音或“n”、“N”、“l”,“m”结尾,则选择格后缀“-du”。

因此在合成转换阶段,首先需要将解码过程中的格后缀错误采用规则的方式进行纠正,之后将词干与格词缀合并成相应的拉丁单词,同时利用条件随机场对识别后的蒙古语句子进行断句并添加标点符号。最后通过拉丁单词和蒙古文单词的对照关系,将其转换成实际的蒙古文单词,由蒙古文单词组成的句子就是实际的输出结果。

合成转换阶段利用蒙古语规则将识别错误的格后缀纠正可以进一步提高语音识别的准确率。同时将识别后的结果能够以蒙古文的形式显示出来。这解决了一部分声学模型和语言模型无法完全辨别近似格后缀的问题,同时解决了蒙古文的显示问题。图7给出了实现合成转换阶段的一个完整实例,图中第一个句子是识别后的最初结果,第二个句子则是通过规则校正后的结果,句子中加粗的格后缀就是通过规则校正得到的正确格后 缀。第三个句子是合并后预测标点符号得到的结果;第四个句子是转换成蒙古文表现形式后的结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号