首页> 中国专利> 一种基于HMM的蒙古语语音合成及前端处理的方法

一种基于HMM的蒙古语语音合成及前端处理的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于HMM的蒙古语语音合成及前端处理的方法，方法为：首先要对音库中的语音数据进行分析；总结对上下文属性集和用于决策树聚类的问题集；进行HMM的训练，得到HMM的训练结果；得到对应的聚类状态模型，形成聚类状态模型序列；利用参数的动态特性来生成目标声学参数序列，并通过STRAIGHT合成器得到合成语音；前端处理的方法为：将输入的蒙文进行特殊字符进行处理；将蒙文转写到拉丁转写；对蒙文词性标注；采用G2P模型将拉丁转写到音素；采用规则将音节切分；合成韵律预测所需格式的数据；进行韵律预测；处理得到合成所需要文本格式。本发明可以自由地对合成语音的时长、基音周期参数进行调整，保持合成语音的自然流畅，降低了合成的成本。

著录项

公开/公告号CN103632663A

专利类型发明专利
公开/公告日2014-03-12

原文格式PDF
申请/专利权人飞龙;
展开▼

申请/专利号CN201310595871.8
发明设计人飞龙;高光来;赵建东;张学良;
展开▼

申请日2013-11-25
分类号G10L13/08;G10L15/14;
代理机构
代理人
地址 010021 内蒙古自治区呼和浩特市大学西路235号
入库时间 2024-02-19 23:15:09

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-17

授权

授权
2016-07-06

专利申请权的转移 IPC(主分类):G10L13/08 登记生效日:20160615 变更前: 变更后: 申请日:20131125

专利申请权、专利权的转移
2014-06-11

实质审查的生效 IPC(主分类):G10L13/08 申请日:20131125

实质审查的生效
2014-03-12

公开

公开

说明书

技术领域

本发明属于语音合成技术领域，尤其涉及一种基于HMM的蒙古语语音合成及前端处理的方法。

背景技术

语音合成是实现人机语音通信的一项关键技术，它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，就是让机器像人一样开口说话。

当今主流的语音合成方法是基于HMM的语音合成技术，与基于大语料库的波形拼接技术相比，它具有可以在短时间内，基本不需要人工干预的情况下自动构建出一个新系统，而且整个训练过程基本上不依赖于发音人、发音风格以及情感等因素的优点，在汉语、英语、日语等方面已经有了许多可以应用的语音合成系统。在蒙古语的语音合成方面，前人做了基于大语料库的波形拼接方法方面的研究。这些研究工作对于蒙古语语音合成的发展具有重要意义，但是基于HMM的蒙古语语音合成研究还处于初级阶段。研究基于HMM的蒙古语音合成技术和构建基于HMM的蒙古语的语音合成系统，对于少数民族地区的教育、交通、通讯、自动化办公具有重要的意义。

现有技术一，基于词干词缀的蒙古语语音合成方法：

首先由文本分析模块对输入的文本进行格式化处理，记录要发音的单词及标点符号，滤除不发音的字符；然后对每一个单词，首先在词干表中进行查找，如果找到该单词原形，则提取对应的语音数据；如果在词干表中找不到，则需要进行词干词缀的切分，以便找到该词对应的词干词缀，同时进行该单词的词干词缀所对应的语音数据的提取。接着记录韵律特征，并利PSOLA算法进行韵律修改。最后根据拼接规则对选取的语音音段进行拼接，产生最终的合成语音；

技术方案文本分析模块需要处理文本格式化和词干词缀的切分等问题。在系统中，当遇到用英文表示的符号或英文单词时只进行简单的处理，就是依次读出每个英文字母，不进行进一步的考虑.对于文本分析中得到的每个词，首先在词干表中进行查找，如果找到该词，则提取语音数据，如果找不到则进行词干词缀的切分。蒙古语中的词可能只进行一次切分就能找到对应的词干词缀，有时可能需要对切分后的词干进行二次切分，或进行多次切分，所以提出了多级词干词缀切分器的概念；

通过在文本分析模块记录每个单词的韵律特征来表示词组、句子的韵律特征。通过记录单词的时长变化、基频变化和振幅的变化来表达单词的重音，词组中每个词的时长变化、重音变化，句子语气的变化(包括重音、时长和基频)。文本分析后，得出每个单词的韵律变化特征，系统中通过TDPSOLA和 FD-PSOLA来进行修改，最终得到修改后的语音音段；

语音合成单元的拼接最常用的有三种算法：双音子拼接、硬拼接、软拼接。硬拼接的方法是一种简单的将两个语音放在一起(简单拼接)的方法。软拼接，拼接的位置同样位于两个音段的边界处。但是，通过引入自然语言中的过渡特性来平滑语音拼接处的过渡情况。两个语音基元之间可能需要某种重叠。在语音拼接合成中，如果只使用硬拼接，合成后的语音听起来时快时慢，抖动很大，缺乏连贯性。所以在本技术方案中，进行拼接时采用了硬拼接和软拼接结合的方法。系统中采用首尾交叠的软拼接方法进行过渡。所谓首尾交叠的软拼接方法为：对前一语音单元的尾部和后一语音单元的首部进行一定长度的波形叠加。当然前一语音音段和后一语音音段叠加部分长度的选取至关重要。通过总结出叠加的长度等于待叠加两个语音单元最小长度的八分之一左右比较合适。这样既可以保证合成后词和词之间的语音连贯、流畅，又可使读音清晰，提高了语音合成的自然度。

现有技术的缺点：基于大数据库的波形拼接一般需要使用一个很大的音库，这就阻碍了它在移动设备或嵌入式设备中的应用；其次，波形拼接的方法合成的声音较为单一，如果需要改变合成声音的性别、年龄等特征，则需要重新建立一个音库，所需的投入很大；而且，虽然有很多韵律调整的拼接算法，但对基音周期和时长调整的范围还是有限，如果调整比较大，合成语音的自然度会明显下降。

发明内容

本发明实施例的目的在于提供一种基于HMM的蒙古语语音合成及前端处理的方法，旨在解决现有的蒙古语语音合成方法存在的合成成本大、基音周期和时长调整的范围有限的问题。

本发明实施例是这样实现的，一种基于HMM的蒙古语语音合成的方法，该基于HMM的蒙古语语音合成的方法包括以下步骤：

步骤一，首先要对音库中的语音数据进行分析，提取出相应的语音参数；

步骤二，根据提取出的语音参数，HMM的观测向量可以分为谱和基频两个部分，总结对上下文属性集和用于决策树聚类的问题集；

步骤三，依照模型初始化、声韵母HMM训练、扩展上下文相关模型训练、聚类后的模型训练以及时长模型训练进行HMM的训练，最后得到包括谱、基频和时长参数的聚类HMM以及各自的决策树进行HMM的训练结果；

步骤四，输入文本经过文本分析后转换为上下文相关的单元序列，然后利用训练得到的决策树对每一个单元进行决策，得到对应的聚类状态模型，形成聚类状态模型序列；

步骤五，根据参数生成算法，利用参数的动态特性来生成目标声学参数序列，并通过STRAIGHT合成器得到最终的合成语音。

进一步，该基于HMM的蒙古语语音合成的方法分为训练阶段和合成阶段。

进一步，在步骤二中，谱参数部分采用连续概率分布HMM进行建模，基频部分采用多空间概率分布HMM。

本发明实施例的另一目的在于提供一种基于HMM的蒙古语语音合成前端处理的方法，该基于HMM的蒙古语语音合成前端处理的方法包括以下步骤：

第一步，将输入的蒙文进行特殊字符进行处理；

第二步，按规则将蒙文转写到拉丁转写；

第三步，对蒙文词性标注采用基于历史模型的方法进行词性自动标注；

第四步，采用G2P模型将拉丁转写到音素；

第五步，采用规则将音节切分，并统计每个词中包含的音节个数；

第六步，将得到的词性和音节信息组合成韵律预测所需格式的数据；

第七步，用基于条件随机场的方法进行韵律预测；

第八步，处理得到合成所需要文本格式。

进一步，在步骤一中，蒙文进行特殊字符包括数字、书名号字符。

本发明提供的基于HMM的蒙古语语音合成及前端处理的方法，通过基于 HMM的语音合成系统的语料库的建立，与蒙古语相关的上下文属性选择和用于聚类的问题集的确定，及其语音合成系统前端的处理。本发明在前端处理过程中采用蒙文特殊符号处理，蒙文到拉丁转写，拉丁转写到音素，蒙古语音节的切分，蒙古语词性的自动标注和蒙古语韵律的预测。本发明可以自由地对合成语音的时长、基音周期等参数进行调整，同时保持合成语音的自然流畅；通过MLLR、MAP等算法对参数进行转换，从而能够合成出不同音色的声音，不需要另外制作音库，降低了合成的成本。

附图说明

图1是本发明实施例提供的基于HMM的蒙古语语音合成的方法流程图；

图2是本发明实施例提供的基于HMM的蒙古语语音合成前端处理的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例的基于HMM的蒙古语语音合成的方法包括以下步骤：

S101：首先要对音库中的语音数据进行分析，提取出相应的语音参数；

S102：根据提取出的语音参数，HMM的观测向量可以分为谱和基频两个部分，总结对上下文属性集和用于决策树聚类的问题集；

S103：依照模型初始化、声韵母HMM训练、扩展上下文相关模型训练、聚类后的模型训练以及时长模型训练进行HMM的训练，最后得到包括谱、基频和时长参数的聚类HMM以及各自的决策树进行HMM的训练结果；

S104：输入文本经过文本分析后转换为上下文相关的单元序列，然后利用训练得到的决策树对每一个单元进行决策，得到对应的聚类状态模型，形成聚类状态模型序列；

S105：根据参数生成算法，利用参数的动态特性来生成目标声学参数序列，并通过STRAIGHT合成器得到最终的合成语音。

本发明实施例的基于HMM的蒙古语语音合成的方法具体步骤为：

分为两个阶段：训练阶段和合成阶段；

训练阶段主要包括预处理和HMM训练，在预处理阶段，首先要对音库中的语音数据进行分析，提取出相应的语音参数，根据提取出的语音参数，HMM 的观测向量可以分为谱和基频两个部分，其中谱参数部分采用连续概率分布 HMM进行建模，而基频部分采用多空间概率分布HMM，除此以外，模型训练前还有一个重要的工作就是对上下文属性集和用于决策树聚类的问题集进行设计，即根据先验知识来选择一些与蒙古语相关并对声学参数(谱、基频和时长) 有一定影响的上下文属性并设计相应的问题集以用于上下文相关模型聚类；

预处理完成后就是整个HMM训练，其训练步骤依次为模型初始化、声韵母HMM训练、扩展上下文相关模型训练、聚类后的模型训练以及时长模型训练，最后得到的训练结果包括谱、基频和时长参数的聚类HMM以及各自的决策树；

在合成阶段，首先输入文本经过文本分析后转换为上下文相关的单元序列，然后利用训练得到的决策树对每一个单元进行决策，得到对应的聚类状态模型，并形成聚类状态模型序列，最后，根据参数生成算法，利用参数的动态特性来生成目标声学参数序列，并通过STRAIGHT合成器得到最终的合成语音。

如图2所示，本发明实施例的基于HMM的蒙古语语音合成前端处理的方法包括以下步骤：

S201：将输入的蒙文进行特殊字符进行处理；

S202：按规则将蒙文转写到拉丁转写；

S203：对蒙文词性标注采用基于历史模型的方法进行词性自动标注；

S204：采用G2P模型将拉丁转写到音素；

S205：采用规则将音节切分，并统计每个词中包含的音节个数；

S206：将得到的词性和音节信息组合成韵律预测所需格式的数据；

S207：用基于条件随机场的方法进行韵律预测；

S208：处理得到合成所需要文本格式。

本发明的基于HMM的蒙古语语音合成前端处理的方法具体步骤为：

一、将输入的蒙文进行特殊字符(包括数字、书名号等字符)进行处理；

二：按规则将蒙文转写到拉丁转写；

三：对蒙文词性标注采用基于历史模型的方法进行词性自动标注；

四：采用G2P模型将拉丁转写到音素；

五：采用规则将音节切分，并统计每个词中包含的音节个数；

六：将三、五得到的词性和音节信息组合成韵律预测所需格式的数据；

七：用基于条件随机场的方法进行韵律预测；

八：处理得到合成所需要文本格式。

本发明基于HMM的蒙古语语音合成方法可以自由地对合成语音的时长、基音周期等参数进行调整，同时保持合成语音的自然流畅；可以通过MLLR、 MAP等算法对参数进行转换，从而能够合成出不同音色的声音，与波形拼接不同，这种转换不需要另外制作音库，只需少量训练数据进行训练即可。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于HMM的蒙古语语音合成前端处理的方法 [P] . 中国专利： CN103632663B . 2016.08.17
2. 一种基于HMM的蒙古语语音合成及前端处理的方法 [P] . 中国专利： CN103632663A . 2014-03-12
3. FRONT END LEARNING METHOD FOR VOICE SYNTHESIS, COMPUTER PROGRAM, VOICE SYNTHESIS SYSTEM, AND FRONT END PROCESSING METHOD FOR VOICE SYNTHESIS [P] . 日本专利： JP2019032529A . 2019-02-28

机译：语音合成的前端学习方法，计算机程序，语音合成系统以及语音合成的前端处理方法
4. Method, apparatus and computer program product for providing real glottal pulses in HMM-based text-to-speech synthesis [P] . 美国专利： US8386256B2 . 2013-02-26

机译：在基于HMM的文本到语音合成中提供真实声门脉冲的方法，装置和计算机程序产品
5. Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis [P] . 日本专利： JP5574344B2 . 2014-08-20

机译：基于一种模型的语音识别合成的语音合成装置，语音合成方法和语音合成程序