首页> 中国专利> 语音库生成设备及其方法、语音合成系统及其方法

语音库生成设备及其方法、语音合成系统及其方法

摘要

本发明提供一种语音库生成设备及其方法,所述语音库生成设备包括:语音提取装置,用于从收集的数据中提取预定发音人的语音数据;语音识别装置,用于将所述预定发音人的语音数据识别为文本;文本标注装置,用于对所述文本进行标注。以及本发明提供一种语音合成系统及其方法。由于本发明通过自动收集数据并自动处理,生成语音库,节约了大量的人力成本。此外,缩短语音合成系统的构建周期以及方便对其进行更新,并实现个性化定制。

著录项

  • 公开/公告号CN102779508A

    专利类型发明专利

  • 公开/公告日2012-11-14

    原文格式PDF

  • 申请/专利号CN201210091240.8

  • 申请日2012-03-31

  • 分类号G10L13/00(20060101);G06F17/21(20060101);G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构11396 北京思睿峰知识产权代理有限公司;

  • 代理人罗松梅

  • 地址 230088 安徽省合肥市高新开发区望江西路666号科大讯飞大厦

  • 入库时间 2023-12-18 07:16:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-11-09

    授权

    授权

  • 2016-10-05

    著录事项变更 IPC(主分类):G10L13/00 变更前: 变更后: 申请日:20120331

    著录事项变更

  • 2014-07-16

    实质审查的生效 IPC(主分类):G10L13/00 申请日:20120331

    实质审查的生效

  • 2012-11-14

    公开

    公开

说明书

技术领域

本发明涉及语音合成技术领域,更具体地,涉及一种语音库生成设 备及其方法,以及一种语音合成系统及其方法,实现了自动收集预定的 语音数据,以及提供特定发音人的合成的语音。

背景技术

实现人机之间人性化、智能化的有效交互,构建高效自然的人机交 流环境,已经成为当前信息技术应用和发展的迫切需求。作为语音技术 中十分实用的一项重要技术,语音合成技术,或称文语转换技术TTS (Text-To-Speech),将文字信息转化为自然的语音信号,实现任意文本 的实时转换。它赋予计算机像人一样自如说话的能力,改变了传统通过 录音回放实现机器开口说话的繁琐操作,并节省了系统存储空间,在信 息交互日益增多的当今特别是在信息内容需要经常变动的动态查询应用 方法中发挥了越来越重要的作用。

计算机技术和数字信号处理技术的发展促成了语音合成技术的发展 和实际应用。基于单元挑选的波形拼接语音合成方法由于计算机运算能 力和存储容量的提高运用了更大规模的音库及引入更精细的单元挑选策 略,在很大幅度上提高了合成语音的音质,音色和自然度。而另一主流 语音合成技术,基于隐马尔可夫模型(hidden Markov model,HMM)的参 数语音合成方法,也因其更好的鲁棒性能和推广性获得很多研究人员的 推崇。作为语音合成系统重要组成部分的音库,其质量如数据规模,精 细度,自然度以及准确度等对语音合成系统性能有着重要影响。在基于 单元挑选的波形拼接语音合成方法中,系统根据输入文本信息直接从标 注好的语音库中挑选合适的单元(音节、音素、状态、帧等)并拼接得 到连续语音段。显然当语料库中样本单元数量过少或语境环境单一时, 很可能出现挑选不到合适单元的情况,导致合成效果急剧下降;而在基 于隐马尔可夫模型(hidden Markov model,HMM)的参数语音合成方法中, 系统首先对语音信号进行参数化分解并建立各参数对应的统计模型,随 后在合成时利用训练得到的统计模型预测待合成文本的语音参数,并恢 复最终的合成语音。当标注音库规模过小或者没有正确标注时,其模型 精确度将得不到有效保障,进而造成合成效果的明显下降。

传统合成系统音库的构建需要经过设计、录音、标注等三个阶段。 首先在设计阶段,研究人员在收集大量的语料文本后通过考察音素覆盖 率人工筛检得到合适的录音语料。随后在录音阶段寻找嗓音良好、发音 标准、具有一定播音功底的发音人,在专业录音棚的录制环境下完成所 述录音语料的音库录制。最后在标注阶段由专业标注人员对录制的音库 语音数据完成文本修订、音段切分、韵律标注等处理。可以看出,传统 语音合成系统中音库构建主要依赖人工操作,需要安排专业录音人员选 择对韵律和音段进行手工标注,其构建所需工作量较大,制作周期较长, 因而音库规模往往受限。另一方面由于音库的录制标注工作对技术专业 要求较高,语音合成系统往往只能提供有限特定的若干发音人音色,难 以响应多样化的应用需求。总之,构建传统音库需要大量的人力和工作 量,且难以适应网络时代定制化和个性化需求的问题。

发明内容

为了解决上述问题,提出了本发明。本发明的目的是提出一种语音 库生成设备及语音库生成方法,以及一种语音合成系统和语音合成方法。 根据本发明的语音库生成设备可以通过自动收集特定发音人的语音数据 生成语音库。由于采用自动收集的方式而无需人工收集特定发音人的语 音,语音库规模较大,从而语音合成系统通过采用所述语音库可以提供 适用于特定发音人的语音合成,且语音合成系统性能得到了提高。

根据本发明第一方面,提供了一种语音库生成设备,包括:语音提 取装置,用于从收集的数据中提取预定发音人的语音数据;语音识别装 置,用于将所述预定发音人的语音数据识别为文本;文本标注装置,用 于对所述文本进行标注。

根据本发明第二方面,提供了一种语音库生成方法,包括:语音提 取步骤,从收集的数据中提取预定发音人的语音数据;语音识别步骤, 将所述预定发音人的语音数据识别为文本;文本标注步骤,对所述文本 进行标注。

根据本发明第三方面,提供了一种语音合成系统,包括:分词装置, 用于对输入的文本进行分词;查找装置,用于根据分词结果查找预定发 音人语音库中与文本对应的至少一个预定发音人的语音片段;选择装置, 用于从查找的预定发音人的语音片段中选择最优的语音片段;以及合成 装置,用于将挑选的语音片段拼接以合成连续的预定发音人的语音序列。

根据本发明第四方面,提供了一种语音合成方法,包括:分词步骤, 对输入的文本进行分词;查找步骤,根据分词结果查找语音库中与文本 对应的至少一个预定发音人的语音片段;选择步骤,从查找的预定发音 人的语音片段中选择最优的语音片段;以及合成步骤,将挑选的语音片 段拼接以合成连续的预定发音人的语音序列。

由于本发明通过从网络世界中海量非专业级语音数据中收集有效数 据并通过自动处理,生成了语音库,节约了大量的人力成本,缩短语音 合成系统的构建周期以及方便对其更新。

附图说明

从下面结合附图的详细描述中,本发明的上述特征和优点将更明显,

其中:

图1是根据本发明的语音库生成设备的示意图;

图2是预处理装置的一个示例;

图3是根据本发明的语音库生成设备生成语音库的流程图;

图4是数据信号预处理方法的流程图;

图5是根据本发明的语音提取方法的流程图;

图6是根据本发明的语音识别方法的流程图;

图7是根据本发明语音合成系统的示意图;

图8示出了根据本发明的语音合成方法的流程图。

具体实施方式

下面,参考附图详细说明本发明的优选实施方式。在附图中,虽然 示于不同的附图中,但相同的附图标记用于表示相同的或相似的组件。 为了清楚和简明,包含在这里的已知的功能和结构的详细描述将被省略, 否则它们将使本发明的主题不清楚。

图1示出了根据本发明的语音库生成设备的方框图。语音库生成设备 包括用于对原始收集的数据进行预处理的预处理装置10;用于从预处理 的语音数据中提取特定发音人的语音数据的语音提取装置20;用于识别 特定发音人的语音数据对应文本的语音识别装置30;对获取的文本分析 获得标注信息以生成语音库的文本标注装置40和用于存储生成的语音库 的存储装置(未示出)。其中,生成的语音库可以包括特定发音人的语音 波形数据和其相关的标注信息。语音提取装置20包括:用于提取输入语 音的语音声纹特征序列的声纹特征提取单元201;用于计算提取的语音声 纹特征序列与背景模型的第一似然度的第一计算单元202;用于计算提取 的语音声纹特征序列与特定发音人的说话人声纹模型的第二似然度的第 二计算单元203以及比较第二似然度与第一似然度之比并将比值大于预 定阈值的语音数据确定为特定发音人的语音数据的第一判别单元204。语 音识别装置30包括:用于从特定发音人的语音数据中提取语音声学参数 并解码为文本的识别单元301;用于计算解码的置信度的置信度计算单元 302和将置信度大于预定阈值的数据判断为有效文本的第二判别单元 303。

图2示出了预处理装置10的一个示例。由于输入语音库生成设备的 语音数据是从各种信息渠道收集,其质量参差不齐,因此需要对输入的 语音数据进行预处理以获取有效的语音数据。预处理装置10包括:规整 单元101;信道均衡单元102;分句处理单元103和噪音去除单元104。 预处理装置10可以采用现有技术实现。此外,预处理装置10可以包括 音频视频分离单元(未示出),用于对收集到的视频文件进行音频视频分 离转录其中的音轨数据以获得语音数据。

下面将参考图3-图6具体描述本发明的语音库生成设备如何生成语音 库的处理流程。

图3示出了根据本发明的语音库生成设备生成语音库的示意处理流 程。输入语音库生成设备的语音数据可以是从各种信息渠道海量非专业 级语音数据中收集的数据,例如,从丰富的网络资源或电视、广播等渠 道收集的各种音频、视频数据,如影视剧、有声小说、电话留言。

由于原始收集的音视频信号来源复杂,质量也参差不齐,在步骤S60, 预处理装置10对收集的音视频信号执行预处理,以提取有效的语音数据。

在步骤S61,语音提取装置20从收集的多人的语音数据中提取特定发 音人的语音数据。通常为了提高合成语音的可懂度及自然度,构建语音 库时需要考虑对某些特定发音人的合成语音提供支持,本发明可以采用 声纹识别等技术对语音的发音人身份进行判断,获得所述特定发音人的 语音数据。

在步骤S62,语音识别装置30将特定发音人的语音数据识别为文 本。特别的,为了确保语音识别(转写)的准确性,本发明提出一种基 于置信度判别的算法,在对语音信号通过语音识别等技术进行识别后进 一步计算该识别的置信度。只有当该置信度高于预定阈值时该语音信号 才被判定为有效语音数据。

在步骤S63,文本标注装置40对有效语音数据通过文本分析,获取 上下文韵律等标注信息作为文本的标注。

由于输入语音库生成设备的语音数据是从各种信息渠道收集,其质量 参差不齐,因此需要对输入的语音数据进行预处理以提高采集数据的质 量。图4具体示出了数据信号预处理方法的流程图。

首先在步骤S70,规整单元101需要对收集的信号进行格式和能量的 规整。具体的,对收集到的各种语音数据做格式和能量的规整,比如转 成16k,16bit wav格式等。可选地,音频视频分离单元可以收集视频 文件中的语音数据,对收集到的视频文件进行音视频分离转录其中的音 轨数据以获得语音数据。

之后,在步骤S71,信道均衡单元102对规整的数据执行信道均衡等 处理以减少噪音对语音信号的干扰,提高语音数据质量。原始收集的数 据由于来源信道不同或在不同环境下录制,语音听感差异往往较大。对 此本发明采用信道均衡技术,将任意批次的数据信道均衡处理到预先指 定的某个批次数据的听感感觉上。

在步骤S72,分句处理单元103利用端点检测技术对收集到的语音 数据分句处理。可以通过对语音信号的短时能量和短时过零率等进行分 析,将连续的语音信号分割成独立的语音片断和非语音片断,并标定每 一段人声语音的起始位置。

在步骤S73,噪音去除单元104删除收集数据中无意义的噪音段。 根据步骤S72的端点检测结果,对界定为非纯净人声的声音标定为噪声 或静音段直接丢弃。

在对收集的数据预处理之后,语音提取装置提取语音数据。图5示 出了根据本发明的语音提取装置提取语音数据的方法的流程图。为了提 高合成语音的可懂度及自然度,语音库可以支持特定发音人的合成语音。 例如,特定发音人可以是预定的,也可以由用户指定。预定的特定发音 人可以是名人,卡通人物等公众人物,用户指定的特定发音人可以是用 户喜爱的特定人物等。

语音提取装置20采用了声纹识别等技术对语音发音人的身份进行 判断,通过分别计算作为收集的语音数据所对应的语音段的声纹特征序 列和特定发音人声纹模型的匹配得分以及该声纹特征序列和背景模型的 匹配得分的比值,确认其和预定阈值的大小关系,以确定收集的语音数 据的有效性。

具体地,在步骤S80,声纹特征提取单元201从预处理的语音数据 中提取语音声纹特征序列。该声纹特征序列包含一组声纹特征,可以有 效地区分不同的说话人,且对同一说话人的变化保持相对稳定。所述声 纹特征主要有:谱包络参数语音特征,基音轮廓、共振峰频率带宽特征, 线性预测系数,倒谱系数等。考虑到上述声纹特征的可量化性、训练样 本的数量和系统性能的评价等问题,可以选用Mel频率倒谱系数MFCC (Mel Frequency Cepstrum Coefficient,)特征,对窗长25ms帧移10ms 的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分,共计39 维。从而将每句语音信号量化为一个39维声纹特征矢量序列X。

在步骤S81,第一计算单元202计算所述声纹特征序列与背景模型 (UBM)(Universal Background Model)的似然度。具体的,本发明设定 背景模型为GMM(Guassian Mixture Model)模型并计算帧数为T的声纹 特征矢量序列X相应于背景模型的似然度为:

p(X|UBM)=1TΣt=1TΣm=1McmN(Xt;μm,Σm)---(1)

其中,cm是第m个高斯的加权系数,满足μm以及∑m分别 是第m个高斯的均值和方差;M是系统预先设置的混合高斯模型的高斯 数,例如,可以选择1024,2048等数值。其中N(.)满足正态分布,用 于计算t时刻的声纹特征矢量Xt在单高斯分量上的似然度:

N(Xt;μm,Σm)=1(2π)n|Σm|e-12(Xt-μm)Σm-1(Xt-μm)---(2)

在步骤S82,第二计算单元203计算所述声纹特征序列与特定发音 人的说话人声纹模型的似然度。特定发音人的说话人模型预先通过收集 若干句特定发音人的语音片段训练得到,例如,30秒(s)的语音片段。 同样的根据公式(1)计算声纹特征序列和特定发音人的说话人模型的似 然度:

p(X|U)=p(X|UBM)=1TΣt=1TΣm=1McmN(Xt;μm,Σm)

这里的说话人模型U为用户声纹模型,具有和背景模型不同的模型 参数,包括高斯的加权系数cm,μm以及∑m等。

需要说明的是,背景模型和用户声纹模型还可以采用其他统计模型, 如HMM(Hidden Markov Model)模型,NN(Neural Network)等,在此不 作赘述。

在步骤S83,第一判别单元204根据所述声纹特征序列与特定发音 人的说话人模型的似然度、以及所述声纹特征序列与背景模型的似然度, 计算似然比;

似然比为:p=p(X|U)p(X|UBM)---(3)

其中,p(X|U)为所述声纹特征序列与特定发音人的说话人模型的 似然度,p(X|UBM)为所述声纹特征序列与背景模型的似然度。

在步骤S84:第一判别单元204判断计算的似然比是否大于预定阈 值,若是,则该语音数据为特定发音人的语音数据,否则为非特定发音 人的语音数据。一般来说,域值设置越大则对所述语音质量要求越高, 要求该语音信号的发音特点和预设特定发音人声学模型越类似。其中, 可选地,本案在似然度Log域计算的设置下,可以相应设置该阈值为一 大于等于0.5的数值。在生成语音库时,可以根据需求在所述阈值中进 行选择,以满足不同用户对合成效果的要求。

此外,本发明还可利用得到的特定发音人高置信度数据重新训练特 定发音人模型,提升声纹识别的整体精度,从而将语音生成库应用在语 音合成系统上以改善语音合成系统的效果。

所述的训练特定发音人模型的方法为:以原特定发音人声纹模型为 种子模型,利用收集的预处理的语音声纹特征数据采用自适应算法更新 模型参数。自适应算法例如采用最大似然回归MLLR(Maximum likelihood  linear regression),最大后验概率回归MAPLR(Maximum a posterior  linear regression)。

其中,新高斯均值计算为样本统计量和原始高斯均值的加权平 均,即:

μm^=Σt=1Tγm(xt)xt+τμmΣt=1Tγm(xt)+τ---(4)

其中,xt表示第t帧声纹特征,γm(xt)表示第t帧声纹特征落于第m个 高斯的概率,τ是遗忘因子,用于平衡历史均值以及样本对新均值的更 新力度。一般来说,τ值越大,则新均值主要受原始均值制约。而若τ值 较小,则新均值主要由样本统计量决定,更多的体现了新样本分布的特 点。

在获取了特定发音人的语音数据之后,为了提高文本转写的正确 率,本发明采用基于置信度判别的识别算法,只有当置信度高于预定阈 值时才保存转写的文本。

图6是根据本发明的语音识别方法的流程图。参考图6,在S90,识 别单元301从特定发音人的语音数据提取语音声学参数,将所述参数通 过声学模型和语言模型的解码,输出最终识别文本转写。所述语音声学 参数可以为语音识别领域常用的MFCC特征,以及可以通过采用各种传 统经典算法实现语音识别,如Token passing算法,基于加权有限状 态转换器WFST(Weighted Finite-State Transducers)的解码等。

之后,在步骤S91:置信度计算单元302计算解码的置信度。具 体地,利用识别结果及竞争结果计算后验概率作为置信度。其中,识 别结果是指在LVCSR解码中具有最大相似度的路径,即最优字词集 合,竞争结果是指LVCSR解码中具有次优相似度的多条路径,即次优 字词集合,也就是得分和最优结果接近的混淆解码结果。依据贝叶斯 公式,语音X对应识别文本为W时的后验概率P(W|X):

P(W|X)=P(W)P(X|W)ΣwiΩP(Wi)P(X|Wi)

其中先验概率P(W)和识别文本对应的声学似然度P(X|W)分别可 以从语音模型和声学模型得到。Ω为辅助解码空间,包含有全部的解码 路径,Wi代表Ω中某条具体的竞争路径。

在步骤S92,第二判别单元303判断所述置信度是否大于预定阈值, 如果是,则保存转写的文本;否则丢弃转写的文本及其对应的语音数据。 其中该置信度阈值可以根据需要设置。

由于本发明采用了基于置信度判别的算法,在对语音信号通过语音 识别技术进行转写后进一步计算该识别的置信度以选择文本内容,从而 提高了文本转写的准确性。

在获得了特定发音人的识别文本之后,文本标注装置40对所述语音 识别文本通过前端韵律分析等技术获取文本的发音序列(中文声韵母, 英文音素),韵律分词、词性,重音,句末调型等信息作为发音序列的 上下文标注。例如,语音生成系统利用字词表得到汉字文本的拼音序列 或英文单词的音素序列。随后通过分析文本的韵律层次获取语句的韵律 分词结果。比如在基于最长匹配原则下利用语言模型对“南京市长江大 桥”进行正向和逆向两遍解码,得到概率最高的韵律分词结果“南京市” “长江大桥”。最后考虑结合语言模型的频度和词性等信息,对中文的 多音字和英文的重读、句末升降调类型做出判定。

虽然图1示出的根据本发明的语音库生成设备包括:预处理装置10; 语音提取装置20;语音识别装置30、文本标注装置40和存储装置。但是, 很显然,根据本发明的语音库生成设备可以包括:语音提取装置20;语 音识别装置30和文本标注装置40。

由于语音库生成设备通过自动操作流程对原始收集数据分类、识别, 生成语音库,一方面,本发明可以从海量的原始数据中自动收集所需数 据;另一方面,本发明可以提供丰富的特定发音人的语音。

可以将本发明的语音库应用到语音合成系统,由于该语音库提供特 定发音人的语音,语音合成系统可以实现将用户输入的文本合成为特定 发音人的语音,且该特定发音人的语音可以由用户定制。从而,通过以 自动收集海量数据并提取特定发音人的语音节省了大量的人力成本,缩 短语音合成系统的构建过程,也提高了用户与语音合成系统的交互便捷 性。

图7示出了应用本发明语音库生成设备生成的语音库的语音合成系 统的方框图。语音合成系统2包括对输入的文本进行分词的分词装置50; 根据分词结果查找语音库54中与文本对应的至少一个特定发音人的语音 片段的查找装置51;从查找的特定发音人的语音片段中选择最优的语音 片段的选择装置52;以及将挑选的语音片段拼接以合成连续的特定发音 人的语音序列的合成装置53。语音合成系统还包括通信装置以及存储装 置(未示出)。可选地,语音合成系统包括第一更新装置以及第二更新装 置。在语音生成设备收集到的语音数据累积量初次满足语音合成系统构 建的预定条件时,例如,语音数据语料内容覆盖率满足基本的语音合成 系统需求,包括所有基本音节单元时,语音生成设备生成语音库,语音 合成系统基于该语音库实现语音合成系统的构建。在语音合成系统采用 的语音库满足该系统预定更新条件时,例如,在更新时间满足预定时间 或者更新数据量达到一定规模时,第一更新装置对语音库自动更新,第 二更新装置利用更新的语音库通过各种自适应算法实现对语音合成系统 的更新,从而提高了系统的性能并节省了人力。例如,通过持续的数据 收集,使特定发音人语音数据规模扩大30%以上时第二更新装置更新语音 合成系统,通过新增数据的自适应方式更新合成系统的统计预测模型。

图8示出了根据本发明语音合成方法的流程图。首先,在步骤S501, 语音合成系统接收用户输入的文本。在步骤S502,分词装置50对文本进 行分词,将文本切分到词的级别或者单字。在步骤S503,查找装置51根 据分词结果查找语音库中与文本对应的至少一个特定发音人的语音片 段。在步骤S504,选择装置52从查找的语音片段中选择最优的特定发音 人的语音片段。可以根据语音合成系统的预定规则来挑选最优化的特定 发音人的语音片段。在步骤S505,合成装置53将挑选的语音片段拼接以 合成连续的特定发音人的语音序列。在步骤S506,语音合成系统将合成 的语音序列输出为特定发音人的语音。

上面的描述仅用于实现本发明的实施方式,本领域的技术人员应该 理解,在不脱离本发明的范围的任何修改或局部替换,均应该属于本发 明的权利要求来限定的范围,因此,本发明的保护范围应该以权利要求 书的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号