首页> 中国专利> 基于说话人模型对齐的非对称语音库条件下的语音转换方法

基于说话人模型对齐的非对称语音库条件下的语音转换方法

摘要

本发明提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用了说话人模型对齐的方法,并且为了进一步提升语音转换的效果,还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明:本发明在频谱失真度和相关度、转换语音的质量和相似度上,都取得了比传统基于INCA的语音转换方法更好的效果。

著录项

  • 公开/公告号CN104217721A

    专利类型发明专利

  • 公开/公告日2014-12-17

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN201410399475.2

  • 发明设计人 宋鹏;赵力;金赟;

    申请日2014-08-14

  • 分类号G10L17/04(20130101);G10L13/08(20130101);

  • 代理机构32250 江苏永衡昭辉律师事务所;

  • 代理人王斌

  • 地址 210096 江苏省南京市四牌楼2号

  • 入库时间 2023-12-17 03:09:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-08

    授权

    授权

  • 2015-01-07

    实质审查的生效 IPC(主分类):G10L17/04 申请日:20140814

    实质审查的生效

  • 2014-12-17

    公开

    公开

说明书

技术领域

本发明涉及一种语音转换技术,尤其是涉及一种非对称语音库条件下的语音 转换方法,属于语音信号处理技术领域。

背景技术

语音转换指的是改变一个说话人(源说话人)的语音个性特征使之变为另一 个说话人(目标说话人)的语音个性特征的一种技术。语音转换技术有着广泛的 应用前景,如用于个性化的语音合成、在保密通信领域用于说话人身份的伪装、 在医疗领域用作受损语音的恢复、在低比特率语音通信中的接收端用于说话人个 性特征的恢复等。

为了实现高质量的说话人个性特征转换,国内外学者提出了很多的语音转换 方法,如码本映射法、高斯混合模型(Gaussian mixture model,GMM)法、人工 神经网络法、频率弯折法、隐马尔科夫模型法等。然而,这些方法都是针对对称 (相同文本内容)语音库的情况提出来的,但是在实际情况中,对称的语音库很 难直接获取。因此许多学者又提出了基于非对称语音库的语音转换方法,如最大 似然约束自适应法、最近邻循环迭代(Iterative combination of a Nearest Neighbor  search step and a Conversion step Alignment,INCA)方法、基于说话人自适应的语 音转换方法等。但是这些方法仍然存在着较大的局限性:如最大似然约束自适应 法需要预先训练得到参考说话人的转换函数;INCA方法是建立在特征空间中邻 近的频谱特征对应着相同音素的假设基础上,而该假设在实际中往往并不十分准 确,同时这种训练方法需要较多的训练语句;基于说话人自适应的语音转换方法 依赖于第三方说话人训练模型。因此,这些问题都在很大程度上限制了非对称语 音库条件下的语音转换技术的实际应用。

发明内容

本发明的目的是针对非对称语音库情况下的语音转换,提出一种基于说话人 模型对齐的非对称语音库条件下的语音转换方法。

本发明的技术方案为:基于说话人模型对齐的非对称语音库条件下的语音转 换方法,该方法针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和 目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练 得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特 征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的 转换函数,最后通过所求得的两个转换函数之间的函数关系找到源说话人和目标 说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以 及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音 分析/合成模型对转换后的频谱特征进行合成得到转换语音。

基于说话人模型对齐的语音转换方法的具体步骤如下:

步骤Ⅰ,模型训练:运用STRAIGHT模型提取源说话人和目标说话人的频谱特 征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化 (Expectation maximization,EM)方法分别训练得到源说话人模型和目标说话人 模型,记为GMMx和GMMy,这里采用高斯混合模型(Gaussian mixture model, GMM)对GMMx和GMMy进行建模,具体为:

p(x)=Σi=1MωiN(x,μix,Σix),p(y)=Σi=1MviN(y,μiy,Σiy)---(1)

其中,N(·)表示高斯分布,和分别表示GMMx和GMMy模 型的第i个高斯分量,M表示高斯分量的个数,和表示第i个高斯分量的 均值向量,和表示第i个高斯分量的方差矩阵,ωi和vi表示第i个高斯分量 所占的权重,且满足Σi=1Mωi=1,0ωi1,Σi=1Mvi=1,0vi1;

步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X′={x′j},其中j表示第 j帧,且j=1,2,...,J,J表示帧数,且J≥1;X′用于每一次迭代搜索后的中间 序列,并运用EM算法训练得到辅助向量序列的模型,记作GMMx′,具体表达 式为:

p(x)=Σi=1MωiN(x,μx,σx)---(2)

其中,x′表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足 Σi=1Mωi=1,0ωi1;GMMx′的参数为并且初始化设定为

步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似 度用矩阵D表示如下:

D=d11d12...d1Md21d22...d2M............dM1dM2...dMM---(3)

其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量 之间的相似度,并采用对称的KL Divergence(KLD)来描述两个高斯 分量fi(x)和fj(x)之间的相似度,具体为

dij=12(d(fi(x)||fj(x))+d(fj(x)||fi(x)))---(4)

其中,d(fi(x)||fj(x))=Σxfi(x)lnfi(x)fj(x),d(fj(x)||fi(x))=Σxfj(x)lnfj(x)fi(x);

步骤Ⅳ,最近邻搜索:对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找 到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯 分量t,通过D找到其在GMMx′中对应的相似度最高的分量ψ(t);

步骤Ⅴ,转换:通过最近邻搜索,分别得到两个均值向量对序列,分别记为 和其中,s=1,2,…,M,t=1,2,…,M;和分别表示 GMMx′第s个高斯分量的辅助均值向量及其在GMMy中对应的高斯分量σ(s)所 对应的均值向量,和分别表示GMMy第t个高斯分量的辅助均值向量及 其在GMMx′中对应的高斯分量ψ(t)所对应的均值向量;去除和 中重复的序列对,并连接在一起得到一个完整的均值向量对序列 {μx′y};利用最小二乘估计法计算得到μx′和μy之间的映射函数:

fmux′)=Aμx′+b    (5)

其中,A=μyμxT(μxμxT)-1,b=μy-Aμx′

将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的 转换,则转换函数如下:

fmu(x′)=Ax′+b    (6)

辅助向量x′可以通过下式得到:

x′=fmu(x′)    (7)

进而,得到源说话人特征向量x和辅助向量x′之间的转换函数:

x′=fsa(x)=Cx+d    (8)

其中,C和d均为常数,且d=μx′-Aμx,可见x和x′之间是 个简单的线性映射关系;

步骤Ⅵ,通过期望最大化方法对辅助向量序列X′重新进行模型训练得到 GMMx′,重复步骤Ⅲ~Ⅴ,直到GMMx′和GMMy之间的相似度满足收敛条件 其中δ为一取值非常小的经验常数,主要根据经验结合实际情况而定。

基于说话人模型对齐的转换方法在一定程度上可以实现源说话人向目标说 话人的语音转换,但是一方面,单一的映射转换并不能保证转换函数的准确度; 另一方面,转换函数通过模型均值训练得到而并没有充分利用频谱特征的信息, 因而很难获得令人满意的转换效果。因此,作为对本发明的进一步改进,提出了 将说话人模型对齐和GMM相融合的方法,具体操作如下:

经过说话人模型的矢量对齐训练,获得了辅助向量序列X′;采用联合概率 密度对辅助向量x′和目标说话人特征向量y组成的特征序列对z=xy进行 GMM建模,如下:

p(z)=Σi=1MαiN(z,μi,Σi)---(9)

其中,αi表示第i个高斯分量所占的权重,且满足Σi=1Mαi=1,0αi1;μi=μixμiy,Σi=ΣixxΣixyΣiyxΣiyy,μi和Σi分别表示第i个高斯分量的均值矩阵和协方差矩阵;

采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换 函数:

fat(x)=Σi=1Mp(i|x)(μiy+ΣixyΣixx(x-μix))---(10)

其中,p(i|x′)表示x′属于第i个高斯分量的后验概率,满足

p(i|x)=αibi(x)Σj=1Mαjbj(x)---(11)

其中,αj表示第j个高斯分量所占的权重,且满足bi(x′)和 bj(x′)分别表示第i个高斯分量和第j个高斯分量;

进而,根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话 人特征向量之间的转换函数:y=F(x)=fat(fsa(x))。

有益效果:与现有技术相比,本发明提供的基于说话人模型对齐的非对称语 音库条件下的语音转换方法,优点和效果在于:

1)与其他基于非对称语音库的语音转换方法不同,本发明不需要任何第三 方说话人的信息,仅通过源说话人和目标说话人的语音数据训练得到二者之间的 映射关系,方法实际操作简单,在提升转换效果的同时在一定程度上减少了语音 转换系统的运算复杂度。

2)本发明所提出的方法特别适合在非对称语音库情况下的语音转换,既可 以用于同一语种说话人之间的语音转换,也可以推广到不同语种说话人之间的语 音转换。

附图说明

图1为本发明所提出的基于说话人模型对齐的语音转换方法的示意图;

图2为本发明实施例与经典INCA方法的MCD比较试验结果;

图3为本发明实施例与经典INCA方法的客观评价结果对比图;

图4为本发明实施例与经典INCA方法的MOS评价和ABX测试的结果对 比图。

具体实施方式

下面结合附图和实施例,对本发明所述的技术方案做进一步阐述。

语音转换是语音信号处理领域的一个比较新的研究方向,在过去几十年中获 得了长足的发展。国内外的研究主要集中在基于对称语音库的语音转换的研究, 但是在实际情况下,对称的语音库通常很难直接获取。针对这种情况,本发明从 说话人模型对齐的角度出发,提出了一种新的非对称语音库条件下的基于说话人 模型对齐的语音转换方法。首先,分别训练得到源说话人和目标说话人的模型; 然后,利用说话人模型的均值和协方差参数,对说话人模型进行迭代对齐,从而 得到频谱特征的转换函数;最后,通过与GMM方法相融合进一步提升了语音转 换的效果。

基于说话人模型对齐的非对称语音库条件下的语音转换方法,包括如下步 骤:

1)选择STRIAHGT语音分析/合成模型对说话人的语句进行频谱特征的提取, 提取美尔倒谱系数(Mel-cepstrum coefficients,MCC)和基音频率F0。

2)对MCC参数运用EM算法分别训练得到源说话人和目标说话人的模型 GMMx和GMMy,模型参数表示为{x,μxx}和{y,μyy}。

3)引入辅助向量序列X′={x′j},j=1,2,...,J用于每一次迭代后的中间序列, 同样运用EM算法训练得到辅助向量序列的模型,记作GMMx′,其模型参数表 示为{x′,μx′x′},初始化设定为{x,μxx}。

4)采用对称的KLD计算得到两个说话人模型不同高斯分量之间的相似度, 用矩阵D=[dij]M×M来表示。

5)对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其 相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找 到其在GMMx′中对应的相似度最高的分量ψ(t)。

6)通过最近邻搜索,分别得到两个均值向量对序列,分别记为和 去除重复的序列对,将两个序列对连接得到一个完整的均值向量对 序列{μx′y}。引入最小二乘估计法,计算得到μx′和μy之间的映射函数,从而 得到x和x′之间的映射函数:x′=fsa(x)。

7)通过EM算法对X′重新进行模型训练得到GMMx′。重复步骤4)~6)直到 GMMx′和GMMy之间的相似度满足收敛条件其中δ取值为0.1。

图1给出了本发明提出的基于说话人模型对齐的语音转换方法的示意图,从 图中可以发现,随着迭代次数的增加,辅助向量序列的模型GMMx′越来越接近 于目标说话人的模型GMMy

8)经过说话人模型对齐训练,获得了辅助向量序列X′。与传统基于对称语 音库的GMM方法的做法类似,采用联合概率密度对辅助向量和目标说话人的特 征向量进行建模,并通过最小均方误差法得到它们之间的转换函数fat(·)。根据 源说话人特征向量与辅助向量之间的映射关系结合转换函数fat(·)可得到源说话 人和目标说话人频谱特征之间的转换函数y=F(x)=fat(fsa(x))。

9)对基音频率F0运用传统高斯归一化方法进行转换,转换函数为:

F(fx)=μfy+σfyσfx(fx-μfx)---(1)

其中,fx为源说话人的基音频率F0,和分别表示源说话人和目标说话 人基音频率F0的均值,和源说话人和目标说话人基音频率F0的协方差。

10)通过STRAIGHT语音分析/合成模型对转换后的频谱特征及F0进行合成 得到转换语音。

性能评价:

本发明选择CMU ATCTIC语音数据库对转换效果进行了评价。分别选择两 个男性说话人(BDL和RMS)和两个女性说话人(SLT和CLB)的各80条语句用 作实验,其中50条语句用于训练,另外30条语句用于评价测试。高斯混合模型 的高斯分量M的大小被优化设定为256。本实施例中优先选择了男性到女性、女 性到男性、男性到男性、女性到女性的四种语音转换方式,并对基于传统INCA 对齐的语音转换方法(INCA)、本发明提出的基于说话人模型对齐的语音转换方 法(SMA)、本发明提出的基于GMM和说话人模型对齐融合的语音转换方法 (GMM-SMA)进行了评价。

在本实施例中选择美尔倒谱距离(Mel cepstral distance,MCD)来对语音转 换效果进行客观评价。

MCD=10/ln102Σj=124(Cjc-Cjt)2---(2)

其中和分别为转换语音和目标说话人语音的第j维(1≤j≤24)的MCC, MCC阶数取为24。MCD值越小,说明转换效果越好。

同时,在本实施例中选取皮尔逊积矩相关系数用于语音转换的客观评价,其 主要用于描述转换语音和目标说话人语音的MCC特征之间的相关度。第d维( 1≤d≤24)的相关度计算公式如下式(3)所示

rd=Σn=1N(Cndc-Cdc)(Cndt-Cdt)Σn=1N(Cndc-Cdc)2Σn=1N(Cndt-Cdt)2---(3)

其中和分别为转换语音和目标说话人语音的第n(n≥1)帧MCC的第d 维的特征,和分别为对应的特征均值。相关度越大,则表示转换效果越好。

图2给出了本发明所提出的方法与经典INCA方法的MCD比较试验结果。 从图中我们可以发现,随着训练语句的增加,不同方法的MCD取值都呈现出相 同的变小的趋势;同时,本发明提出的基于说话人模型对齐的语音转换方法总是 能取得比传统INCA更低的结果;并且通过与GMM方法融合,可以进一步降低 MCD值。这说明所提出的方法在客观条件下较INCA方法可以取得更好的效果。

图3给出了相关度评价结果。可以发现,随着训练语句的增加,相关度呈现 出上升的趋势,并且本发明所提出的说话人模型对齐的语音转换方法取得了比 INCA方法更高的相关度;同时,通过进一步与GMM融合的方法总是能取得最 高的相关度,因此从客观角度来说本发明提出的方法是有效的。

在主观评价上,8名说话人参与了主观打分评价。在本实施例中分别选择平 均意见得分(Mean opinion score,MOS)和ABX相似度测试两种方法对转换语音 的质量及与目标说话人语音相似度进行测试。并且选择5分制分别对语音的质量 和相似度进行打分,其中1分表示“质量很差”或“完全不同”,5分表示“质 量非常好”或“完全相同”。

图4给出了MOS评价和ABX测试的结果,其中置信度为0.95,Quality 表示的是MOS评价的结果,Similarity表示的是ABX测试的结果,图中的“Ⅰ” 字形表示的是标准差。从图中可以发现,SMA方法总是能取得比INCA方法更 高的打分;同时,GMM-SMA方法总是能取得最高的得分,这在一定程度上验 证了主观评价的结果。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号