首页> 中国专利> 一种基于情感GMM模型权重合成的情感说话人识别方法

一种基于情感GMM模型权重合成的情感说话人识别方法

摘要

本发明公开了一种基于情感GMM模型权重合成的情感说话人识别方法,步骤如下:(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的中性情感权重参数变换模型,得到不同的情感GMM模型;(2)采集待识别说话人的语音并提取语音特征,将得到的语音特征在步骤(1)中得到的所有情感GMM模型中进行得分计算;(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话人即为待识别说话人。本发明基于情感GMM模型权重合成的情感说话人识别方法,通过建立说话人的中性情感权重模型,在仅仅采集说话人中性语音的基础上,提高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。

著录项

  • 公开/公告号CN103456302A

    专利类型发明专利

  • 公开/公告日2013-12-18

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201310394533.8

  • 发明设计人 杨莹春;陈力;吴朝晖;

    申请日2013-09-02

  • 分类号G10L15/20(20060101);G10L17/02(20130101);G10L17/04(20130101);

  • 代理机构33224 杭州天勤知识产权代理有限公司;

  • 代理人胡红娟

  • 地址 310027 浙江省杭州市西湖区浙大路38号

  • 入库时间 2024-02-19 22:05:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-20

    授权

    授权

  • 2014-01-15

    实质审查的生效 IPC(主分类):G10L15/20 申请日:20130902

    实质审查的生效

  • 2013-12-18

    公开

    公开

说明书

技术领域

本发明涉及信号处理和模式识别,更具体地,本发明涉及一种基于情 感GMM模型权重合成的情感说话人识别方法。

背景技术

说话人识别技术是指利用信号处理技术和模式识别方法,通过采集说 话人的语音来识别其身份的技术,主要包括两个步骤:说话人模型训练和 测试语音识别。情感说话人识别是为了解决注册说话人的训练语音和测试 语音存在情感不一致引起的说话人识别系统性能下降问题。本专利提出的 方法就是通过建立说话人的虚拟情感模型,提高系统的识别性能。

目前,说话人识别采用的主要短时语音特征包括梅尔倒谱系数 (MFCC),线性预测编码倒谱系数(LPCC),感觉加权的线性预测系数 (PLP)。说话人识别的算法主要包括矢量量化(VQ),通用背景模型方 法(GMM-UBM),支持向量机(SVM)等等。其中,GMM-UBM在 整个说话人识别领域应用非常广泛。

在情感说话人识别中,训练语音通常为中性情感语音,因为在现实应 用中,一般情况下用户只会提供中性发音下的语音训练自己的模型。而测 试时,语音可能包括各种情感的语音,如高兴,悲伤等。然而,传统的说 话人识别系统并不能处理这种训练和测试环境的失配。

发明内容

本发明提供了一种基于情感GMM模型权重合成的情感说话人识别方 法,通过建立说话人的中性情感权重模型,在仅仅采集说话人中性语音的 基础上,提高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。

一种基于情感GMM模型权重合成的情感说话人识别方法,步骤如下:

(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的 中性情感权重参数变换模型,得到不同的情感GMM模型;

本发明所说的情感可以有多种选择,例如高兴、愤怒、惊慌、悲伤、 压抑等,选择的情感的种类越多,则最终的识别结果越精确,但相应的计 算量也会增加,因此,使用时可以依据需要选择适当数目的情感种类,相 应每种情感建立情感GMM模型。

(2)采集待识别说话人的语音并提取语音特征,将得到的语音特征 在步骤(1)中得到的所有情感GMM模型中进行得分计算;

该步骤中待识别的说话人均已在步骤(1)中建立相应的中性GMM模 型以及情感GMM模型,即对于某一个待识别说话人来说,如果在步骤(1) 中没有建立过相应的中性GMM模型以及情感GMM模型,则不能对该待识 别说话人进行识别。

(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话 人即为待识别说话人。

每个说话人的中性模型与情感模型之间的权重之间存在映射关系,利 用这种映射关系,即可通过中性模型直接计算得到情感模型,中性情感权 重参数变换模型的建立方法可以采用现有技术中的各种算法,只要能够在 中性模型与情感模型之间建立起映射关系即可,优选地,所述中性情感权 重参数变换模型利用径向基神经网络或者稀疏表达建立。

作为优选,所述中性情感权重参数变换模型的建立过程,具体包括以 下步骤:

1-1、在开发库中,提取所有情感状态下的不同说话人的短时语音特 征,通过EM算法训练出情感无关的高斯混合背景模型;

1-2、利用该高斯混合背景模型,通过自适应均值和自适应权重,得 到开发库中每个说话人的中性GMM模型;

1-3、利用步骤1-2的中性GMM模型,通过自适应权重的方法,得到各 种情感状态下的情感GMM模型;

1-4、利用步骤1-2的中性GMM模型中的权重和步骤1-3的情感GMM模 型中的权重,训练径向基神经网络或者稀疏表达模型,得到中性情感权重 参数变换模型。

本发明中的开发库是指,在实现本发明之前,先任意选取若干说话人 组成开发库,后续识别过程中的说话人与开发库中的说话人不一定相同, 即可以相同,也可以不同。

作为优选,采用径向基神经网络得到中性情感权重参数变换模型时, 具体包括以下步骤:在开发库中,利用每个说话人的中性GMM模型权重 序列以及该说话人对应的每种情感GMM模型权重序列,通过正交最小二 乘法训练得到GMM模型权重序列与每种情感GMM模型权重序列之间的 映射关系,即中性情感权重参数变换模型。

作为优选,采用稀疏表达得到中性情感权重参数变换模型时,具体包 括以下步骤:在开发库中,利用每个说话人的中性GMM模型权重序列以 及该说话人对应的每种情感GMM模型权重序列,得到中性情感对齐字典, 即中性情感权重参数变换模型。

本发明基于情感GMM模型权重合成的情感说话人识别方法,通过建 立说话人的中性情感权重模型,在仅仅采集说话人中性语音的基础上,提 高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。

附图说明

图1是本发明基于情感GMM模型权重合成的情感说话人识别方法的 流程图;

图2为本发明基于情感GMM模型权重合成的情感说话人识别方法中 径向基神经网络的结构图;

图3为本发明基于情感GMM模型权重合成的情感说话人识别方法中 中性情感对齐字典的结构图。

具体实施方式

下面结合附图,对本发明基于情感GMM模型权重合成的情感说话人 识别方法做详细描述。

本发明中的实验数据中采用的是中文情感语音数据库(MASC),该 数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的,该数据库由 68个母语为汉语的68个说话人组成,其中男性说话人45人,女性说话人23 人。本发明所提供的识别方法中,可以有多种选择,本实施例中为了便于 描述以及提供具体的测试结果,选取了5种情感状态,分别是中性、生气、 高兴、愤怒和悲伤,即每个说话人共有5种情感状态下的语音。每个说话 人在中性情感下朗读2段段落(约30s录音长度)并朗读5个单词和20句语 句各3遍,在其余每种情感状态下各朗读5个单词和20句语句各3遍,针对 每个说话人,在中性以及其他情感状态下朗读的单词和语句都相同;针对 所有说话人,朗读的单词和语句都相同。

本发明中的测试数据是在联想工作站进行的,其配置为:CPU E5420, 主频2.5GHz,内存为4G,实验是在Visual Studio环境下实现的。

如图1所示,一种基于情感GMM模型权重合成的情感说话人识别方 法,步骤如下:

(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的 中性情感权重参数变换模型,得到不同的情感GMM模型;

在测试过程中,任意选取若干个说话人的语音作为开发库,通常情况 下,选取的说话人个数不少于10个,例如选取前18个说话人的语音作为开 发库,该开发库中记录前18个说话人在中性以及其余五种情感状态下的所 有语音,训练得到UBM模型(即现有技术中的高斯混合背景模型)。

在测试过程中,除去开发库中的说话人,将其余说话人组成评测集, 在评测集中,每个说话人的中性GMM模型利用开发库中训练得到的UBM 模型,通过自适应均值和自适应权重得到。

该步骤中的中性情感权重参数变换模型的建立过程,具体包括以下步 骤:

1-1、在开发库中,提取所有情感状态下的不同说话人的短时语音特 征,通过EM算法训练出情感无关的高斯混合背景模型;

对开发库中不同的说话人在中性以及其余情感状态下的语音信号进 行预处理,预处理的步骤包括采样量化,去零漂,预加重(加重信号的高 频部分)和加窗(将一段语音信号分为若干段),并对每段语音信号提取 短时语音特征。

将所有说话人的短时语音特征通过EM算法训练出情感无关的高斯混 合背景模型UBMλ(x),表达式如下;

λ(x)=Σi=1nωiΦ(μi,Σi;x)

其中:ωi表示第i个高斯分量的权重;

Φ表示高斯分布函数;

μi表示第i个高斯分量的均值;

Σi表示第i个高斯分量的方差;

x表示短时语音特征;

n表示高斯分量的个数,可以依据需要调整,一般设置为512。

1-2、利用该高斯混合背景模型,通过自适应均值和自适应权重,得 到开发库中每个说话人的中性GMM模型;

利用开发库中每个说话人的中性情感下的语音,通过自适应均值和自 适应权重,得到说话人的中性GMM模型。现有技术中仅采用自适应均值, 本发明中同时自适应均值和自适应权重,自适应权重和自适应均值采用相 同的方法实现。

1-3、利用步骤1-2的中性GMM模型,通过自适应权重的方法,得到各 种情感状态下的情感GMM模型(每一种情感状态对应一个情感GMM模 型);本步骤中自适应权重采用与步骤1-2中相同的方法。

1-4、利用步骤1-2的中性GMM模型中的权重和步骤1-3的情感GMM模 型中的权重,训练径向基神经网络或者稀疏表达模型,得到中性情感权重 参数变换模型。

测试中,采用径向基神经网络和稀疏表达模型两种实施方式,获得中 性情感权重参数变换模型,并对测试结果进行对比。

当采用径向基神经网络得到中性情感权重参数变换模型时,具体包括 以下步骤:在开发库中,利用每个说话人的中性GMM模型权重序列以及 该说话人对应的每种情感GMM模型权重序列,通过正交最小二乘法训练 得到GMM模型权重序列与每种情感GMM模型权重序列之间的映射关系, 即中性情感权重参数变换模型。

将开发库中每个说话人的中性GMM模型的权重序列记为 [ωN,1N,2,…,ωN,n],其中,N表示中性情感状态,n表示高斯分量的个数; 该说话人对应的情感GMM模型的权重序列记为[ωE,1E,2,…,ωE,n];其中, E表示情感状态,n表示高斯分量的个数。

如图2所示,径向基神经网络分为输入层、隐藏层以及输出层;其中 输入层为中性GMM模型的权重序列,输出层为情感GMM模型的权重序列 (每个说话人的每一种情感状态对应一个情感GMM模型的权重序列),隐 藏层激活函数K(x)采用径向基函数,表达式如下:

K(x)=e-||x-νθ||2

其中,x为输入层的输入值,即中性GMM模型的权重序列;

ν为径向基函数的均值;

θ为径向基函数的方差。

在训练径向基神经网络时,通过K-均值聚类方法计算ν和θ;通过正 交最小二乘法计算隐藏层和输出层之间的权重w,该权重w也即中性情感 权重参数变换模型(具体计算过程参见文献[J.Robert,J.Schilling,J.Carroll. Approximation of nonlinear systems with radial basis function neural network [J].IEEE Transactions on neural networks,2001,12(1):21-28.])。

当采用稀疏表达得到中性情感权重参数变换模型时,具体包括以下步 骤:在开发库中,利用每个说话人的中性GMM模型权重序列以及该说话 人对应的每种情感GMM模型权重序列,得到中性情感对齐字典,即中性 情感权重参数变换模型。

如图3所示,图3中虚框内的为一个中性情感对齐字典,其中,每一列 由一个说话人的中性GMM模型权重序列和该说话人的一种情感GMM模 型权重序列构成,即每个说话人对应有4个中性情感对齐字典。

图3中,上半部分DN包括开发库中所有说话人的中性GMM模型权重序 列,下半部分DE包括开发库中所有说话人的情感GMM模型权重序列,图3 中M为开发库中的说话人的数目。

在开发库中得到中性情感权重参数变换模型后,针对评测集(即68个 说话人中除去开发库中的18个说话人,剩余的50的说话人组成的集合)中 的每个说话人建立相应的中性GMM模型以及情感GMM模型,建立过程依 据中性情感权重参数变换模型的获取过程而有所不同。

当采用径向基神经网络得到中性情感权重参数变换模型时,首先通过 自适应均值和自适应权重的方式由步骤(1)中的UBM模型中计算得到每 个说话人的中性GMM模型,将中性GMM模型权重序列记为ωN,enroll,情感 GMM模型权重序列记为ωE,enroll,利用计算虚拟 情感权重序列ωE,enroll,式中,C为隐藏层的神经元的个数,Kj为第j个隐藏 层激活函数,wj为第j个神经元对应的隐藏层和输出层之间的权重。

当采用稀疏表达得到中性情感权重参数变换模型时,首先通过自适应 均值和自适应权重的方式由步骤(1)中的UBM模型中计算得到每个说话 人的中性GMM模型,通过中性GMM模型权重序列[ωN,1N,2,…,ωN,n](即 ωN),和中性GMM模型权重字典DN,获取稀疏系数B,

argmin||B||1xsubjectto||DNB-ωN||ϵ

其中,ε为误差极限,可以依据具体情况设定,本实施例中设为1.3, 具体计算过程参见[J.Wright,A.Y.Yang,A.Ganesh,S.S.Sastry,and Y.Ma, “Robust face recognition via sparse representation,”IEEE Transactions on  Pattern Analysis and Machine Intelligence,vol.31,no.2,pp.210–227, 2009.]。

利用ωE,enroll=DE×B计算得到虚拟情感权重序列ωE,enroll

评测集中每个说话人的中性GMM模型高斯分量的均值,方差以及虚 拟情感权重构成每个说话人相应的情感GMM模型。

λE(x)=Σi=1nωE,enroll,iΦ(μN,i,ΣN,i)

式中,Φ表示高斯分布函数;

μN,i表示中性情感状态下的第i个高斯分量的均值;

ΣN,i表示中性情感状态下的第i个高斯分量的方差;

ωE,enroll,i表示虚拟情感权重ωE,enroll中第i个高斯分量的权重;

x表示短时语音特征;

n表示高斯分量的个数,本实施例中设为512。

建立完评测集中所有说话人的中性GMM模型以及情感GMM模型后, 开始进行说话人的识别。

(2)采集待识别说话人的语音并提取短时语音特征,将得到的短时 语音特征在步骤(1)中得到的所有情感GMM模型中进行得分计算;

该步骤中待识别的说话人均在步骤(1)中已建立相应的中性GMM模 型以及情感GMM模型。

将待识别的语音在评测集中所有的中性GMM模型以及情感GMM模 型中分别进行似然得分计算,对于评测集中第k个说话人的模型,待识别 语音的短时语音特征xt的似然得分可以利用下式计算:

sN,k=Σi=1nωN,i,kN(xt,μN,i,k,ΣN,i,k)

式中,sN,k为待识别语音在第k个说话人的中性GMM模型中的得分;

ωN,i,k为第k个说话人的中性GMM模型中第i个高斯分量对应的权重;

xt为短时语音特征;

μN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的均值;

ΣN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的方差;

n表示高斯分量的个数,本实施例中设为512。

sE,k=Σi=1nωE,i,kN(xt,μN,i,k,ΣN,i,k)

式中,sE,k为待识别语音在第k个说话人的情感GMM模型中的得分;

ωE,i,k为第k个说话人的情感GMM模型中第i个高斯分量对应的权重;

xt为短时语音特征;

μN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的均值;

ΣN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的方差;

n表示高斯分量的个数,本实施例中设为512。

(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话 人即为待识别说话人。

对于第k个说话人模型,待识别语音的短时语音特征xt的最终得分sk为所有中性GMM模型以及情感GMM模型中似然得分的最大值,即

Sk=max(sN,k,sE,k)

例如,某一段待识别语音在第k个说话人模型中,高兴这一情感状态 所对应的得分最大,则将高兴对应的得分作为Sk

选择待识别语句在所有说话人模型中得分最大的值,作为最终的识别 结果,如下式所示

id=max>argxSk

式中,id为得分最大的值所对应的说话人模型的序号。

例如,某一段待识别语音在第20个说话人模型中得到的Sk最大,则识 别结果为待识别语音是由第20个说话人发出的。

对评测集中,五种情感语音下的所有语句进行测试,测试语音共计15, 000句(50个评测人*5种情感单词*60个语句(20个语句,每个语句重复3 遍))。实验中,模拟的是说话人鉴别的过程,实验结果和基准的 GMM-UBM实验结果比较见表1。

表1

情感分类 基准GMM-UBM 径向基神经网络 稀疏表达 中性 90.87% 95.23% 96.47% 愤怒 41.83% 51.97% 50.27% 高兴 44.80% 53.57% 51.20% 惊慌 39.20% 46.70% 45.57% 悲伤 65.80% 69.60% 67.70% 平均 56.50% 63.41% 62.24%

从表1中可以看出,本发明方法可以有效地合成说话人的情感模型, 在各种情感状态下,识别的准确率得到了较大的提高,同时,对于径向基 神经网络和稀疏表达,总体的识别准确率也分别提高了6.91%和5.74%,证 明本方法对提高情感说话人识别准确性和鲁棒性有很大提高。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号