法律状态公告日
法律状态信息
法律状态
2016-04-20
授权
授权
2014-01-15
实质审查的生效 IPC(主分类):G10L15/20 申请日:20130902
实质审查的生效
2013-12-18
公开
公开
技术领域
本发明涉及信号处理和模式识别,更具体地,本发明涉及一种基于情 感GMM模型权重合成的情感说话人识别方法。
背景技术
说话人识别技术是指利用信号处理技术和模式识别方法,通过采集说 话人的语音来识别其身份的技术,主要包括两个步骤:说话人模型训练和 测试语音识别。情感说话人识别是为了解决注册说话人的训练语音和测试 语音存在情感不一致引起的说话人识别系统性能下降问题。本专利提出的 方法就是通过建立说话人的虚拟情感模型,提高系统的识别性能。
目前,说话人识别采用的主要短时语音特征包括梅尔倒谱系数 (MFCC),线性预测编码倒谱系数(LPCC),感觉加权的线性预测系数 (PLP)。说话人识别的算法主要包括矢量量化(VQ),通用背景模型方 法(GMM-UBM),支持向量机(SVM)等等。其中,GMM-UBM在 整个说话人识别领域应用非常广泛。
在情感说话人识别中,训练语音通常为中性情感语音,因为在现实应 用中,一般情况下用户只会提供中性发音下的语音训练自己的模型。而测 试时,语音可能包括各种情感的语音,如高兴,悲伤等。然而,传统的说 话人识别系统并不能处理这种训练和测试环境的失配。
发明内容
本发明提供了一种基于情感GMM模型权重合成的情感说话人识别方 法,通过建立说话人的中性情感权重模型,在仅仅采集说话人中性语音的 基础上,提高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。
一种基于情感GMM模型权重合成的情感说话人识别方法,步骤如下:
(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的 中性情感权重参数变换模型,得到不同的情感GMM模型;
本发明所说的情感可以有多种选择,例如高兴、愤怒、惊慌、悲伤、 压抑等,选择的情感的种类越多,则最终的识别结果越精确,但相应的计 算量也会增加,因此,使用时可以依据需要选择适当数目的情感种类,相 应每种情感建立情感GMM模型。
(2)采集待识别说话人的语音并提取语音特征,将得到的语音特征 在步骤(1)中得到的所有情感GMM模型中进行得分计算;
该步骤中待识别的说话人均已在步骤(1)中建立相应的中性GMM模 型以及情感GMM模型,即对于某一个待识别说话人来说,如果在步骤(1) 中没有建立过相应的中性GMM模型以及情感GMM模型,则不能对该待识 别说话人进行识别。
(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话 人即为待识别说话人。
每个说话人的中性模型与情感模型之间的权重之间存在映射关系,利 用这种映射关系,即可通过中性模型直接计算得到情感模型,中性情感权 重参数变换模型的建立方法可以采用现有技术中的各种算法,只要能够在 中性模型与情感模型之间建立起映射关系即可,优选地,所述中性情感权 重参数变换模型利用径向基神经网络或者稀疏表达建立。
作为优选,所述中性情感权重参数变换模型的建立过程,具体包括以 下步骤:
1-1、在开发库中,提取所有情感状态下的不同说话人的短时语音特 征,通过EM算法训练出情感无关的高斯混合背景模型;
1-2、利用该高斯混合背景模型,通过自适应均值和自适应权重,得 到开发库中每个说话人的中性GMM模型;
1-3、利用步骤1-2的中性GMM模型,通过自适应权重的方法,得到各 种情感状态下的情感GMM模型;
1-4、利用步骤1-2的中性GMM模型中的权重和步骤1-3的情感GMM模 型中的权重,训练径向基神经网络或者稀疏表达模型,得到中性情感权重 参数变换模型。
本发明中的开发库是指,在实现本发明之前,先任意选取若干说话人 组成开发库,后续识别过程中的说话人与开发库中的说话人不一定相同, 即可以相同,也可以不同。
作为优选,采用径向基神经网络得到中性情感权重参数变换模型时, 具体包括以下步骤:在开发库中,利用每个说话人的中性GMM模型权重 序列以及该说话人对应的每种情感GMM模型权重序列,通过正交最小二 乘法训练得到GMM模型权重序列与每种情感GMM模型权重序列之间的 映射关系,即中性情感权重参数变换模型。
作为优选,采用稀疏表达得到中性情感权重参数变换模型时,具体包 括以下步骤:在开发库中,利用每个说话人的中性GMM模型权重序列以 及该说话人对应的每种情感GMM模型权重序列,得到中性情感对齐字典, 即中性情感权重参数变换模型。
本发明基于情感GMM模型权重合成的情感说话人识别方法,通过建 立说话人的中性情感权重模型,在仅仅采集说话人中性语音的基础上,提 高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。
附图说明
图1是本发明基于情感GMM模型权重合成的情感说话人识别方法的 流程图;
图2为本发明基于情感GMM模型权重合成的情感说话人识别方法中 径向基神经网络的结构图;
图3为本发明基于情感GMM模型权重合成的情感说话人识别方法中 中性情感对齐字典的结构图。
具体实施方式
下面结合附图,对本发明基于情感GMM模型权重合成的情感说话人 识别方法做详细描述。
本发明中的实验数据中采用的是中文情感语音数据库(MASC),该 数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的,该数据库由 68个母语为汉语的68个说话人组成,其中男性说话人45人,女性说话人23 人。本发明所提供的识别方法中,可以有多种选择,本实施例中为了便于 描述以及提供具体的测试结果,选取了5种情感状态,分别是中性、生气、 高兴、愤怒和悲伤,即每个说话人共有5种情感状态下的语音。每个说话 人在中性情感下朗读2段段落(约30s录音长度)并朗读5个单词和20句语 句各3遍,在其余每种情感状态下各朗读5个单词和20句语句各3遍,针对 每个说话人,在中性以及其他情感状态下朗读的单词和语句都相同;针对 所有说话人,朗读的单词和语句都相同。
本发明中的测试数据是在联想工作站进行的,其配置为:CPU E5420, 主频2.5GHz,内存为4G,实验是在Visual Studio环境下实现的。
如图1所示,一种基于情感GMM模型权重合成的情感说话人识别方 法,步骤如下:
(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的 中性情感权重参数变换模型,得到不同的情感GMM模型;
在测试过程中,任意选取若干个说话人的语音作为开发库,通常情况 下,选取的说话人个数不少于10个,例如选取前18个说话人的语音作为开 发库,该开发库中记录前18个说话人在中性以及其余五种情感状态下的所 有语音,训练得到UBM模型(即现有技术中的高斯混合背景模型)。
在测试过程中,除去开发库中的说话人,将其余说话人组成评测集, 在评测集中,每个说话人的中性GMM模型利用开发库中训练得到的UBM 模型,通过自适应均值和自适应权重得到。
该步骤中的中性情感权重参数变换模型的建立过程,具体包括以下步 骤:
1-1、在开发库中,提取所有情感状态下的不同说话人的短时语音特 征,通过EM算法训练出情感无关的高斯混合背景模型;
对开发库中不同的说话人在中性以及其余情感状态下的语音信号进 行预处理,预处理的步骤包括采样量化,去零漂,预加重(加重信号的高 频部分)和加窗(将一段语音信号分为若干段),并对每段语音信号提取 短时语音特征。
将所有说话人的短时语音特征通过EM算法训练出情感无关的高斯混 合背景模型UBMλ(x),表达式如下;
其中:ωi表示第i个高斯分量的权重;
Φ表示高斯分布函数;
μi表示第i个高斯分量的均值;
Σi表示第i个高斯分量的方差;
x表示短时语音特征;
n表示高斯分量的个数,可以依据需要调整,一般设置为512。
1-2、利用该高斯混合背景模型,通过自适应均值和自适应权重,得 到开发库中每个说话人的中性GMM模型;
利用开发库中每个说话人的中性情感下的语音,通过自适应均值和自 适应权重,得到说话人的中性GMM模型。现有技术中仅采用自适应均值, 本发明中同时自适应均值和自适应权重,自适应权重和自适应均值采用相 同的方法实现。
1-3、利用步骤1-2的中性GMM模型,通过自适应权重的方法,得到各 种情感状态下的情感GMM模型(每一种情感状态对应一个情感GMM模 型);本步骤中自适应权重采用与步骤1-2中相同的方法。
1-4、利用步骤1-2的中性GMM模型中的权重和步骤1-3的情感GMM模 型中的权重,训练径向基神经网络或者稀疏表达模型,得到中性情感权重 参数变换模型。
测试中,采用径向基神经网络和稀疏表达模型两种实施方式,获得中 性情感权重参数变换模型,并对测试结果进行对比。
当采用径向基神经网络得到中性情感权重参数变换模型时,具体包括 以下步骤:在开发库中,利用每个说话人的中性GMM模型权重序列以及 该说话人对应的每种情感GMM模型权重序列,通过正交最小二乘法训练 得到GMM模型权重序列与每种情感GMM模型权重序列之间的映射关系, 即中性情感权重参数变换模型。
将开发库中每个说话人的中性GMM模型的权重序列记为 [ωN,1,ωN,2,…,ωN,n],其中,N表示中性情感状态,n表示高斯分量的个数; 该说话人对应的情感GMM模型的权重序列记为[ωE,1,ωE,2,…,ωE,n];其中, E表示情感状态,n表示高斯分量的个数。
如图2所示,径向基神经网络分为输入层、隐藏层以及输出层;其中 输入层为中性GMM模型的权重序列,输出层为情感GMM模型的权重序列 (每个说话人的每一种情感状态对应一个情感GMM模型的权重序列),隐 藏层激活函数K(x)采用径向基函数,表达式如下:
其中,x为输入层的输入值,即中性GMM模型的权重序列;
ν为径向基函数的均值;
θ为径向基函数的方差。
在训练径向基神经网络时,通过K-均值聚类方法计算ν和θ;通过正 交最小二乘法计算隐藏层和输出层之间的权重w,该权重w也即中性情感 权重参数变换模型(具体计算过程参见文献[J.Robert,J.Schilling,J.Carroll. Approximation of nonlinear systems with radial basis function neural network [J].IEEE Transactions on neural networks,2001,12(1):21-28.])。
当采用稀疏表达得到中性情感权重参数变换模型时,具体包括以下步 骤:在开发库中,利用每个说话人的中性GMM模型权重序列以及该说话 人对应的每种情感GMM模型权重序列,得到中性情感对齐字典,即中性 情感权重参数变换模型。
如图3所示,图3中虚框内的为一个中性情感对齐字典,其中,每一列 由一个说话人的中性GMM模型权重序列和该说话人的一种情感GMM模 型权重序列构成,即每个说话人对应有4个中性情感对齐字典。
图3中,上半部分DN包括开发库中所有说话人的中性GMM模型权重序 列,下半部分DE包括开发库中所有说话人的情感GMM模型权重序列,图3 中M为开发库中的说话人的数目。
在开发库中得到中性情感权重参数变换模型后,针对评测集(即68个 说话人中除去开发库中的18个说话人,剩余的50的说话人组成的集合)中 的每个说话人建立相应的中性GMM模型以及情感GMM模型,建立过程依 据中性情感权重参数变换模型的获取过程而有所不同。
当采用径向基神经网络得到中性情感权重参数变换模型时,首先通过 自适应均值和自适应权重的方式由步骤(1)中的UBM模型中计算得到每 个说话人的中性GMM模型,将中性GMM模型权重序列记为ωN,enroll,情感 GMM模型权重序列记为ωE,enroll,利用计算虚拟 情感权重序列ωE,enroll,式中,C为隐藏层的神经元的个数,Kj为第j个隐藏 层激活函数,wj为第j个神经元对应的隐藏层和输出层之间的权重。
当采用稀疏表达得到中性情感权重参数变换模型时,首先通过自适应 均值和自适应权重的方式由步骤(1)中的UBM模型中计算得到每个说话 人的中性GMM模型,通过中性GMM模型权重序列[ωN,1,ωN,2,…,ωN,n](即 ωN),和中性GMM模型权重字典DN,获取稀疏系数B,
其中,ε为误差极限,可以依据具体情况设定,本实施例中设为1.3, 具体计算过程参见[J.Wright,A.Y.Yang,A.Ganesh,S.S.Sastry,and Y.Ma, “Robust face recognition via sparse representation,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.31,no.2,pp.210–227, 2009.]。
利用ωE,enroll=DE×B计算得到虚拟情感权重序列ωE,enroll。
评测集中每个说话人的中性GMM模型高斯分量的均值,方差以及虚 拟情感权重构成每个说话人相应的情感GMM模型。
式中,Φ表示高斯分布函数;
μN,i表示中性情感状态下的第i个高斯分量的均值;
ΣN,i表示中性情感状态下的第i个高斯分量的方差;
ωE,enroll,i表示虚拟情感权重ωE,enroll中第i个高斯分量的权重;
x表示短时语音特征;
n表示高斯分量的个数,本实施例中设为512。
建立完评测集中所有说话人的中性GMM模型以及情感GMM模型后, 开始进行说话人的识别。
(2)采集待识别说话人的语音并提取短时语音特征,将得到的短时 语音特征在步骤(1)中得到的所有情感GMM模型中进行得分计算;
该步骤中待识别的说话人均在步骤(1)中已建立相应的中性GMM模 型以及情感GMM模型。
将待识别的语音在评测集中所有的中性GMM模型以及情感GMM模 型中分别进行似然得分计算,对于评测集中第k个说话人的模型,待识别 语音的短时语音特征xt的似然得分可以利用下式计算:
式中,sN,k为待识别语音在第k个说话人的中性GMM模型中的得分;
ωN,i,k为第k个说话人的中性GMM模型中第i个高斯分量对应的权重;
xt为短时语音特征;
μN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的均值;
ΣN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的方差;
n表示高斯分量的个数,本实施例中设为512。
式中,sE,k为待识别语音在第k个说话人的情感GMM模型中的得分;
ωE,i,k为第k个说话人的情感GMM模型中第i个高斯分量对应的权重;
xt为短时语音特征;
μN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的均值;
ΣN,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的方差;
n表示高斯分量的个数,本实施例中设为512。
(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话 人即为待识别说话人。
对于第k个说话人模型,待识别语音的短时语音特征xt的最终得分sk为所有中性GMM模型以及情感GMM模型中似然得分的最大值,即
Sk=max(sN,k,sE,k)
例如,某一段待识别语音在第k个说话人模型中,高兴这一情感状态 所对应的得分最大,则将高兴对应的得分作为Sk。
选择待识别语句在所有说话人模型中得分最大的值,作为最终的识别 结果,如下式所示
式中,id为得分最大的值所对应的说话人模型的序号。
例如,某一段待识别语音在第20个说话人模型中得到的Sk最大,则识 别结果为待识别语音是由第20个说话人发出的。
对评测集中,五种情感语音下的所有语句进行测试,测试语音共计15, 000句(50个评测人*5种情感单词*60个语句(20个语句,每个语句重复3 遍))。实验中,模拟的是说话人鉴别的过程,实验结果和基准的 GMM-UBM实验结果比较见表1。
表1
从表1中可以看出,本发明方法可以有效地合成说话人的情感模型, 在各种情感状态下,识别的准确率得到了较大的提高,同时,对于径向基 神经网络和稀疏表达,总体的识别准确率也分别提高了6.91%和5.74%,证 明本方法对提高情感说话人识别准确性和鲁棒性有很大提高。
机译: 基于邻居保留原理的情感模型合成说话人识别方法
机译: 基于邻域守恒原理的情感模型合成说话人识别方法
机译: 基于半监督学习和LSTM模型的词语级情感嵌入对话的LSTM情感分类方法