首页> 中国专利> 一种基于情感GMM模型权重合成的情感说话人识别方法

一种基于情感GMM模型权重合成的情感说话人识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于情感GMM模型权重合成的情感说话人识别方法，步骤如下：（1）针对每个说话人，建立说话人的中性GMM模型，并依据对应的中性情感权重参数变换模型，得到不同的情感GMM模型；（2）采集待识别说话人的语音并提取语音特征，将得到的语音特征在步骤（1）中得到的所有情感GMM模型中进行得分计算；（3）将所有得分进行比较，得分最高的情感GMM模型所对应的说话人即为待识别说话人。本发明基于情感GMM模型权重合成的情感说话人识别方法，通过建立说话人的中性情感权重模型，在仅仅采集说话人中性语音的基础上，提高对说话人情感变化识别的鲁棒性，提高说话人识别的准确性。

著录项

公开/公告号CN103456302A

专利类型发明专利
公开/公告日2013-12-18

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201310394533.8
发明设计人杨莹春;陈力;吴朝晖;
展开▼

申请日2013-09-02
分类号G10L15/20(20060101);G10L17/02(20130101);G10L17/04(20130101);
代理机构33224 杭州天勤知识产权代理有限公司;
代理人胡红娟
地址 310027 浙江省杭州市西湖区浙大路38号
入库时间 2024-02-19 22:05:54

法律信息

法律状态公告日

法律状态信息

法律状态
2016-04-20

授权

授权
2014-01-15

实质审查的生效 IPC(主分类):G10L15/20 申请日:20130902

实质审查的生效
2013-12-18

公开

公开

说明书

技术领域

本发明涉及信号处理和模式识别，更具体地，本发明涉及一种基于情感GMM模型权重合成的情感说话人识别方法。

背景技术

说话人识别技术是指利用信号处理技术和模式识别方法，通过采集说话人的语音来识别其身份的技术，主要包括两个步骤：说话人模型训练和测试语音识别。情感说话人识别是为了解决注册说话人的训练语音和测试语音存在情感不一致引起的说话人识别系统性能下降问题。本专利提出的方法就是通过建立说话人的虚拟情感模型，提高系统的识别性能。

目前，说话人识别采用的主要短时语音特征包括梅尔倒谱系数（MFCC），线性预测编码倒谱系数（LPCC），感觉加权的线性预测系数（PLP）。说话人识别的算法主要包括矢量量化（VQ），通用背景模型方法（GMM-UBM），支持向量机（SVM）等等。其中，GMM-UBM在整个说话人识别领域应用非常广泛。

在情感说话人识别中，训练语音通常为中性情感语音，因为在现实应用中，一般情况下用户只会提供中性发音下的语音训练自己的模型。而测试时，语音可能包括各种情感的语音，如高兴，悲伤等。然而，传统的说话人识别系统并不能处理这种训练和测试环境的失配。

发明内容

本发明提供了一种基于情感GMM模型权重合成的情感说话人识别方法，通过建立说话人的中性情感权重模型，在仅仅采集说话人中性语音的基础上，提高对说话人情感变化识别的鲁棒性，提高说话人识别的准确性。

一种基于情感GMM模型权重合成的情感说话人识别方法，步骤如下：

（1）针对每个说话人，建立说话人的中性GMM模型，并依据对应的中性情感权重参数变换模型，得到不同的情感GMM模型；

本发明所说的情感可以有多种选择，例如高兴、愤怒、惊慌、悲伤、压抑等，选择的情感的种类越多，则最终的识别结果越精确，但相应的计算量也会增加，因此，使用时可以依据需要选择适当数目的情感种类，相应每种情感建立情感GMM模型。

（2）采集待识别说话人的语音并提取语音特征，将得到的语音特征在步骤（1）中得到的所有情感GMM模型中进行得分计算；

该步骤中待识别的说话人均已在步骤（1）中建立相应的中性GMM模型以及情感GMM模型，即对于某一个待识别说话人来说，如果在步骤（1）中没有建立过相应的中性GMM模型以及情感GMM模型，则不能对该待识别说话人进行识别。

（3）将所有得分进行比较，得分最高的情感GMM模型所对应的说话人即为待识别说话人。

每个说话人的中性模型与情感模型之间的权重之间存在映射关系，利用这种映射关系，即可通过中性模型直接计算得到情感模型，中性情感权重参数变换模型的建立方法可以采用现有技术中的各种算法，只要能够在中性模型与情感模型之间建立起映射关系即可，优选地，所述中性情感权重参数变换模型利用径向基神经网络或者稀疏表达建立。

作为优选，所述中性情感权重参数变换模型的建立过程，具体包括以下步骤：

1-1、在开发库中，提取所有情感状态下的不同说话人的短时语音特征，通过EM算法训练出情感无关的高斯混合背景模型；

1-2、利用该高斯混合背景模型，通过自适应均值和自适应权重，得到开发库中每个说话人的中性GMM模型；

1-3、利用步骤1-2的中性GMM模型，通过自适应权重的方法，得到各种情感状态下的情感GMM模型；

1-4、利用步骤1-2的中性GMM模型中的权重和步骤1-3的情感GMM模型中的权重，训练径向基神经网络或者稀疏表达模型，得到中性情感权重参数变换模型。

本发明中的开发库是指，在实现本发明之前，先任意选取若干说话人组成开发库，后续识别过程中的说话人与开发库中的说话人不一定相同，即可以相同，也可以不同。

作为优选，采用径向基神经网络得到中性情感权重参数变换模型时，具体包括以下步骤：在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，通过正交最小二乘法训练得到GMM模型权重序列与每种情感GMM模型权重序列之间的映射关系，即中性情感权重参数变换模型。

作为优选，采用稀疏表达得到中性情感权重参数变换模型时，具体包括以下步骤：在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，得到中性情感对齐字典，即中性情感权重参数变换模型。

本发明基于情感GMM模型权重合成的情感说话人识别方法，通过建立说话人的中性情感权重模型，在仅仅采集说话人中性语音的基础上，提高对说话人情感变化识别的鲁棒性，提高说话人识别的准确性。

附图说明

图1是本发明基于情感GMM模型权重合成的情感说话人识别方法的流程图；

图2为本发明基于情感GMM模型权重合成的情感说话人识别方法中径向基神经网络的结构图；

图3为本发明基于情感GMM模型权重合成的情感说话人识别方法中中性情感对齐字典的结构图。

具体实施方式

下面结合附图，对本发明基于情感GMM模型权重合成的情感说话人识别方法做详细描述。

本发明中的实验数据中采用的是中文情感语音数据库（MASC），该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的，该数据库由 68个母语为汉语的68个说话人组成，其中男性说话人45人，女性说话人23 人。本发明所提供的识别方法中，可以有多种选择，本实施例中为了便于描述以及提供具体的测试结果，选取了5种情感状态，分别是中性、生气、高兴、愤怒和悲伤，即每个说话人共有5种情感状态下的语音。每个说话人在中性情感下朗读2段段落（约30s录音长度）并朗读5个单词和20句语句各3遍，在其余每种情感状态下各朗读5个单词和20句语句各3遍，针对每个说话人，在中性以及其他情感状态下朗读的单词和语句都相同；针对所有说话人，朗读的单词和语句都相同。

本发明中的测试数据是在联想工作站进行的，其配置为：CPU E5420，主频2.5GHz，内存为4G，实验是在Visual Studio环境下实现的。

如图1所示，一种基于情感GMM模型权重合成的情感说话人识别方法，步骤如下：

（1）针对每个说话人，建立说话人的中性GMM模型，并依据对应的中性情感权重参数变换模型，得到不同的情感GMM模型；

在测试过程中，任意选取若干个说话人的语音作为开发库，通常情况下，选取的说话人个数不少于10个，例如选取前18个说话人的语音作为开发库，该开发库中记录前18个说话人在中性以及其余五种情感状态下的所有语音，训练得到UBM模型（即现有技术中的高斯混合背景模型）。

在测试过程中，除去开发库中的说话人，将其余说话人组成评测集，在评测集中，每个说话人的中性GMM模型利用开发库中训练得到的UBM 模型，通过自适应均值和自适应权重得到。

该步骤中的中性情感权重参数变换模型的建立过程，具体包括以下步骤：

1-1、在开发库中，提取所有情感状态下的不同说话人的短时语音特征，通过EM算法训练出情感无关的高斯混合背景模型；

对开发库中不同的说话人在中性以及其余情感状态下的语音信号进行预处理，预处理的步骤包括采样量化，去零漂，预加重（加重信号的高频部分）和加窗（将一段语音信号分为若干段），并对每段语音信号提取短时语音特征。

将所有说话人的短时语音特征通过EM算法训练出情感无关的高斯混合背景模型UBMλ(x)，表达式如下；

$λ (x) = Σ_{i = 1}^{n} ω_{i} Φ (μ_{i}, Σ_{i}; x)$

其中：ω_i表示第i个高斯分量的权重；

Φ表示高斯分布函数；

μ_i表示第i个高斯分量的均值；

Σ_i表示第i个高斯分量的方差；

x表示短时语音特征；

n表示高斯分量的个数，可以依据需要调整，一般设置为512。

1-2、利用该高斯混合背景模型，通过自适应均值和自适应权重，得到开发库中每个说话人的中性GMM模型；

利用开发库中每个说话人的中性情感下的语音，通过自适应均值和自适应权重，得到说话人的中性GMM模型。现有技术中仅采用自适应均值，本发明中同时自适应均值和自适应权重，自适应权重和自适应均值采用相同的方法实现。

1-3、利用步骤1-2的中性GMM模型，通过自适应权重的方法，得到各种情感状态下的情感GMM模型（每一种情感状态对应一个情感GMM模型）；本步骤中自适应权重采用与步骤1-2中相同的方法。

1-4、利用步骤1-2的中性GMM模型中的权重和步骤1-3的情感GMM模型中的权重，训练径向基神经网络或者稀疏表达模型，得到中性情感权重参数变换模型。

测试中，采用径向基神经网络和稀疏表达模型两种实施方式，获得中性情感权重参数变换模型，并对测试结果进行对比。

当采用径向基神经网络得到中性情感权重参数变换模型时，具体包括以下步骤：在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，通过正交最小二乘法训练得到GMM模型权重序列与每种情感GMM模型权重序列之间的映射关系，即中性情感权重参数变换模型。

将开发库中每个说话人的中性GMM模型的权重序列记为 [ω_N,1,ω_N,2,…,ω_N,n]，其中，N表示中性情感状态，n表示高斯分量的个数；该说话人对应的情感GMM模型的权重序列记为[ω_E,1,ω_E,2,…,ω_E,n]；其中， E表示情感状态，n表示高斯分量的个数。

如图2所示，径向基神经网络分为输入层、隐藏层以及输出层；其中输入层为中性GMM模型的权重序列，输出层为情感GMM模型的权重序列（每个说话人的每一种情感状态对应一个情感GMM模型的权重序列），隐藏层激活函数K(x)采用径向基函数，表达式如下：

$K (x) = e^{- {| | \frac{x - ν}{θ} | |}^{2}}$

其中，x为输入层的输入值，即中性GMM模型的权重序列；

ν为径向基函数的均值；

θ为径向基函数的方差。

在训练径向基神经网络时，通过K-均值聚类方法计算ν和θ；通过正交最小二乘法计算隐藏层和输出层之间的权重w，该权重w也即中性情感权重参数变换模型（具体计算过程参见文献[J.Robert,J.Schilling,J.Carroll. Approximation of nonlinear systems with radial basis function neural network [J].IEEE Transactions on neural networks,2001,12(1):21-28.]）。

当采用稀疏表达得到中性情感权重参数变换模型时，具体包括以下步骤：在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，得到中性情感对齐字典，即中性情感权重参数变换模型。

如图3所示，图3中虚框内的为一个中性情感对齐字典，其中，每一列由一个说话人的中性GMM模型权重序列和该说话人的一种情感GMM模型权重序列构成，即每个说话人对应有4个中性情感对齐字典。

图3中，上半部分D_N包括开发库中所有说话人的中性GMM模型权重序列，下半部分D_E包括开发库中所有说话人的情感GMM模型权重序列，图3 中M为开发库中的说话人的数目。

在开发库中得到中性情感权重参数变换模型后，针对评测集（即68个说话人中除去开发库中的18个说话人，剩余的50的说话人组成的集合）中的每个说话人建立相应的中性GMM模型以及情感GMM模型，建立过程依据中性情感权重参数变换模型的获取过程而有所不同。

当采用径向基神经网络得到中性情感权重参数变换模型时，首先通过自适应均值和自适应权重的方式由步骤（1）中的UBM模型中计算得到每个说话人的中性GMM模型，将中性GMM模型权重序列记为ω_N,enroll，情感 GMM模型权重序列记为ω_E,enroll，利用计算虚拟情感权重序列ω_E,enroll，式中，C为隐藏层的神经元的个数，K_j为第j个隐藏层激活函数，w_j为第j个神经元对应的隐藏层和输出层之间的权重。

当采用稀疏表达得到中性情感权重参数变换模型时，首先通过自适应均值和自适应权重的方式由步骤（1）中的UBM模型中计算得到每个说话人的中性GMM模型，通过中性GMM模型权重序列[ω_N,1,ω_N,2,…,ω_N,n]（即 ω_N），和中性GMM模型权重字典D_N，获取稀疏系数B，

$(\begin{matrix} \arg \underset{x}{\min {| | B | |}_{1}} & subjectto | | D_{N} B - ω_{N} | | \leq ϵ \end{matrix})$

其中，ε为误差极限，可以依据具体情况设定，本实施例中设为1.3，具体计算过程参见[J.Wright,A.Y.Yang,A.Ganesh,S.S.Sastry,and Y.Ma, “Robust face recognition via sparse representation,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.31,no.2,pp.210–227, 2009.]。

利用ω_E,enroll＝D_E×B计算得到虚拟情感权重序列ω_E,enroll。

评测集中每个说话人的中性GMM模型高斯分量的均值，方差以及虚拟情感权重构成每个说话人相应的情感GMM模型。

$λ_{E} (x) = Σ_{i = 1}^{n} ω_{E, enroll, i} Φ (μ_{N, i}, Σ_{N, i})$

式中，Φ表示高斯分布函数；

μ_N,i表示中性情感状态下的第i个高斯分量的均值；

Σ_N,i表示中性情感状态下的第i个高斯分量的方差；

ω_E,enroll,i表示虚拟情感权重ω_E,enroll中第i个高斯分量的权重；

x表示短时语音特征；

n表示高斯分量的个数，本实施例中设为512。

建立完评测集中所有说话人的中性GMM模型以及情感GMM模型后，开始进行说话人的识别。

（2）采集待识别说话人的语音并提取短时语音特征，将得到的短时语音特征在步骤（1）中得到的所有情感GMM模型中进行得分计算；

该步骤中待识别的说话人均在步骤（1）中已建立相应的中性GMM模型以及情感GMM模型。

将待识别的语音在评测集中所有的中性GMM模型以及情感GMM模型中分别进行似然得分计算，对于评测集中第k个说话人的模型，待识别语音的短时语音特征xt的似然得分可以利用下式计算：

$s_{N, k} = Σ_{i = 1}^{n} ω_{N, i, k} N (x_{t}, μ_{N, i, k}, Σ_{N, i, k})$

式中，s_N,k为待识别语音在第k个说话人的中性GMM模型中的得分；

ω_N,i,k为第k个说话人的中性GMM模型中第i个高斯分量对应的权重；

x_t为短时语音特征；

μ_N,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的均值；

Σ_N,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的方差；

n表示高斯分量的个数，本实施例中设为512。

$s_{E, k} = Σ_{i = 1}^{n} ω_{E, i, k} N (x_{t}, μ_{N, i, k}, Σ_{N, i, k})$

式中，s_E,k为待识别语音在第k个说话人的情感GMM模型中的得分；

ω_E,i,k为第k个说话人的情感GMM模型中第i个高斯分量对应的权重；

x_t为短时语音特征；

μ_N,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的均值；

Σ_N,i,k表示第k个说话人的中性情感状态下的第i个高斯分量的方差；

n表示高斯分量的个数，本实施例中设为512。

（3）将所有得分进行比较，得分最高的情感GMM模型所对应的说话人即为待识别说话人。

对于第k个说话人模型，待识别语音的短时语音特征x_t的最终得分s_k为所有中性GMM模型以及情感GMM模型中似然得分的最大值，即

S_k＝max(s_N,k,s_E,k)

例如，某一段待识别语音在第k个说话人模型中，高兴这一情感状态所对应的得分最大，则将高兴对应的得分作为S_k。

选择待识别语句在所有说话人模型中得分最大的值，作为最终的识别结果，如下式所示

$id = \underset{x}{\max >\arg} S_{k}$

式中，id为得分最大的值所对应的说话人模型的序号。

例如，某一段待识别语音在第20个说话人模型中得到的S_k最大，则识别结果为待识别语音是由第20个说话人发出的。

对评测集中，五种情感语音下的所有语句进行测试，测试语音共计15， 000句（50个评测人*5种情感单词*60个语句（20个语句，每个语句重复3 遍））。实验中，模拟的是说话人鉴别的过程，实验结果和基准的 GMM-UBM实验结果比较见表1。

表1

情感分类基准GMM-UBM 径向基神经网络稀疏表达中性 90.87% 95.23% 96.47% 愤怒 41.83% 51.97% 50.27% 高兴 44.80% 53.57% 51.20% 惊慌 39.20% 46.70% 45.57% 悲伤 65.80% 69.60% 67.70% 平均 56.50% 63.41% 62.24%

从表1中可以看出，本发明方法可以有效地合成说话人的情感模型，在各种情感状态下，识别的准确率得到了较大的提高，同时，对于径向基神经网络和稀疏表达，总体的识别准确率也分别提高了6.91%和5.74%，证明本方法对提高情感说话人识别准确性和鲁棒性有很大提高。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于情感GMM模型权重合成的情感说话人识别方法 [P] . 中国专利： CN103456302B . 2016.04.20
2. 一种基于近邻原则合成情感模型的说话人识别方法 [P] . 中国专利： CN102332263B . 2012.11.07
3. Speaker recognition method through emotional model synthesis based on neighbors preserving principle [P] . 美国专利： US9355642B2 . 2016-05-31

机译：基于邻居保留原理的情感模型合成说话人识别方法
4. SPEAKER RECOGNITION METHOD THROUGH EMOTIONAL MODEL SYNTHESIS BASED ON NEIGHBORS PRESERVING PRINCIPLE [P] . 美国专利： US2014236593A1 . 2014-08-21

机译：基于邻域守恒原理的情感模型合成说话人识别方法
5. LSTM Emotional Classification Method in Dialogue using Word-level Emotion Embedding based on Semi-Supervised Learning and LSTM model [P] . KR20210083986A . 2021-07-07

机译：基于半监督学习和LSTM模型的词语级情感嵌入对话的LSTM情感分类方法