首页> 中国专利> 计算机辅助语言学习系统中的发音质量评价方法

计算机辅助语言学习系统中的发音质量评价方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于语音技术领域，计算机辅助语言学习系统中的发音质量评价方法包括：匹配分数的计算、基于美尔(Mel)频标的感知分数的计算、段长分数的计算和基音分数的计算，并将上述分数映射后进行融合；本发明的发音质量评价方法具有稳健性好，与专家评分相关性高的优点，可以用于交互式语言学习和自动口语测试。

著录项

公开/公告号CN101246685A

专利类型发明专利
公开/公告日2008-08-20

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN200810102076.X
发明设计人刘加;
展开▼

申请日2008-03-17
分类号G10L11/00(20060101);G10L19/00(20060101);G09B19/04(20060101);
代理机构
代理人
地址 100084 北京市100084-82信箱
入库时间 2023-12-17 20:36:43

法律信息

法律状态公告日

法律状态信息

法律状态
2018-12-04

专利权的转移 IPC(主分类):G10L11/00 登记生效日:20181114 变更前: 变更后: 申请日:20080317

专利申请权、专利权的转移
2011-03-30

授权

授权
2008-10-15

实质审查的生效

实质审查的生效
2008-08-20

公开

公开

说明书

技术领域

本发明属于语音技术领域，具体地说，涉及利用语音信号处理技术实现计算机辅助语言学习系统中语音发音质量评价的方法。

背景技术

在学习者进行语言学习时，对其发音质量进行可靠的评价是计算机辅助语言学习系统的核心功能。然而由于现有技术的局限，目前的发音质量评价方法的性能还不够理想，距离实用化还有一定的差距。

当前，利用计算机对发音质量进行评价的方法主要是基于隐含马尔可夫模型(HMM)。中国发明专利申请第200510114848.8号公开了一种用于学习机的发音质量评价方法。该方法采用隐含马尔可夫模型训练标准发音模型，并搜索最优路径，以此计算用来评价发音质量的置信分数。这种方法过多依赖于隐含马尔可夫模型的训练，并且在影响发音质量的多个因素中，仅基于与声学模型有关的因素来评价发音质量，因此与专家评分的相关性还不够高，对单词和短句发音机器评分和专家评分的相关性仅为0.74。

在通信系统中也涉及语音质量的评价。ITU-T P.862中公开了一种用于电话信道的语音质量评价方法。首先将参考语音通过电话信道得到测试语音。然后将参考语音和测试语音映射到感知域，精确估计出测试语音相对于参考语音的延时，最后在感知域计算测试语音相对于参考语音的感知差异，并以此来评价测试语音的语音质量。

然而，通信系统中的语音质量评价方法和计算机辅助语言学习系统中的发音质量评价有所不同。首先，在语音通信系统中，影响语音质量的因素一般是电话信道、编解码器引起的各种噪音对语音的损伤以及网络对语音的延时。参考语音和测试语音都是同一个说话人的同一句语音，因此如果不考虑延时，测试语音中的各个音素一般不会有段长的变化。一个人语音发音是否正确对通信系统的语音质量评价过程不会产生影响。而在计算机辅助语言学习系统中，影响发音质量的因素比较复杂。学习者的测试语音的失真是由于发音不准确造成的，和噪声没有多大关系。并且如果将教师的发音作为参考语音，学习者的语音作为测试语音，来考察测试语音相对于参考语音的发音质量。那么参考语音和测试语音来自不同的说话人，导致测试语音和参考语音的长度不同，并且这一语音长度的差异不是延时造成的，因此无法直接对准。其次，不同说话人的声道长度不同，导致测试语音和参考语音中同一音素的共振峰不完全一样。另外，两个说话人语音中的韵律变化也有所不同，其直接表现就是测试语音和参考语音的重音变化。两个人的基音也不相同，对应基音变化过程也有比较大的差异。

计算机辅助语言学习系统应尽可能模仿专家对发音质量评价的过程。通常，专家对发音质量进行评价的过程可以划分为三个步骤。首先，通过耳机或者音箱聆听测试语音。然后，大脑对感知到的语音进行处理，并根据自己的语音学和语言学知识，将参考语音和测试语音进行对比，发现测试语音在各个层次(例如声学层和韵律层)上的发音错误和失真。最后，综合上述各种失真，给出测试语音的总体评价。可见，对发音质量的感知与发音质量评价的结果密切相关。而现有技术未能在韵律层次上对发音质量进行评价，并且缺乏对发音质量的感知失真方面的研究。

本发明针对现有技术中存在的问题，提出一种计算机辅助语言学习系统中的发音质量评价方法。该方法以教师的发音作为参考语音，分别在声学、感知和韵律方面计算学习者的测试语音相对于参考语音的发音质量差别，得到匹配分数、感知分数、段长分数和基音分数，并对所述四种分数进行融合，得到测试语音的最终分数。根据本发明针对单词和短句的发音质量评价分数与专家评分的相关系数达到0.800，性能优于基于现有技术的方法。

发明内容

目前基于隐含马尔可夫模型的发音质量评价方法获得机器评价分数与专家评分的相关性还不够高，不能够满足目前计算机辅助语言学习系统中对发音质量评价要求。本发明的目的是克服现有技术的不足，提出一种用于计算机辅助语言学习系统中的发音质量评价方法。本发明中提出利用教师的参考语音和学生的测试语音分别从声学、感知和韵律方面计算匹配分数、感知分数、段长分数、基音分数，并将所述这些分数映射后进行融合来对发音质量进行评分的方法，针对单词和短句子的机器发音质量评分与专家主观质量评分的相关性能够达到0.800。

本发明提出的计算机辅助语言学习系统中的发音质量评价方法主要包括：计算匹配分数，计算基于Mel频标的感知分数，计算基音分数，计算段长分数；对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射，并将映射后的各分数进行融合。该方法充分利用语音发音中多种发音信息来获得可靠融合分数，从而对学生的语音发音质量进行评价(打分)。其特征在于，各部分具体包括以下几个步骤：

1、所述匹配分数、所述基于Mel频标的感知分数、所述基音分数、所述段长分数的计算方法，具体步骤如下：

(A)所述匹配分数的计算包括：(1)利用Viterbi解码算法分别对测试语音和参考语音进行强制对准，得到参考语音和测试语音的音素的时间分隔信息和似然度；(2)根据测试语音和标准语音的似然度之差的绝对值得到匹配分数。

(B)所述感知分数的计算包括：(1)对测试语音和参考语音施加Mel滤波器；(2)基于幂定律，将参考语音和测试语音的Mel滤波器的能量输出映射为响度；(3)基于所述音素时间分隔信息，通过动态时间规整(Dynamic Time Warping，DTW)方法将参考语音和测试语音在音素层面上进行进一步的逐帧细化对准；(4)基于参考语音和测试语音各帧的响度差计算感知分数。

(C)所述段长分数的计算包括：(1)基于所述时间分隔信息，利用段长模型计算测试语音和标准语音中的对数段长概率；(2)根据测试语音的段长概率与标准语音的段长概率绝对值之差得到段长分数。

(D)所述基音分数的计算包括：(1)分别提取参考语音和测试语音的基音；(2)基于所述时间分隔信息，分别得到参考语音和测试语音中每个元音内基音的极大值和极小值，并计算每个元音内的极大值和极小值之差；(3)基于参考语音和测试语音中每个元音内极大值和极小值之差。

2、所述的分数映射计算包括：基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射，使映射后分数和专家评分处于相同取值区间内。

3、所述的分数融合计算包括：线性融合、支持矢量机(SVM)、Logistic回归(LogisticRegression)、神经网络、高斯混合模型中的一个对映射后的所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行融合，通过多种信息的互补，使融合后分数更接近专家评价的分数。

所述的Viterbi解码算法利用了从大规模语音数据库训练的基于隐含马尔可夫模型(HMM)对测试语音和标准语音进行强制对准，得到的参考语音和测试语音的时间分隔信息可以是音素的时间分隔信息、状态的时间分隔、单词的时间分隔信息。音素的时间分隔信息只是其中的一个。HMM模型的训练方法是根据最大似然准则，对HMM模型参数(包均值与方差)进行估值。

所述的段长模型是通过大规模语音数据库训练得到段长的直方图模型或Gamma模型。

所述的逐帧细化对准是在基于匹配分数计算过程中得到的每个音素的时间分隔信息基础上，进一步利用动态时间规整(Dynamic Time Warping，DTW)方法将参考语音和测试语音的在音素层面上进行逐帧细化对准，使对准的语音在帧上有较好可比性。

本发明提出计算机辅助语言学习系统中的发音质量评价方法在对学习者的发音质量进行评价时，性能优于现有技术的水平。本发明的发音质量评价方法具有稳健性好，与专家评分相关性高的优点，可以用于语言学习机中实现交互式语言学习发音质量评价和自动口语测试系统中。

本发明具有如下优点：

(1)本发明充分利用了教师参考语音和学生测试语音发音差别特点进行评价；

(2)本发明提出的基于Mel频标的感知分数计算复杂度低于基于临界带的感知分数计算方法，而且性能更好；

(3)本发明充分利用了发音中的多种评价信息，匹配信息、感知信息、段长信息、基音信息，并进行了信息融合，在不同分数将各种发音信息进行互补，提高了评价的稳健性，以及与专家评分的相关性；

(4)本发明的基于计算机辅助语言学习系统中的发音评价方法也能够应用于多种语言的学习，具有稳健性好，与专家评分相关性高的特点，并且本发明可以在目前的掌上电脑、个人数字助理(PDA)或学习机上实现，其应用范围非常广泛。

附图说明

图1是发音质量评价方法的总体示意图；

图2是匹配分数的计算示意图；

图3是HMM模型拓扑结构；

图4是感知分数的计算示意图；

图5是段长模型的计算示意图；

图6是基音分数的计算示意图；

图7机器分数融合示意图。

具体实施方式

以下结合附图对本发明提出的用于计算机辅助语言学习的发音质量评价方法的实施例进行详细说明。图1是根据本发明的发音质量评价方法的总体流程图。(1)首先参考语音和测试语音分别经声学模型、感知模型、段长模型和基音模型计算出匹配分数、感知分数、段长分数和基音分数。(2)将这些分别描述声学、感知和韵律等方面的发音质量的分数进行分数融合。(3)用融合后的分数对测试语音的发音质量进行评价。

参考语音是指作为发音质量评价的基准的教师的标准发音，测试语音是指作为发音质量的评价对象的学习者的语音。因此，在本发明的发音质量评价方法中，需要计算测试语音相对于参考语音的发音在质量上的差别。本发明实施例的整个计算过程细节构成如下：

1、匹配分数计算：

图2是匹配分数的示意图。首先分别对参考语音和测试语音进行分帧处理，得到短时平稳的分帧语音。然后对每帧语音提取美尔频标倒谱系数(MFCC)特征。其中，对每帧语音所提取的MFCC特征包括39维，即：12维MFCC系数及其一阶差分和二阶差分，归一化能量及其一阶差分和二阶差分。MFCC特征反映了语音的静态特征，而MFCC的一阶和二阶差分系数则反映了语音的动态特征。然后利用训练好的隐含马尔可夫模型(HMM)，采用Viterbi解码算法分别对参考语音和测试语音进行强制对准，得到参考语音和测试语音的似然分数和每个音素的时间分隔信息。这里，HMM的训练过程对于本领域技术人员来说属于公知技术，因此这里只对其作简要的说明。HMM采用从左到右的状态转移模型，该模型能够很好地描述语音的发音特点。例如可用采用3状态隐含马尔可夫模型，其拓扑结构如图3所示。其中q_i表示HMM的状态，a_ij表示HMM的跳转概率，b_j(O_t)为HMM模型的状态输出的多流混合高斯密度概率分布函数，如公式(1)所示：

$b_{j} (O_{t}) = Π_{s = 1}^{S} {[Σ_{m = 1}^{M_{S}} C_{jsm} N (O_{st}; μ_{jsm}; φ_{jsm})]}^{γ_{s}} - - - (1)$

其中，S是数据流的个数，M_s是每一数据流中的混合高斯密度分布的个数，N为高维高斯分布，如公式(2)所示：

$N (o; μ; φ) = \frac{1}{\sqrt{{(2 π)}^{n} | φ |}} e^{- \frac{1}{2} (o - μ) φ^{- 1} (o - μ)} - - - (2)$

测试语音和参考语音是由多个音素构成。分别对参考语音和测试语音进行强制对准后，第i个音素的匹配分数L(i)由下式给出：

L(i)＝|log(p_text(O_test|q_i))-log(p_ref(O_ref|q_i))| (3)

其中，p_test(O_test|q_i)是测试语音的似然度，p_ref(O_ref|q_i)是参考语音的似然度。其中，q_i表示第i个音素HMM模型，O_test和O_ref分别是测试语音和参考语音的MFCC特征矢量。

匹配分数定义为音素平均匹配分数：

$S_{mat_sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} L (i) - - - (4)$

其中，N_p为语音发音中音素总个数，L(i)为第i个音素的匹配分数。

2、感知分数计算：

图4是感知分数的计算示意图。首先分别对参考语音和测试语音分帧并加Hanning窗。然后将每一帧语音经过在Mel频标上均匀分布的三角窗滤波器，得到每个三角窗滤波器输出的能量和的对数值M(q)：

$M (q) = \ln [Σ_{n = F_{q - 1}}^{F_{q}} \frac{n - F_{q - 1}}{F_{q} - F_{q - 1}} G (n) + Σ_{n = F_{q}}^{F_{q + 1}} \frac{F_{q + 1} - n}{F_{q + 1} - F_{q}} G (n)], - - - (5)$

q＝1，2，3…，Q

其中，F_q是第q个三角窗滤波器的中心频率，F_q+1和F_q-1分别为第q个三角窗滤波器的上、下截止频率，G(n)为三角窗函数，Q为三角窗滤波器的个数。通常Q＝20～26。

根据心理学中的幂定律，将每个三角窗滤波器输出的对数能量可以映射到响度域上，计算如下式所示：

L(q)＝0.048M(q)^0.6 (6)

其中，M(q)是第q个滤波器输出的对数能量，L(q)是M(q)映射到感知域的响度。

在基于所述匹配分数计算过程中得到的每个音素的时间分隔对准信息基础上，进一步利用动态时间规整(Dynamic Time Warping，DTW)方法将参考语音和测试语音的在音素层面上进一步逐帧细化对准。这里，DTW方法对于本领域技术人员来说属于公知技术，因此略去对其的说明。

利用DTW算法对参考语音和测试语音每帧进行对准后，就可以计算在每个三角窗输出的响度差D(q)：

D(q)＝L_test(q)-L_ref(q)i＝1，2，3，…，Q (7)

其中，L_test(q)和L_ref(q)分别表示测试语音和参考语音在第q个三角窗滤波器上输出的响度。

求出每个三角窗滤波器输出的响度差后，需要进一步计算整个Mel频带上的总响度差，也就是要计算每帧语音的响度差。一帧语音的响度可以通过对整个Mel频带上所有三角窗输出的响度差进行加权求和得到。参考语音和测试语音的第j帧语音的响度差p_frame(j)为：

$p_{frame} (j) = Σ_{q = 1}^{Q} W (q) \sqrt{\frac{Σ_{i = 1}^{Q} {(D (q) W (q))}^{2}}{Σ_{i = 1}^{Q} W (q)}} - - - (8)$

其中，D(q)为参考语音和测试语音在第q个临界带内的响度差，W(q)为第q个三角滤波器的带宽。

音素的感知分数定义为参考语音和测试语音的帧平均响度差：

$p_{phone} (i) \sqrt[6]{\frac{Σ_{j = 1}^{N} {[p_{frame} (j)]}^{6}}{N}} - - - (9)$

其中，N为参考语音和测试语音中较长语音对应音素的帧数，p_frame(j)为第j帧的响度差。因此，整个语音发音的感知分数p_{p_sen}为发音中所有音素响度差的平均值：

$p_{p_sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} p_{phone} (i) - - - (10)$

其中，N_p为整个语音发音中音素总个数。

3、段长分数计算：

图5是段长分数的计算示意图。基于匹配分数计算中得到的每个音素的时间分隔信息，并利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数。计算段长概率分数时所采用的段长模型可以是直方图模型或者Gamma模型。对于本领域技术人员来说，这属于公知技术。因此，略去对其的详细说明。

音素的段长分数d_phone定义为测试语音和参考语音段长概率分数的对数差：

d_phone＝|LogD_test-LogD_ref| (11)

其中D_test为测试语音的相应音素的段长概率分数，D_ref为参考语音相应音素的段长概率分数。

整个语音发音的段长分数d_sen定义为所有音素段长分数的平均值：

$d_{sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} d_{phone} (i) - - - (12)$

4、基音分数计算：

图6是基音分数的计算示意图。首先，分别提取参考语音和测试语音的基音。现有技术中已有多种基音提取方法。综合考虑算法复杂度、鲁棒性、基音估计的准确性等因素，本文采用基于线性预测编码的LPC分析的自相关估计算法。然后结合匹配分数计算中得到的每个音素的时间分隔信息，分别计算参考语音和测试语音中每个元音内的基音极大值和极小值之差，即元音内的基音极值差定义为：

S_vow(i)＝P_max(i)-P_min(i) (13)

其中P_max(i)和P_min(i)分别表示第i个元音内的基音的极大值和极小值。

基音分数R_{vow_max_min}定义为：

$R_{vow_\max_\min} = \frac{1}{N_{v}} Σ_{i = 1}^{N_{v}} {| S_{vow}^{test} (i) - S_{vow}^{ref} (i) |}^{2} - - - (14)$

其中N_v为句子中的元音总数，S_vow^test(i)为测试语音中第i个元音内的基音极值差，S_vow^ref(i)为参考语音中第i个元音内的基音极值差。

5、分数映射和分数融合：

图7是分数映射和融合计算示意图。图中先对机器分数进行映射，然后采用线性加权或者SVM对映射后的机器分数进行融合，得到最终的客观分数。

(1)机器分数的映射方法：在分别计算出匹配分数、感知分数、段长分数和基音分数之后，需要将这四个分数首先进行分数映射。不同方法得出的机器分数的取值区间通常并不相同。因此需要利用映射函数将机器分数映射到与专家评分相一致的对应区间内。可以基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射。最简单有效的映射方法可以采用三次多项式函数进行映射。映射中优化准则为最小均方误差准则，通过映射函数将机器分数映射到专家评分取值区间。

y＝a₁x³+a₂x²+a₃x+a₄ (15)

其中，x为原始机器分数，y为映射后的机器分数，a₁，a₂，a₃和a₄为多项式系数。

(2)分数融合的方法：现有信号技术中存在多种信息融合处理方法，例如可以采用线性函数、神经网络、高斯混合模型、支持向量机、Logistic回归，以及其他适于对多种不同分数进行融合的方法。本发明主要采用线性函数和支持向量机对上述匹配分数、感知分数、段长分数和基音分数进行融合。

如果机器分数和专家评分都可以看作联合分布的高斯随机变量，或者二者之间存在线性关系，那么融合后的分数可以表示为机器分数的线性组合：

其中，s₁，s₂，…，s_n表示各个机器分数，a₁，a₂，…，a_n为组合系数。这些组合系数可以由开发集数据根据最小均方误差准则确定。

SVM的融合方法有通用的软件工具可以使用，基于SVM的融合在性能上由于线性融合的方法。对于本领域技术人员来说SVM融合方法属于公知技术，因此略去对其的说明。

在发音质量的评价中，通常用计算机对发音质量进行自动评价而得到的分数(通常称为机器分数)与专家对同一发音的评价分数之间的相关系数来表示发音质量评价方法的性能，如式(17)所示。通常，相关系数越高，说明机器分数越接近专家的分数，从而性能越好。

$C_{corr} = \frac{Σ (x_{i} - \overline{x}) (y_{i} - \overline{y})}{\sqrt{Σ {(x_{i} - \overline{x})}^{2} Σ {(y_{i} - \overline{y})}^{2}}} - - - (17)$

其中x_i和y_i分别是第i个单词或语句的机器评价分数和相应专家评价分数，和分别是所有测试语音的机器评价分数的均值和专家评价评分的均值。

该评价过程需要采集有一定规模的评价语音库，首先请专家对库中语音进行主观评价，然后用机器进行评价。通过公式(7)进行计算机器评价和专家评价之间的相关度。本发明针对单词和短句的发音质量机器评价分数与专家评分的相关系数达到0.800，其性能优于基于HMM的传统评价方法。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 计算机辅助语言学习系统中的发音质量评价方法 [P] . 中国专利： CN101246685B . 2011.03.30
2. 计算机辅助语言学习系统中的发音质量评价方法 [P] . 中国专利： CN101246685A . 2008-08-20
3. LANGUAGE LEARNING METHOD AND COMPUTER ASSISTED LANGUAGE LEARNING SYSTEM UTILISING SOUND ALIKE WORDS IN ANOTHER LANGUAGE. [P] . MY127922A . 2006-12-29

机译：语言学习方法和计算机辅助语言学习系统，使用另一种语言中的发音单词。
4. Automatic cognate detection in a computer-assisted language learning system [P] . 美国专利： US9665562B1 . 2017-05-30

机译：计算机辅助语言学习系统中的自动同源检测
5. Automatic cognate detection in a computer-assisted language learning system [P] . 美国专利： US9400781B1 . 2016-07-26

机译：计算机辅助语言学习系统中的自动同源检测