首页> 中国专利> 标准模式适应装置、标准模式适应方法和标准模式适应程序

标准模式适应装置、标准模式适应方法和标准模式适应程序

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供一种即使在标准模式的识别性能低的情况下，也能够充分地利用输入声音数据信息来进行适应的方法、装置。标准模式适应装置(2)，具有：使用输入声音数据和标准模式来计算出识别结果教师标签的声音识别部(18)；和计算出适应数据的适应数据算出部(19)，该适应数据由通过标准模式的识别错误倾向的统计信息即识别错误知识对输入声音数据和识别结果教师标签按照适应用进行修正后的教师标签和声音数据形成；和使用适应数据来使得标准模式适应并生成适应模式的标准模式适应部(20)。

著录项

公开/公告号CN101390156A

专利类型发明专利
公开/公告日2009-03-18

原文格式PDF
申请/专利权人日本电气株式会社;
展开▼

申请/专利号CN200780006994.6
发明设计人大西祥史;
展开▼

申请日2007-02-16
分类号G10L15/06;
代理机构中科专利商标代理有限责任公司;
代理人李香兰
地址日本东京都
入库时间 2023-12-17 21:36:28

法律信息

法律状态公告日

法律状态信息

法律状态
2015-04-01

未缴年费专利权终止 IPC(主分类):G10L15/06 授权公告日:20111207 终止日期:20140216 申请日:20070216

专利权的终止
2011-12-07

授权

授权
2009-05-13

实质审查的生效

实质审查的生效
2009-03-18

公开

公开

说明书

技术领域

本发明涉及使得声音识别标准模式与讲话者或环境相适应的标准模式适应技术，特别地，涉及对无教师适应有用的数据生成方法和使用该更新数据的标准模式适应方法等。

背景技术

现有声音识别标准模式适应方法的一个例子在专利文献1中记载。如图6所示，该现有声音识别标准模式适应装置200由声音特征量输入部201、标准模式存储部202、声音识别单元203、可信度计算单元204、带可信度标准模式适应单元205和适应模式存储部206构成。

具有这样构成的声音识别标准模式适应装置200以下面的方式工作。即，从声音特征量输入部201输入在适应中使用的声音的特征量列，在声音识别单元203中使用标准模式存储部202中存储的标准模式来对该特征量列进行声音识别并将识别结果输出。在可信度计算单元204中计算将该识别结果作为所输入的特征量列的教师标签时的可信度。

在带可信度标准模式适应单元205中，使用上述特征量列和教师标签以及可信度并按照可信度给予权重，使得标准模式与输入特征量列相适应。

对于带可信度标准模式适应单元205进行说明。

将标准模式设为现在的声音识别中广泛使用的隐马尔可夫模型(Hidden Markov Model，以下称为“HMM”)，且作为HMM的参数来使得高斯分布的平均矢量适应的情况中，使用时刻t＝1、2、...、T的输入特征量列

[公式1]

O＝[o(1)，o(2)，...，o(T)]

和作为在可信度计算单元204中所得到的教师标签成为最似然(maximum likelihood)的高斯分布序列

[公式2]

L＝[l(1)，l(2)，...，l(T)]

以及可信度

[公式3]

S＝[s(1)，s(2)，...，s(T)]

对于时刻t中的标签q＝l(t)，通过使用了公式4的可信度的加权来计算被修正的适应数据。

[公式4]

$o' (t, q) = \frac{s (t)}{τ + s (t)} o (t) + \frac{τ}{τ + s (t)} μ (q), q = 1 (t)$

这里μ(q)是标签q中的高斯分布平均矢量，τ是具有0以上的值的控制常数。

通过使用该被修正的适应数据并使得标准模式适应，能够减小可信度低的声音数据的影响，并且能够计算使得教师标签的错误即识别结果错误的影响减小的适应模式。

作为正确教师标签的产生方法的例子，维特比算法(Viterbi Algorithm)在非专利文献1中有记载。

作为标准模式适应方法的例子，MAP适应，MLLR(MaximumLikelihood Linear Regression)适应，AMCC(Autonomous Model ComplexityControl)，EigenVoice适应在非专利文献2中有记载。并且，HEV(Hierarchical EigenVoice)适应在非专利文献3中有记载。

专利文献1：日本特许第3589044号公报

非专利文献1：Rabiner，B-H.Juang著、音声認識の基礎、NTTアドバンステクノロジ株式会社、1995年

非专利文献2：篠田浩一、「確率モデルによゐ音声認識のための話者適応化技術」、電子通信情報学会誌、2004年、Vol.J84-D、No.2、pp371-386

非专利文献3：Y.Onishi and K.Iso，“Speaker adaptation by hierarchicaleigenvoice”Proc.ICASSP-2003，pp.I-576-579，2003年

上述各文献的公开项目具有引用并编入本说明书被记载。

现有声音识别标准模式适应方法的第1个问题点，是在标准模式适应中不能充分利用输入声音特征量的信息。其理由是，只有可信度高的声音数据对适应产生影响，不利用可信度低的声音数据的信息，只利用所输入的信息的一部分来进行适应。

现有声音识别标准模式适应方法的第2个问题点是，原来的标准模式的识别性能低的时候适应性能变低。其理由是，由于识别性能低的时候可信度变低，因此标准模式没有充分被适应，性能保持较低。

发明内容

本发明的目的是，提供一种即使在原来的标准模式的识别性能低的情况下，也能够充分利用输入声音数据信息来进行适应的方法等。

本发明提供如下述所示的解决手段。

本发明的模式适应方法，具有：使用输入声音数据和标准模式来计算出识别结果教师标签的声音识别工序；计算出适应数据的适应数据算出工序，该适应数据由通过标准模式的识别错误倾向的统计信息即识别错误知识对输入声音数据和识别结果教师标签按照适应用进行修正后的教师标签和声音数据形成；和使用适应数据来使得标准模式适应并生成适应模式的标准模式适应工序(权利要求1至权利要求4)。

根据上述模式适应方法，适应数据算出工序中，计算出使用输入声音数据的识别结果的识别错误知识修正后的适应数据，并在标准模式适应工序中，使用该数据进行标准模式的适应。因此，输入声音数据的识别结果出错的部分，也能够采用识别错误知识来修正并有效地在适应中使用，充分利用所输入的声音数据的信息，而且即使在识别精度低的地方也能够进行标准模式的有效的适应。

上述标准模式适应方法中，在适应数据算出工序之前，也可以具有：对声音数据进行声音识别并计算出识别结果标签的提取侧声音识别工序；和对由不含错误的教师标签形成的正确教师标签和识别结果标签进行统计分析，并计算出识别错误知识的识别错误知识算出工序(权利要求2)。如果这样，能够利用正确教师标签和声音识别结果来提取识别错误知识。

上述标准模式适应方法中，具有将输入声音数据和识别结果教师标签分类成类群的聚类工序，并且在适应数据算出工序中，也可以使用所分类成类群的输入声音数据和识别结果教师标签，通过每类群的识别错误知识计算出适应数据(权利要求3)。如果这样，能够按每类群详细地提取识别错误知识，且与没有进行聚类的情况相比，能够进行有效的标准模式适应。

上述标准模式适应方法中，在适应数据算出工序之前，也可以具有：对声音数据进行声音识别并计算出识别结果标签的提取侧声音识别工序；和将声音数据和识别结果标签分类成类群的提取侧聚类工序；和按识别结果标签的每类群，对由不含有错误的教师标签形成的正确教师标签和识别结果教师标签进行统计分析，并计算出标准模式的识别错误倾向的统计信息即识别错误知识的识别错误知识提取工序(权利要求4)。如果这样，能够利用正确教师标签和声音识别结果来提取每类群的识别错误知识。

本发明的模式适应程序，在计算机中使得下述功能被执行：使用输入声音数据和标准模式来计算出识别结果教师标签的声音识别功能；和计算出适应数据的适应数据算出功能，该适应数据由通过标准模式的识别错误倾向的统计信息即识别错误知识对输入声音数据和识别结果教师标签按照适应用进行修正后的教师标签和声音数据形成；和使用适应数据来使得标准模式适应并生成适应模式的标准模式适应功能(权利要求5至权利要求8)。

根据上述模式适应程序，适应数据算出功能中，计算出使用输入声音数据的识别结果的识别错误知识修正后的适应数据，并在标准模式适应功能中，使用该数据进行标准模式的适应。因此，输入声音数据的识别结果出错的部分，也能够采用识别错误知识来修正并有效地在适应中使用，充分利用所输入的声音数据的信息，而且即使在识别精度低的地方也能够进行标准模式的有效的适应。

上述标准模式适应程序中，在适应数据算出功能之前，在计算机中也可以使得下述功能被执行：对声音数据进行声音识别并计算出识别结果标签的提取侧声音识别功能；和对由不含错误的教师标签形成的正确教师标签和识别结果标签进行统计分析，并计算出识别错误知识的识别错误知识算出功能(权利要求6)。如果这样，能够利用正确教师标签和声音识别结果来提取识别错误知识。

上述标准模式适应程序中，在计算机中使得将输入声音数据和识别结果教师标签分类成类群的聚类功能被执行，并且适应数据算出功能也可以使用所分类成类群的输入声音数据和识别结果教师标签通过每类群的识别错误知识计算出适应数据(权利要求7)。如果这样，能够按每类群详细地提取识别错误知识，且与没有进行聚类的情况相比，能够进行有效的标准模式适应。

上述标准模式适应程序中，在适应数据算出功能之前，在计算机中也可以使得下述功能被执行：对声音数据进行声音识别并计算出识别结果标签的提取侧声音识别功能；和将声音数据和识别结果标签分类成类群的提取侧聚类功能；和按识别结果标签的每类群，对由不含有错误的教师标签形成的正确教师标签和识别结果教师标签进行统计分析，并计算出标准模式的识别错误倾向的统计信息即识别错误知识的识别错误知识提取功能(权利要求8)。如果这样，能够利用正确教师标签和声音识别结果来提取每类群的识别错误知识。

本发明的模式适应装置，具有：使用输入声音数据和标准模式来计算出识别结果教师标签的声音识别部；和计算出适应数据的适应数据算出部，该适应数据由通过标准模式的识别错误倾向的统计信息即识别错误知识对输入声音数据和识别结果教师标签按照适应用进行修正后的教师标签和声音数据形成；和使用适应数据来使得标准模式适应并生成适应模式的标准模式适应部(权利要求9至权利要求12)。

根据上述模式适应装置，适应数据算出部中，使用输入声音数据的识别结果的识别错误知识来计算出修正后的适应数据，并且标准模式适应部使用该数据进行标准模式的适应。因此，输入声音数据的识别结果出错的部分，也能够采用识别错误知识来修正并有效地在适应中使用，充分利用所输入的声音数据的信息，而且即使在识别精度低的地方也能够进行标准模式的有效的适应。

上述标准模式适应装置中，也可以具有：对声音数据进行声音识别并算出识别结果标签的提取侧声音识别部；和对由不含错误的教师标签形成的正确教师标签和识别结果标签进行统计分析，并计算出识别错误知识的识别错误知识算出部(权利要求10)。如果这样，能够利用正确教师标签和声音识别结果来提取识别错误知识。

上述标准模式适应方法中，具有将输入声音数据和识别结果教师标签分类成类群的聚类部，并且适应数据算出部也可以使用所分类成类群的输入声音数据和识别结果教师标签通过每类群的识别错误知识计算出适应数据(权利要求11)。如果这样，能够按每类群详细地提取识别错误知识，且与没有进行聚类的情况相比，能够进行有效的标准模式适应。

上述标准模式适应装置中，也可以具有：对声音数据进行声音识别并计算出识别结果标签的提取侧声音识别部；和将声音数据和识别结果标签分类成类群的提取侧聚类部；和按识别结果标签的每类群，对由不含有错误的教师标签形成的正确教师标签和识别结果教师标签进行统计分析，并计算出标准模式的识别错误倾向的统计信息即识别错误知识的识别错误知识提取部(权利要求12)。如果这样，能够利用正确教师标签和声音识别结果来提取每类群的识别错误知识。

本发明取得下述的效果。

根据本发明，计算出使用输入声音数据的识别结果的识别错误知识修正后的适应数据，并使用该数据进行标准模式的适应。因此，输入声音数据的识别结果出错的部分，也能够采用识别错误知识来修正并有效地在适应中使用，充分利用所输入的声音数据的信息，而且即使在识别精度低的地方也能够进行标准模式的有效的适应。

附图说明

图1是本发明第1实施方式的标准模式适应系统的构成图。

图2(a)是示意图1的识别错误知识提取装置的工作的流程图。

图2(b)是示意图1的标准模式适应装置的工作的流程图。

图3是本发明的第2实施方式的标准模式适应系统的构成图。

图4是图3的提取侧聚类部的构成的一个例子的示意图。

图5(a)是示意图3的识别错误知识提取装置的工作的流程图。

图5(b)是示意图3的标准模式适应装置的工作的流程图。

图6是现有的发明的标准模式适应装置的构成图。

符号的说明

1、4 识别错误知识提取装置

2、5 标准模式适应装置

3、6 标准模式适应系统

11 教师标签存储部

12 声音数据存储部

13 提取侧声音识别单元

14、23 识别错误知识提取单元

15 标准模式存储部

16 识别错误知识存储部

17 声音数据输入部

18 声音识别单元

19、25 适应数据算出单元

20 标准模式适应单元

21 适应模式存储部

22 提取侧聚类部

24 聚类部

26 类似讲话者模型存储部

27 类群标签算出单元

具体实施方式

以下，参照附图对于本发明第1实施方式即标准模式适应系统3的构成和工作进行说明。图1是标准模式适应系统3(标准模式适应装置的一个例子)的框图。标准模式适应系统3由识别错误知识提取装置1和标准模式适应装置2构成。

识别错误知识提取装置1是例如个人电脑，包含有：教师标签存储部11、声音数据存储部12、提取侧声音识别单元13、识别错误知识提取单元14、标准模式存储部15和识别错误知识存储部16。上述各单元，通过使得标准模式适应程序在识别错误知识提取装置1的CPU(CentralProcessing Unit)中被执行，来控制识别错误知识提取装置1的硬件来实现。

标准模式存储部15是例如硬盘装置或存储器等，存储预先所学习的音响模型即标准模式。标准模式是例如在声音识别中被普遍使用的HMM，该模型单位是三音素(triphone)或单音素(monophone)等。

声音数据存储部12是例如硬盘装置或存储器等，存储多数的发声声音的特征量数据。作为发声声音，使用在学习标准模式时所使用的声音数据，或者也作为准备用于使用该标准模式来进行声音识别的对象的开发用声音数据等。特征量对例如在声音识别中被普遍使用的声音波形数据进行倒谱(cepstrum)分析。声音数据以时间顺序排列用公式1表示。

教师标签存储部11是例如硬盘装置或存储器等，存储与上述声音数据存储部12中所存储的声音数据相对应的正确教师标签。作为标准模式来使用HMM的情况，正确教师标签为，与声音数据存储部12中所存储的声音数据相对应的正确HMM的序列，各时刻的模型单位序列或者构成HMM的状态序列，再或者构成HMM的高斯分布列等。该正确教师标签是，对于声音数据，例如通过维特比算法选择成为最似然(maximumlikelihood)的序列并与时刻建立对应。维特比算法在非专利文献1中被详细记述。教师标签以时间顺序排列用公式2表示。

提取侧声音识别单元13(提取侧声音识别部的一个例子)，对于声音数据存储部12中所存储的数据使用标准模式存储部15中所存储的标准模式来进行声音识别，并输出该结果。

识别错误知识提取单元14(识别错误知识算出部的一个例子)，对于声音数据存储部12中所存储的数据，使用教师标签存储部11中所存储的正确教师标签和由提取侧声音识别单元13所取得的识别结果即含有错误的识别结果标签来进行统计分析，并提取识别错误倾向的知识，存储在识别错误知识存储部16中。

识别错误知识存储部16是例如硬盘装置或存储器等。

根据声音识别结果所计算出的含有错误的识别结果标签以时间顺序排列用公式5来表示。

[公式5]

L′＝[1′(1)，1′(2)，...，1′(T)]

这里，作为标签选择了识别结果的一位序列的情况l’(t)，在时刻t其教师标签为q时，表示为q＝l’(t)。

并且，或者使用到识别结果的M位候补为止的情况下，设时刻t的第i位候补的教师标签为qi等，用公式6来表示。

[公式6]

[q1，q2，...，qM]t＝1′(t)

这里上标字母t表示转置(以下同样地表示)。

识别错误知识提取单元14，作为统计信息，例如，通过公式7，计算取得识别结果标签x时的正确教师标签y的出现的条件概率。

[公式7]

$P (y | x) = \frac{Σ_{t} δ (y, l (t))}{Σ_{t} δ (x, l' (t))}$

这里，如果时刻t的标签l(t)为y则δ(y，l(t))表示1，否则δ(y，l(t))表示0。

使用到识别结果的M位候补为止的情况为x，采用公式8来表示。

[公式8]

x＝[x1，x2，...，xM]t

按照这样，事先提取识别错误知识并存储，从而能够事先提取出采用相应的标准模式的声音识别结果的错误倾向。

标准模式适应装置2是例如个人电脑，包含有：标准模式存储部15、识别错误知识存储部16、声音数据输入部17、声音识别单元18、适应数据算出单元18、标准模式适应单元20和适应模式存储部21。

标准模式存储部15和识别错误知识存储部16是例如硬盘装置和存储器等，事先存储与上述识别错误知识提取装置1中的相同的数据。但是，不必是与识别错误知识提取装置相同的装置。

声音数据输入部17中，例如，从自身的计算机或者通过网络从其它的计算机接收进行过特征分析的声音数据，由此，输入在适应中被用的声音的特征量列(输入声音数据)。特征量与上述识别错误知识提取装置1中的相同，且所输入的声音数据采用公式1表示。

声音识别单元18中，对于声音数据输入部17中所输入的声音数据，使用标准模式存储部15中所存储的标准模式来进行声音识别，并将声音识别结果(识别结果教师标签)输出。

适应数据算出单元19中，使用声音数据输入部17中所输入的声音数据，声音识别单元18中所输出的识别结果即含有错误的标签，和识别错误知识存储部16中所存储的、识别错误知识提取装置1中所提取的识别错误知识来计算出考虑了声音识别错误的适应数据。

例如，使用公式1的声音数据、公式5的识别结果标签和公式7的识别错误知识按照下面的公式9和公式10来计算出适应数据。

[公式9]

u(y)＝∑_tP(y|l′(t))o(t)

[公式10]

n(y)＝∑_tP(y|l′(t))

u(y)为标签y的在适应中被用的累计适应数据，n(y)为该数据总数。即，能够得到通过预先提取的识别错误知识对输入声音数据和声音识别结果进行了修正的适应数据。

并且，例如使用在标签y的适应中用的修正后的协方差矩阵的情况下，能够使用公式11。

[公式11]

$c (y) = \frac{1}{n (y)} Σ_{t} (P (y | l' (t)) o (t) - m (y)) {(P (y | l' (t)) o (t) - m (y))}^{t}$

这里，m(y)是u(y)的平均值，采用公式12来表示。

[公式12]

$m (y) = \frac{u (y)}{n (y)}$

标准模式适应单元20(标准模式适应部的一个例子)中，使用根据适应数据算出单元19中所得到的识别错误知识所修正的适应用数据，来使得标准模式存储部15中所存储的标准模式适应，且在适应模式存储部21中存储。

适应模式存储部21是例如硬盘装置或存储器等。标准模式的适应方法，例如，作为教师标签使用高斯分布序列，使得该平均矢量进行后验概率最大化(以下，称为“MAP”)适应的情况，采用公式13使得标签y的高斯分布平均矢量适应。

[公式13]

$μ' (y) = \frac{n (y)}{τ + n (y)} u (y) + \frac{τ}{τ + n (y)} μ (y)$

这里τ为具有0以上的值的控制常数。

下面，对于标准模式适应系统3的工作进行说明。

图2(a)为示意识别错误知识提取装置1的工作的流程图。提取侧声音识别单元13对于声音数据存储部12中所存储的数据使用标准模式存储部15中所存储的标准模式来进行声音识别(S101)。

识别错误知识提取单元14使用教师标签存储部11中所存储的正确教师标签和根据S101所得到的识别结果来提取识别错误知识，并在识别错误知识存储部16中存储(S102)。

图2(b)是表示标准模式适应装置2的工作的流程图。通过声音数据输入部17输入在适应中使用的声音的特征量(S111)。

声音识别单元18对于该输入数据使用标准模式存储部15中所存储的标准模式来进行声音识别，并将识别结果向适应数据算出单元19输出(S112)。

适应数据算出单元19，使用根据S111所输入的声音数据、根据S112所得到的识别结果和根据S102所得到的识别错误知识来计算出修正了声音识别错误的适应数据(S113)。

标准模式适应单元20使用根据S113所得到的适应数据来使得标准模式适应，并将适应模式存储在适应模式存储部12中(S114)。

由于通过适应数据算出单元19所计算出的适应数据为使用输入声音数据的声音识别结果和预先所提取的声音识别错误知识进行过修正的适应数据，因此如果用该数据进行标准模式的适应，则不仅能够根据识别错误知识对识别结果为正确的数据进行修正并使用，而且能够根据识别错误知识对识别结果为错误的数据进行修正并使用，因此能够充分地利用输入声音数据的信息，且在原来的标准模式的识别性能低的时候也能够通过利用错误知识有效地进行标准模式的适应。

并且本发明中，在适应数据算出单元19中，由于被修正过的适应数据采用对各标签的适应数据这种形式计算出来，因此对标准模式适应技术的限制小，不只能够使用作为标准模式适应技术被使用的原有技术，即MAP适应，也能够使用MLLR适应、AMCC适应、EigenVoice适应、HEV适应等。这些适应技术详细记载在非专利文献2和非专利文献3中。

接着，对于本发明的第2个发明的实施方式即标准模式适应系统6参照附图详细说明。标准模式适应系统6的构成，由于和图1的标准模式适应系统3的多数部分相同，因此对于相同的部分在附图上附上和图1相同的符号并省略说明。

图3是标准模式适应系统6的框图。标准模式适应系统6通过识别错误知识提取装置4和标准模式适应装置5构成。虽然识别错误知识提取装置4和标准模式适应装置5的基本构成与图1的情况相同，但是不同点是分别具有提取侧聚类部22和聚类部24。

提取侧聚类部22，通过计算出为公式1的声音数据、公式2的教师标签和公式5的识别结果标签建立了时间对应的公式14的类群标签来分类成类群。

[公式14]

K′＝[k′(1)，k′(2)，...，k′(T)]

类群标签是，例如作为聚类，在使用由声音识别结果所推断的说话速度的情况下，计算出每个单位时间的莫勒(mora)数并且按各时刻t进行排列的标签。更进一步地，能够对作为连续值的发声速度推断值进行离散化来作为类群标签。或者，也能够假定提取侧聚类部22为如图4所示的构成来聚类成类似讲话者。该情况，预先将多数讲话者的声音数据按每个各讲话者以正态分布进行模型化，将这些正态分布间的距离作为指标，以类似的讲话者为单位，采用K-平均法等进行聚类。这里正态分布间距离使用例如公式15的巴氏距离(Bhattacharyya distance)。

[公式15]

$D (N (μ 1, Σ 1), N (μ 2, Σ 2)) = \frac{1}{8} {(μ 1 - μ 2)}^{1} {(\frac{Σ 1 + Σ 2}{2})}^{- 1} (μ 1 - μ 2) + \frac{1}{2} \ln \frac{| \frac{Σ 1 + Σ 2}{2} |}{{| Σ 1 |}^{1 / 2} {| Σ 2 |}^{1 / 2}}$

这里，正态分布中，该平均矢量为μl，协方差矩阵为∑1等。并且，K-平均法在非专利文献1中有详细记载。

以聚类成类似讲话者的各类似讲话者类群的每个数据为单位，采用单一的正态分布或者正态分布的加权和即混合正态分布等对各讲话者类的数据进行模型化后的类似讲话者模型，被存储到图4的类似讲话者模型存储部26中。类群标签算出部27中，以公式1的输入声音数据的例如每个各时刻或者每个发音等为单位，求得与上述类似讲话者模型存储部26中所存储的类似讲话者模型的计分，将相似性测度最高的类似讲话者模型作为类群标签。

例如作为类似讲话者模型，使用单一的正态分布或者混合正态分布等的情况下，将相对于声音数据的似然值(likelihood)作为计分来使用。再或者，采用声音识别结果可信度进行聚类。例如，使用到M位为止的声音识别结果标签并使用一位结果标签的后验概率。

采用公式8表示某时刻的到M位为止的识别结果标签，采用公式16表示其对数似然值(log likelihood)，

[公式16]

f＝[f1，f2，...，fM]^t

声音识别的1位结果的可信度采用公式17表示，将其作为类群标签。

[公式17]

$k' (t) = \frac{Σ_{i} δ (x 1, xi) \exp (fi)}{Σ_{i} \exp (fi)}$

更进一步地，也能够对作为连续值的声音识别结果可信度进行离散化并作为类群标签。再或者，也能够将发声速度、类似讲话者、声音识别可信度等多个条件组合起来而作为类群标签使用。

识别错误知识提取单元23虽然和图1相同，但是以各类群标签为单位执行错误知识提取动作。即，声音识别错误知识作为每个各类群k的知识被变更为例如公式18。

[公式18]

$P_{k} (y | x) = \frac{Σ_{t} δ (y, l (t)) δ (k, k' (t))}{Σ_{t} δ (x, l' (t)) δ (k, k' (t))}$

聚类部24，执行同上述的提取侧聚类部22相同的动作。适应数据算出单元25使用识别错误知识存储部16中所存储的按类群所提取的声音识别错误知识，执行与图1的适应数据算出单元19相同的动作。即，声音数据输入部17中所输入的适应数据，根据公式5的识别结果标签和公式14的类群标签，使用公式18的每类群的识别错误知识来修正。

接着，对于标准模式适应系统6的工作进行说明。图5(a)是表示识别错误知识提取装置4的工作的流程图。提取侧声音识别单元13对于声音数据存储部12中所存储的数据使用标准模式存储部15中所存储的标准模式进行声音识别(S121)。

提取侧聚类部22对声音数据和根据S121所生成的声音识别结果进行分类成类群(S122)。具体地，计算出对声音数据、教师标签和识别结果标签建立了时间对应的类群标签。

识别错误知识提取单元23按类群标签执行错误知识提取动作(S123)。即，声音识别错误知识作为每类群的知识，计算出例如公式18所示者。

图5(b)是表示标准模式适应装置5的工作的流程图。通过声音数据输入部17输入适应中使用的声音的特征量(S131)。

声音识别单元18，对于该输入数据使用标准模式存储部15中所存储的标准模式进行声音识别，且将识别结果向适应数据算出单元25输出(S132)。

聚类部24将声音数据和S131中所生成的声音识别结果分类成类群(S133)。

适应数据算出单元25，使用S131中所输入的声音数据、S132中所得到的识别结果和S133中所得到的每类群的识别错误知识，计算出对声音识别错误进行修正了的适应数据(S134)。

标准模式适应单元20，使用S134中所得到的适应数据使得标准模式适应，且将适应模式存储在适应模式存储部21中(S135)。

标准模式适应系统6中，按照说话速度、讲话者性别或识别结果可信度等对声音识别错误知识进行聚类并更详细地提取。由此由于能够恰当地进行适应数据的修正，因此标准模式适应变得有效。

根据本发明，能够在使用者没有意识到的情况下，使得声音识别用标准模式适应声音的特征，提高声音识别性能的声音识别装置，或用于在计算机上实现声音识别装置的程序这些用途中应用。

本发明的全部公开(含有权利要求的范围)范围中，更进一步地，根据该基本的技术思想，能够变更/调整实施方式乃至实施例。并且，在本发明的权利要求的范围的界限内，能够进行各种公开要素的多种的组合乃至选择。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 标准模式适应装置、标准模式适应方法和标准模式适应程序 [P] . 中国专利： CN101390156A . 2009-03-18
2. 标准模式适应装置、标准模式适应方法 [P] . 中国专利： CN101390156B . 2011.12.07
3. DEVICE AND METHOD FOR LEARNING VOICE STANDARD PATTERN, AND RECORDING MEDIUM RECORDED WITH VOICE STANDARD PATTERN LEARNING PROGRAM [P] . 日本专利： JP2003099082A . 2003-04-04

机译：用于学习语音标准模式以及记录有语音标准模式学习程序的媒体的装置和方法
4. Speech recognition method and apparatus with noise adaptive standard pattern [P] . 美国专利： US7216075B2 . 2007-05-08

机译：具有噪声自适应标准模式的语音识别方法和装置
5. Speech recognition method and apparatus with noise adaptive standard pattern [P] . 美国专利： US2002198709A1 . 2002-12-26

机译：具有噪声自适应标准模式的语音识别方法和装置