首页> 中国专利> 语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质

语音信号区间估计装置与语音信号区间估计方法及其程序与记录介质

摘要

提高语音信号区间估计装置的处理效率与估计精度。声音信号分析单元以包含语音信号与噪声信号的声音数字信号作为输入,针对该声音数字信号的每个帧,利用无声GMM与去噪语音GMM生成适合噪声环境的非语音GMM与语音GMM,并从各GMM中仅计算必要的正态分布的输出概率。然后,语音/非语音状态概率比计算单元利用该输出概率,算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率比,语音信号区间估计单元根据语音/非语音状态概率比,判定该帧的声音信号是语音状态还是非语音状态,从而仅输出语音状态的声音信号。

著录项

  • 公开/公告号CN102473412A

    专利类型发明专利

  • 公开/公告日2012-05-23

    原文格式PDF

  • 申请/专利权人 日本电信电话株式会社;

    申请/专利号CN201080032747.5

  • 发明设计人 藤本雅清;中谷智广;

    申请日2010-07-15

  • 分类号G10L15/04(20060101);G10L15/20(20060101);G10L21/02(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人于小宁

  • 地址 日本东京都

  • 入库时间 2023-12-18 05:25:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-06-11

    授权

    授权

  • 2012-07-04

    实质审查的生效 IPC(主分类):G10L15/04 申请日:20100715

    实质审查的生效

  • 2012-05-23

    公开

    公开

说明书

技术领域

本发明涉及从包含多个声音信号的信号中,估计语音信号存在的区间的 语音信号区间估计装置与语音信号区间估计方法以及在计算机中实施该装置 的程序与记录了该程序的记录介质。

背景技术

在实际环境中利用自动语音识别技术的情况下,需要从包含作为处理对 象的语音信号以外的噪声的声音信号中,估计作为处理对象的语音信号存在 的区间,并进一步去除噪声。

图22作为以往的语音信号区间估计装置900而表示用于实施在非专利文 献1公开的以往的语音信号区间估计方法的功能结构,简单说明其动作。语 音信号区间估计装置900包括声音信号分析单元90、语音/非语音状态概率比 计算单元95、语音信号区间估计单元96。声音信号分析单元90进一步由声 音特征量提取单元91、概率估计单元92、参数存储单元93、GMM(高斯混 合模型(Gaussian Mixture Model):混合正态分布模型)存储单元94构成。 参数存储单元93由初始噪声概率模型估计用缓冲器931与噪声概率模型估计 用缓冲器931构成。GMM存储单元94由分别存储了预先生成的无声GMM 与去噪语音GMM的无声GMM存储单元940与去噪语音(clean speech)GMM 存储单元941构成。

声音特征量提取单元91提取包括语音信号与噪声信号的声音数字信号 At的声音特征量Ot。作为声音特征量,例如能够利用对数梅尔谱(mel  spectrum)或倒普(cepstrum)等。概率估计单元92利用无声GMM与去噪 语音GMM生成适应了噪声环境的非语音GMM与语音GMM,并计算相对 于输入的声音特征量Qt的非语音GMM内的全部的正态分布的非语音输出概 率以及语音GMM内的全部的正态分布的语音输出概率。

语音/非语音状态概率比计算单元95利用该非语音输出概率与语音输出 概率,计算语音/非语音状态概率比。语音信号区间估计单元96根据语音/非 语音状态概率比判断输入声音信号是语音状态还是非语音状态,从而仅输出 例如语音状态的声音信号DS

这样,以往的语音信号区间的估计方法利用GMM内的全部的概率分布 模型而估计语音区间。利用全部的概率模型是因为认为其全部都重要。这种 想法在非专利文献2中作为语音信号区间检测与噪声抑制的方法而公开。利 用全部的概率分布的想法从非专利文献2所示的计算噪声抑制滤波器以及滤 波器增益的下式(1)也可以明白。

[数1]

G^t,l=Σj=0lαj,tΣk=1Kp(k|Ot,j)G^t,j,k,l---(1)

这里,p(k|Ot,j)是第k个正态分布的输出概率,K表示全部的分布数量。

现有技术文献

非专利文献

非专利文献1:藤本雅清、石塚健太郎、加藤比呂子、「音声と雑音両方 の状態遷移を有する雑音下音声区間検出」、信学技報、2006年12月14日 発行。

非专利文献2:Masakiyo Fujimoto,Kentaro Ishizuka,and Tomohiro  Nakatani,“Study of Integration of Statistical Model-Based Voice Activity  Detection and Noise Suppression,”Proc.Interspeech’08,pp.2008-2011,Sept. 2008.

发明内容

发明要解决的课题

在以往的方法中,在进行语音信号区间检测与噪声抑制时利用全部的概 率分布,因此存在处理量多的问题。若输入的声音信号是多声道,则由于需 要对每个声道独立进行处理,因此导致处理量进一步增大。

本发明鉴于这样的问题而完成。根据最近的研究成果可知,在进行语音 信号区间检测与噪声抑制时,即使并不是利用全部的概率分布也可以。因此 本发明的目的在于,提供不利用概率模型(GMM)内的不需要的分布,从而 实现处理的高速化的语音信号区间估计装置、语音信号区间估计方法以及通 过计算机实现该装置的程序、记录了该程序的记录介质。

用于解决的课题的手段

本发明的语音信号区间估计装置包括声音信号分析单元与区间估计信息 生成单元。声音信号分析单元以包含语音信号与噪声信号的声音数字信号作 为输入,针对该声音数字信号的每个帧,利用无声GMM与去噪语音GMM, 生成适合噪声环境的非语音GMM与语音GMM,计算从各GMM中除去了 最小输出概率的一个以上的正态分布的剩余的正态分布的非语音输出概率与 语音输出概率。区间估计信息生成单元利用这些非语音输出概率与语音输出 概率,算出基于语音状态/非语音状态的状态转移模型的语音/非语音状态概率 比,并基于算出的概率比,生成并输出语音区间估计信息。

此外,本发明的附有噪声抑制功能的语音信号区间装置在上述的语音信 号区间估计装置的结构中还具有噪声抑制单元,以语音/非语音状态合成概率 比计算单元输出的概率比以及声音信号分析单元输出的输出概率作为输入, 生成噪声抑制滤波器,从而抑制声音数字信号的噪声。

发明效果

根据本发明的语音信号区间估计装置,声音信号分析单元针对每个帧, 利用无声GMM与去噪语音GMM,生成适合噪声环境的非语音以及语音的 概率模型,并仅计算必要的分布的概率模型的输出概率。然后,仅利用该输 出概率,判定语音信号区间。从而,与利用全部的概率模型的以往的语音信 号区间估计装置相比,能够实现处理的高速化。

此外,本发明的附有噪声抑制功能的语音信号区间估计装置在本发明的 语音信号区间估计装置中附加噪声抑制单元,从而抑制输入语音信号的噪声。

附图说明

图1是表示本发明的语音信号区间估计装置100的功能结构例的图。

图2是表示语音信号区间估计装置100的动作流程的图。

图3是表示概率模型参数估计/概率计算单元11的功能结构例的一部分 的图。

图4是表示概率模型参数估计/概率计算单元11的功能结构例的剩余部 分的图。

图5是表示概率模型参数估计/概率计算单元12的动作流程的图。

图6是表示概率权重计算处理单元126的动作流程的图。

图7是例示用于求出正态分布号SortIdxt,j,k的方法的图。

图8是表示概率值的分布例的图,A表示非语音GMM的各正态分布k 的分类(sort)后输出概率wsort,t,0,k的分布,B表示语音GMM的分类后输出 概率wsort,t,1,k的分布的图。

图9是表示必要分布决定处理单元117的动作流程的图。

图10是表示语音/非语音状态概率比计算单元95的功能结构例的图。

图11是表示语音状态/非语音状态的状态转移模型的图。

图12是表示语音/非语音状态概率比计算单元95的动作流程的图。

图13是表示语音信号区间估计单元96的功能结构例的图。

图14是表示本发明的语音信号区间估计装置200的功能结构例的图。

图15是表示信号平均单元50的动作流程图。

图16是表示第2声音信号分析单元60的功能结构例的图。

图17是表示第2声音信号分析单元60的动作流程的图。

图18是表示本发明的附有噪声抑制功能的语音信号区间估计装置300 的功能结构例的图。

图19是表示噪声抑制单元70的功能结构例的图。

图20是表示实验结果的图。

图21是表示信号波形的图,A是声音输入信号波形,B是噪声抑制输出 的信号波形的图。

图22是表示以往的语音信号区间估计装置900的功能结构的图。

具体实施方式

以下,参照附图说明本发明的实施方式。对多个附图中的相同的部件附 加相同的参照标号,且不重复进行说明。此外,在以下的说明中,在文本的 行中使用的记号“^”本来应该是记载在紧随其后的字符的正上方的记号,但 由于文本输入法的限制,记载在该字符的正前面。在公式中这些记号记载在 本来的位置上。此外,对于矢量,如“矢量A”这样在正前面赋予“矢量” 而记载,但在公式中均以加粗的字符来记载。此外,以矢量的各元素为单位 进行的处理设在没有特别提起的情况下对全部的矢量的全部的元素应用。

实施例1

图1表示本发明的语音信号区间估计装置100的功能结构例。图2表示 其动作流程。语音信号区间估计装置100包括声音信号分析单元10、语音/ 非语音状态概率比计算单元95、语音信号区间估计单元96、以及控制单元 20。声音信号分析单元10由声音特征量提取单元91、概率模型参数估计/概 率计算单元11、GMM存储单元94、以及参数存储单元93构成。GMM存储 单元94包括无声GMM存储单元940与去噪语音GMM存储单元941。此外, 参数存储单元93包括初始噪声概率模型估计用缓冲器930与噪声概率模型估 计用缓冲器931。此外,语音/非语音状态概率比计算单元95与语音信号区间 估计单元96构成区间估计信息生成单元9。

语音信号区间估计装置100的输入信号即声音信号At是将包含语音信号 与噪声信号的模拟声音信号例如以采样频率8kHz离散化的声音数字信号。t 表示帧号。在图1中,省略了用于将模拟声音信号变换为声音数字信号的A/D 变换单元。

语音信号区间估计装置100是在例如由ROM、RAM、CPU等构成的计 算机读入规定的程序,通过由CPU执行该程序而实现的装置。另外,如参照 标号可知,语音信号区间估计装置100对图22所示的以往的语音信号区间估 计装置900的不同点仅在于声音信号分析单元10的一部分的结构与动作。其 特点尤其在于声音信号分析单元10内的概率模型参数估计/概率计算单元11 对每个帧生成适应噪声环境的非语音GMM与语音GMM,并从各GMM中 计算仅是所需的正态分布的输出概率。

声音信号分析单元10以离散化的语音数字信号At作为输入,例如针对 以200个声音数字信号作为一个帧(例如25ms)的每个帧,利用在GMM存 储单元94中存储在无声GMM与去噪语音GMM,生成适合噪声环境的非语 音GMM与语音GMM,并从各GMM中计算仅是所需的正态分布的非语音 输出概率与语音输出概率(步骤S10)。

声音特征量提取单元91对包含语音信号与噪声信号的帧t的声音数字信 号At应用快速傅立叶变换以及12维的梅尔谱分析,计算并输出具有12维的 对数梅尔谱作为元素的矢量Ot={Ot,0,Ot,1,...,Ot,11}(帧t中的声音特征量)。 下标数字0、1、...、11表示矢量的元素号l(字母l)。

概率模型参数估计/概率计算单元11对针对每个帧输入的对数梅尔谱应 用并列非线性卡尔曼滤波器,从而估计噪声概率模型参数。对于并列非线性 卡尔曼滤波器将在后面叙述。

GMM存储单元94的无声GMM存储单元940与去噪语音GMM存储单 元941分别存储预先生成的无声GMM与去噪语音GMM。各GMM包括多 个正态分布,各正态分布将混合权重wj,k、平均μs,j,kl、方差∑s,j,k,l设为参数。 j是GMM的种类,j=0表示无声GMM,j=1表示去噪语音GMM。k表示各 正态分布的号。各分布的总数K例如是32个。K的值兼顾精度与处理速度来 决定。

语音/非语音状态概率比计算单元95利用这些输出概率,计算出基于语 音状态/非语音状态的状态转移模型的语音/非语音状态概率比(步骤S95)。 语音信号区间估计单元96将语音/非语音状态概率比与阈值进行比较,从而 判定该帧的声音信号是语音状态还是非语音状态,并例如仅切出语音状态的 声音信号而作为区间估计信息DES来输出(步骤S96)。另外,语音信号区间 估计单元96可以单独或与输入声音信号一同输出用于表示声音信号中的语 音状态的区间与非语音状态的区间的信号作为语音信号区间信息,或者,也 可以基于用于表示被判定的区间的信号,将声音信号中的非语音信号区间的 振幅设为0并将其作为语音信号区间信息输出,或者也可以如上所述那样除 去非语音状态的区间(缩短时间)而作为语音信号区间信息来输出。

以上的动作重复至对全部的帧结束为止(步骤S20:否)。该语音信号区 间估计装置100的各单元的动作控制由控制单元20来进行。

根据语音信号区间估计装置100,声音信号分析单元10仅计算需要的正 态分布的输出概率。然后,基于该输出概率,例如仅输出判定为语音状态的 帧的声音信号作为区间估计信息DES。从而,仅利用必要的概率模型进行语 音区间检测,因此能够使处理高速化。

接着,表示概率模型参数估计/概率计算单元11的更具体的功能结构例, 更详细地进行说明。

[概率模型参数估计/概率计算单元11]

图3与图4将概率模型参数估计/概率计算单元11的更具体的功能结构 例分为两个部分来表示,图5表示其动作流程。概率模型参数估计/概率计算 单元11包括帧判定处理单元110、初始噪声概率模型估计处理单元111、参 数预测处理单元112、参数更新处理单元113、概率模型参数生成估计处理单 元114、输出概率计算单元115、概率权重计算处理单元116、必要分布决定 处理单元117、第1加权平均处理单元118以及第2加权平均处理单元119。

帧判定处理单元110在动作开始初始阶段的例如10帧以下时,即若将帧 号t设为t=0、1、...,则在t<10时,将来自声音特征量提取单元91的声音 特征量Ot存储在初始噪声概率模型估计用缓冲器930(步骤S930)。若帧数 成为11(即t=10),则指示初始噪声概率模型估计处理单元111读出t=0~t=9 的声音特征量。然后,初始噪声概率模型估计处理单元111如式(2)和式(3) 所示那样估计初始的噪声概率模型参数Ninitl、∑initN,l(步骤S111)。

[数2]

Nlinit=110Σt=09Ot,l---(2)

ΣN,linit=110Σt=09(Ot,l-Nlinit)2---(3)

若帧数成为比11大,(即,t>10),则帧判定处理单元110指示参数预测 处理单元112从噪声概率模型估计用缓冲器931读出一个帧之前的噪声概率 模型参数的估计值^Nt-1,l、^∑N,t-1,l(步骤S931)。

参数预测处理单元112根据初始的噪声概率模型参数Ninitl、∑initN,l,或者 一个帧之前的噪声概率模型参数的估计值^Nt-1,l、^∑N,t-1,l,通过式(4)和(5) 所示的随机游走(random walk)过程,预测当前的帧t的噪声概率模型参数 (步骤S112)。

[数3]

Nt,lpred=N^t-1,l---(4)

ΣN,t,lpred=Σ^N,t-1,l+ϵ---(5)

这里,Npredt,l、∑predN,t,l是帧t中的噪声概率模型参数的预测值,ε例如是 0.0010等小的值。当帧数为10(即t=9)时,如式(6)和(7)所示那样进 行预测处理。

[数4]

Nt,lpred=Nlinit---(6)

ΣN,t,lpred=ΣN,linit+ϵ---(7)

参数更新处理单元113将当前的帧t的预测到的噪声概率模型参数 Npredt,l、∑predN,t,l、声音特征量Ot、构成GMM存储单元94的各GMM的多个 正态分布的参μs,j,k,l、∑s,j,k,l作为输入,更新式(4)、(5)或者(6)、(7)的 噪声概率模型参数Npredt,l、∑predN,t,l(步骤S113)。更新处理通过对每个帧应用 由式(8)~(13)表示的非线性卡尔曼滤波器而进行。

[数5]

yt,j,k,l=μS,j,k,l+log(1+exp(Nt,lpred-μS,j,k,l))---(8)

yt,j,k,lNt,lpredexp(Nt,lpred-μS,j,k,l)1.0+exp(Nt,lpred-μS,j,k,l)

Hyt,j,k,lNt,lpred---(9)

Σy,t,j,k,l=N,t,lpredH+ΣS,j,k,l---(10)

G=N,t,lpredΣy,t,j,k,l---(11)

N^t,j,k,l=Nt,lpred+G(Ot,l-yt,j,k,l)---(12)

Σ^N,t,j,k,l=(1-GH)ΣN,t,lpred---(13)

这里,式(12)与(13)是被更新后的正态分布的参数。该非线性卡尔 曼滤波器是现有的技术。

概率模型参数生成估计处理单元114将在GMM存储单元94中存储着的 多个正态分布的参数μs,j,k,l、∑s,j,k,l、以及在参数更新处理单元113中更新后的 正态分布参数^Nt,j,k,l、^∑N,t,j,k,l作为输入,生成适应帧t的噪声环境的非语音 GMM(噪声+无声)与语音GMM(噪声+去噪语音)(步骤S114)。通过以下 式来获得非语音GMM与语音GMM。

[数6]

μO,t,j,k,l=μS,j,k,l+log(1+exp(N^t,j,k,l-μS,j,k,l))---(14)

H=exp(N^t,j,k,l-μS,j,k,l)1.0+exp(N^t,j,k,l-μS,j,k,l)---(15)

ΣO,t,j,k,l=HΣ^N,t,j,k,lH+ΣS,j,k,l---(16)

这里,μ0,t,j,l、∑0,t,k,l是各帧t中的非语音GMM(j=0)、语音GMM(j=1) 的正态分布参数,μ是平均,∑是方差。

输出概率计算处理单元115通过以下式来获得基于在概率模型参数生成 估计处理单元114中生成的非语音GMM与语音GMM各自的声音特征量Ot的输出概率。首先,通过式(17)来计算各正态分布k的输出概率b1,j,k(Ot)。 另外,记号b的下标数字1是用于与后述的实施例2中的第2声音信号分析 单元的输出概率进行区分的记号。

[数7]

b1,j,k(Ot)=Πl=0L-112πΣO,t,j,k,lexp{-(Ot,l-μO,t,j,k,l)22ΣO,t,j,k,l}---(17)

对该各正态分布k的输出概率b1,j,k(Ot)如下式(18)那样乘以来自GMM 存储单元94的混合权重wj,k而获得的全部的分布的输出概率的合计是非音 GMM与语音GMM的输出概率b1,j(Ot)。

[数8]

b1,j(Ot)=Σk=1Kwj,kb1,j,k(Ot)---(18)

输出概率计算单元115通过式(19)计算以非语音GMM与语音GMM 的输出概率b1,j(Ot)对各正态分布k的输出概率进行标准化后的输出概率 w0,t,j,k,并将其输出。

[数9]

wO,t,j,k=wj,kb1,j,k(Ot)b1,j(Ot)---(19)

概率权重计算处理单元116将非语音GMM与语音GMM中包含的全部 的正态分布k=1、...、K的标准化后的输出概率w0,t,j,k的分散程度以高次统计 量进行参数化,并将非语音GMM与语音GMM的输出概率b1,j(Ot)进行加权 (步骤S116)。图6表示概率权重计算处理单元116的处理流程。

首先,概率权重计算处理单元116将各正态分布k的标准化后的输出概 率w0,t,j,k按照降序重新排列,并求出重新排列前后的对应的对应正态分布索引 SortIdxt,j,k’(其中,k’=1、...、K)(步骤S1160)。图7例示用于求出重新排列 后的正态分布索引SortIdxt,j,k’的方法。

图7A表示重新排列前的分类(sort)前标准化输出概率wO,t,j,k与其正态 分布的索引k。图7B表示降序重新排列后的分类后标准化输出概率wSort,t,j,k’的对应分布索引SortIdxt,j,k’。这样,按照标准化输出概率大的顺序整理各正态 分布(步骤S1160)。

若假设帧t的声音信号为非语音信号(j=0),则相对于非语音GMM的 各正态分布k的分类后输出概率wSort,t,0,k’的k’的整体的变化幅度小。图8A表 示该情况。图8A的横轴是正态分布的索引k’,纵轴是分类后输出概率wSort,t,0,k’。这样,成为随着索引k’的增加缓慢下降的平稳的特性。另一方面,相对 于语音GMM的分类后输出概率wSort,t,j,k’的k’的整体的变换幅度大,成为图 8B所示的变化急剧的特性。即,若帧t的语音信号为非语音信号,则非语音 信号GMM的K个正态分布的输出概率的变化幅度小,语音GMM的K个正 态分布的输出概率的变化幅度大。这意味着在分类前,非语音GMM的输出 概率的分散程度小,语音GMM的输出概率的分散程度大。在帧t的声音信 号为语音信号(j=1)时,该特性的关系相反。

接着,在步骤S1161的尖度计算处理中,利用用于表示该特性的尖锐情 况的参数即尖度(4次统计量),表现输出概率的变化的特性。分类后输出概 率wSort,t,j,k’的尖度Kurtt,j能够通过式(20)来计算。

[数10]

Kurtt,j=Σk=1K(wSort,t,j,k-μw,t,j)4K·(Σw,t,j)2---(20)

μw,t,j=1KΣk=1KwSort,t,j,k---(21)

Σw,t,j=1KΣk=1K(wSort,t,j,k-μw,t,j)2---(22)

特性(图8)越尖锐,尖度Kurtt,j越大。这里,式(21)表示全部正态分 布的分类后的输出概率wSort,t,j,k’的平均值,但该值与分类前的平均值相同。式 (20)的分子是将分类后的各输出概率wSort,t,j,k’与平均值的差分的四次方针对 全部的输出概率进行加法运算后的值,该值也与分类前的对应的差分的四次 方和相同。同样,式(22)表示的平方和的平均,即方差也与分类前的对应 的值相同。即,通过式(20)获得的尖度Kurtt,j与分类前后无关地表示全部 正态分布的输出概率的分散程度。另外输出概率的分布程度无需限定于式 (20)的定义,可基于各输出概率与平均值的平方和进行各种定义。概率权 重计算处理单元116需要对获得尖锐程度小的平稳的特性的正态分布,设置 较大的权重,因此在步骤S1162的权重标准化处理中,如式(23)所示,获 得将尖度Kurtt,j的倒数进行标准化后的概率权重wKurt,t,j(步骤S1162)。

[数11]

wKurt,t,j=1Kurtt,j1Kurtt,0+1Kurtt,1---(23)

概率权重计算单元116将概率权重wKurt,t,j与分类后输出概率wSort,t,j,k’以及 对应正态分布索引SortIdxt,j,k’输出到必要分布决定处理单元117。

必要分布决定处理单元117取出分类后输出概率wSort,t,j,k’的值微小的正态 分布,仅提取具有充分大的值的正态分布。图9表示该处理流程。首先,将 按照降序重新排列后的分类后输出概率wSort,t,j,k’按照大到小的顺序依次进行 加法运算并求出累积值(S1170)。接着,通过式(24)求出持有该累积值达 到某规定的值0<X≤1的最小的分类后输出概率的值的对应分布索引的号码 Rt,j

[数12]

Rt,j=argminr{Σk=1rwSort,t,j,kX}---(24)

例如,设X=0.9,则决定分类后输出概率wSort,t,j,k’的累积值成为0.9的对 应分布索引(步骤S1171)。在图7所示的例子中, wSort,t,j,1+wSort,t,j,2+wSort,t,j,3=0.9≥X,因此选择对应分布索引SortIdxt,j,1~SortIdxt,j,3

然后在步骤S1172的概率再计算处理中,利用选择的正态分布 SortIdxt,j,1~SortIdxt,j,(Rt,j),再次计算非语音GMM与语音GMM的输出概率 b1,j(Ot)。在该再次计算之前,通过式(25)对GMM参数即混合权重 wj,k(k=SortIdxt,j,k’)进行标准化。

[数13]

wt,j,SortIdxt,j,k=wj,SortIdxt,j,kΣk=1Rt,jwj,SortIdxt,j,k---(25)

利用该标准化后的混合权重与在输出概率计算处理单元115获得的各正 态分布k的输出概率b1,j,k(Ot)(对k代入SortIdxt,j,k’),通过式(26)再次计算 非语音GMM与语音GMM的输出概率b1,j(Ot)。此外,通过式(27)再次计 算分类后输出概率wSort,t,j,k’

[数14]

b1,j(Ot)=Σk=1Rt,jwt,j,SortIdxt,j,kb1,j,SortIdxt,j,k(Ot)---(26)

wSort,t,j,k=wt,j,SortIdxt,j,kb1,j,SortIdxt,j,k(Ot)b1,j(Ot)---(27)

接着,在步骤S1173中通过式(28)利用概率权重wKurt,t,j对再次计算的 输出概率b1,j(Ot)进行加权。

[数15]

bw,1,j(Ot)=wKurt,t,j·b1,j,(Ot)  (28)

这样利用在概率权重计算处理单元116中获得的概率权重wKurt,t,j,从而 能够强调非语音GMM的输出概率与语音GMM的输出概率的差异,能够提 高非语音/语音的识别性。

第1加权平均处理单元118利用在概率权重计算处理单元116中获得的 分类后的输出概率wSort,t,j,k’,对在参数更新处理单元113中更新的正态分布的 参数^Nt,j,k,l、^∑N,t,j,k,l进行加权平均,从而获得对应于非语音GMM与语音GMM 的噪声参数估计结果^Nt,j,l、^∑N,t,j,l。通过下式进行加权平均。

[数16]

N^t,j,l=Σk=1Rt,jwSort,t,j,kN^t,j,SortIdxt,j,k,l---(29)

Σ^N,t,j,l=Σk=1Rt,jwSort,t,j,kΣ^N,t,j,SortIdxt,j,k,l---(30)

接着,在第2加权平均处理单元119中,利用在必要分布决定处理单元 117中再次计算的输出概率bw,1,j(Ot),分别通过式(31)、(32),对在第1加 权平均处理单元118中获得的噪声参数估计结果^Nt,j,l、^∑N,t,j,l进行加权平均。 通过进行加权平均,获得帧t中的噪声参数估计结果^Nt,l、^∑N,t,l,并用于以下 一个帧的噪声参数的估计。

[数17]

N^t,1=bw,1,0(Ot)bw,1,0(Ot)+bw,1,1(Ot)N^t,0,1+bw,1,1(Ot)bw,1,0(Ot)+bw,1,1(Ot)N^t,1,1---(31)

Σ^N,t,1=bw,1,0(Ot)bw,1,0(Ot)+bw,1,1(Ot)Σ^N,t,0,1+bw,1,1(Ot)bw,1,0(Ot)+bw,1,1(Ot)Σ^N,t,1,1---(32)

在第2加权平均处理单元119中获得的噪声参数估计结果^Nt,l、^∑N,t,l, 被存储在噪声概率模型估计用缓冲器931中。

概率模型参数估计/概率计算单元11进行以上所述的处理,并作为声音 信号分析单元10的输出参数而将帧t中的语音/非语音概率bW,1,0(Ot)、bW,1,1(Ot) 输出到语音/非语音状态概率比计算单元95。

[语音/非语音状态概率比计算单元95]

图10表示语音/非语音状态概率比计算单元95的功能结构例。语音/非语 音状态概率比计算单元95包括概率计算单元950、参数存储单元951。

语音/非语音状态概率比计算单元95将语音/非语音概率bW,1,0(Ot)、 bW,1,1(Ot)作为输入,基于在图11中通过有限状态机械来表现的语音状态/非语 音状态的状态转移模型,计算语音状态/非语音状态的状态转移模型。有限状 态机械是语音状态/非语音状态的状态转移模型,包含非语音状态H0、语音状 态H1、向各状态的状态转移概率ai,j(a0,0~a1,1)。i是状态转移源的状态号,j是 状态转移目的的状态号。

参数存储单元951包含概率比计算用缓冲器951a、状态转移概率表格 951b,状态转移概率表格951b具有向非语音状态H0以及语音状态H1的状态 转移概率a0,0~a1,1的值。状态号0表示非语音状态,状态号1表示语音状态, 状态转移概率ai,j满足ai,0+ai,1=1。

若将帧t中的信号的状态定义为qt=Hj,则概率计算单元950通过式(33) 计算语音状态概率与非语音状态概率之比L(t)。

[数18]

L(t)=p(qt=H1|O0:t)p(qt=H0|O0:t)---(33)

这里,O0:t={O0,...,Ot},概率比L(t)根据贝叶斯定理如下式那样展开。

[数19]

L(t)=p(qt=H1|O0:t)p(qt=H0|O0:t)=p(O0:t,qt=H1)p(O0:t,qt=H0)---(34)

此外,若考虑噪声信号N0:t={N0,...,Nt}的时间变动,则式(34)如式(35) 那样展开。

[数20]

L(t)=p(qt=H1|O0:t,N0:t)p(qt=H0|O0:t,N0:t)=p(O0:t,qt=H1,N0:t)p(O0:t,qt=H0,N0:t)---(35)

式(35)通过考虑了过去帧的状态的递归式(一次马尔科夫链),展开成 如下式。

[数21]

p(O0:t,qt,N0:t)=

Σqt-1p(qt|qt-1)p(O0:t|qt,Nt)p(Nt|Nt-1)p(O0:t-1,qt-1,N0:t-1)---(36)

这里,相当于p(qt=Hj|qt-1=Hi)=αi,j、p(Ot|qt=Hj,Ns)=bW,1,j(Ot)、p(Nt|Nt-1)=1, 概率p(Ot,qt=Hj,Nt)相当于按照时间顺序方向计算的正向条件概率αt,j。即,式 (36)通过下式的递归式来获得。

[数22]

αt,j=(αt-1,0a0,jt-1,1a1,j)bw,1,j(Ot)  (37)

从而,通过式(38)来算出语音状态/非语音状态概率比L(t)。

[数23]

L(t)=αt,1αt,0---(38)

图12表示语音/非语音状态概率比计算单元95的处理流程。正向条件概 率αt,j的计算根据该动作流程来进行。

最初在概率比计算用缓冲器951a的读出处理中,从概率比计算用缓冲器 951a取出帧t-1的正向条件概率αt-1,j(步骤S950)。其中,若t=0,则将正向 条件概率αt,j设定为αt,0=1、αt,1=0。

接着,概率算出单元950从状态转移概率表格951a取出状态转移概率 ai,j,并根据式(37)算出帧t的正向条件概率αt,j(步骤S951)。然后,概率 计算单元950进一步根据式(38)算出概率比L(t),将正向条件概率αt,j存 储在概率比计算用缓冲器951a(步骤S952)。

[语音信号区间估计单元96]

图13表示语音信号区间估计单元96的功能结构例。语音信号区间估计 单元96包括阈值处理单元960与语音信号区间整形单元961,以语音状态/ 非语音状态概率比L(t)作为输入,判定声音信号At的帧t属于语音状态还 是非语音状态。

在阈值处理单元960,若语音状态/非语音状态概率比L(t)的值是另外 设定的阈值TH以上,则判定为帧t属于语音状态而输出1,若小于阈值TH, 则判定为帧t属于非语音状态而输出0。阈值TH的值可以决定为事先固定的 值,或者也可以根据声音信号的特征而适当地设定。

语音信号区间整形单元961对在阈值处理单元960中获得的语音区间估 计结果进行校正处理,从而进行纠错。纠错中,若在阈值处理单元960中认 定为语音的帧连续规定帧数量以上,例如5个帧以上,则设定为语音区间。 此外,对于认定为非语音的帧,若持续规定数量以上,则确定为非语音区间。 这些规定帧数量例如可以以用于语音区间检测的被称为S持续时间帧、或者 用于非语音区间检测的被称为N持续时间帧的变量名设定任意的数即可。

此外,在检测到语音区间中存在的短的非语音区间的情况下,若该非语 音区间的持续长度是预先决定的中止(Pause)帧数以下,则也可以将该区间 认定为语音区间。通过包括该语音信号区间整形单元961,从而不产生较少 帧数量的语音区间与非语音区间,因此能够稳定信号区间检测的动作。将用 于表示这样检测到的语音区间、非语音区间的信号作为区间估计信息DES而 输出。根据需要,也可以将声音信号At与用于表示语音区间、非语音区间的 信号一并作为区间估计信息DES而输出。或者,也可以从检测到的非语音区 间中,将声音信号At中的各非语音区间的全部样本的振幅设为0,并作为区 间估计信息DES而输出,也可以从声音信号提取检测到的语音区间,并作为 区间估计信息DES而输出。或者也可以如虚线表示那样,不进行语音信号区 间整形单元961的处理,将阈值处理单元960的估计结果直接作为DES来输 出。

实施例2

图14表示本发明的语音信号区间估计装置200的功能结构例。语音信号 区间估计装置200与语音信号区间估计装置100的不同点在于,包括:信号 平均单元50,将多个声道的声音数字信号At,ch对每个帧进行平均化;以及第 2声音信号分析单元60,利用频率分量功率与非频率分量功率,求出语音概 率与非语音概率,区间估计信息生成单元9的语音/非语音状态概率比计算单 元95’还利用第2声音信号分析单元60的输出信号算出语音状态/非语音状态 概率比L(t)。说明这些不同部分的动作。

[信号平均单元50]

图15表示信号平均单元50的动作流程。信号平均单元50首先将多个声 道的声音信号输入在时间轴方向上以一定时间宽度移动起点,并将一定时间 长度的声音信号作为帧而分割。例如,对以采样频率8kHz采样的200个样本 点(25ms)的声音信号At,ch,一边将始点移动80个样本点(10ms),一边分 割给每个声道。此时,例如利用下式(39)的海明(Hamming)窗w(n)进行 分割(步骤S50)。

[数24]

w(n)=0.54-0.46·cos2πnLen-1---(39)

这里,n是帧内的采样号n=0,1,...,Len-1,Len表示帧的分割波形的采样 点数。在此,Len=200。ch表示声道号ch=1,...,CH。

接着,根据式(40),输出对每个对应样本n平均化声音信号At,ch,n后的 单声道信号即平均化信号At,ch(步骤S51)。

[数25]

At,n=1CHΣch=1CHAt,ch,n---(40)

另外,当输入声音信号为单声道信号的情况下,即在CH=1的情况下, 也可以省略平均化处理(步骤S502)的处理。通过包括信号平均单元50,能 够大幅削减处理多声道的输入声音信号时的存储器使用量。

此外,在信号平均单元50中,也可以不进行式(40)所示的输入声音信 号的平均化处理,而是利用傅立叶变换对各信道计算输入声音信号的功率谱 (power spectrum),从而进行功率谱级(power spectrum level)的平均化处理, 从而输出各信道的平均功率谱。

[第2声音信号分析单元60]

图16表示第2声音信号分析单元60的功能结构例。图17表示其动作流 程。第2声音信号分析单元60包括离散傅立叶变换单元61、功率计算单元 62、基本频率估计单元63、周期性分量功率计算单元64、减法运算单元65、 除法运算单元66、概率计算单元67。

离散傅立叶变换单元61对平均化信号At,n进行离散傅立叶变换,从而将 平均化信号从时域的信号变换为频域的频谱(步骤S61)。通过式(41)获得 平均化At,n的频谱Xt(k)。

[数26]

Xt(k)=Σn=0M-1At,nexp(-j2πMkn)---(41)

这里,k表示将采样频率M等分后的离散点,M例如使用256。

功率计算单元62根据式(42),从离散傅立叶变化单元61输出的频谱 Xt(k)算出平均化信号At,n的平均功率ρt(步骤S62)。

[数27]

ρt=1MΣk=0M-1|Xt(k)|2---(42)

基本频率估计单元63以功率计算单元62输出的平均功率ρt与离散傅立 叶变换单元61输出的频谱Xt(k)作为输入,根据式(43)估计平均化信号At,n的基本频率f0t(步骤S63)。利用了频率时的基本频率的估计通过例如记载在 以下的参考文献“Nakatani,T.and Irino,T.,“Robust and accurate fundamental  frequency estimation based on dominant harmonic components,”Journal of the  Acoustical Society of America,Vol.116,pp.3690-3700,2004.”的估计方法来进 行.

[数28]

f0t=argmaxg(Σk=1vt|Xt(kg)|2-vtρt)---(43)

这里,将f0t设为对应于估计基本频率的频谱的BIN号,将argmax(*)设 为用于输出使(*)内最大化的g的函数,将vt设为表示M/g的整数部分的 函数。另外,当不利用频谱而估计的情况下,例如通过自相关函数(参考文 献“Quatieri,T.F.,“Discrete-time Speech Signal Processing principles and  practice,”Prentice-Hall,2002:pp.504-505”)来进行估计。在自相关法中,首先 求出自相关函数。在将分割波形的样本点数设为Len,将其第g个样本点的 信号的振幅设为xt(g)时,根据下式来求出自相关函数的系数ct(g)。

[数29]

ct(g)=1LenΣk=1Len-1-gxt(g)xt(g+k)---(44)

针对g=1,...,Len求出自相关函数的系数ct(g)。接着,在该自相关函数的 系数中的g的一定的搜索范围内,在采样频率8kHz时的相当于50Hz~500Hz 的例如16≤g≤160的范围内,检测使ct(g)成为最大的g。其结果所获得的g表 示在输入信号的搜索范围中最支配性的周期性分量的周期长度,输入信号为 单一的完全的周期信号例如正弦波的情况下,成为相当于其周期长度的值。

周期相分量功率计算单元64以离散傅立叶变换单元61输出的频谱xt(k)、 功率计算单元62输出的平均化信号At,n的平均功率ρt、基本频率估计单元63 输出的基本频率f0t作为输入,根据式(45)估计平均化信号At,n的周期性分 量的功率^ρpt(步骤S64)。

[数30]

ρ^tp=ηΣk=1vt|Xt(kf0t)|2-vtρt1-ηvt---(45)

η=2Σt=0Len-1w(n)2(Σt=0Len-1w(n))2---(46)

这里,将f0t设为对应于估计基本频率的频谱的BIN号,将vt设为表示 M/g的整数部分的函数。该周期性分量的功率^ρpt也可以不使用频谱进行估 计。其估计如下。首先,利用基本频率估计单元63的输出在z区域中的表现 中,构成具有由H(z)=1-z-f0t来表示的频率特性的梳型滤波器。接着,将该梳 型滤波器应用于平均化信号,获得相当于梳型滤波器的频率特性中的零点的 部分(基本频率分量及其整数倍的频率分量)的功率被抑制的离散信号。其 结果,若将所获得的信号的非周期分量功率设为^ρat,则通过下式可估计周期 性分量的功率。

[数31]

ρ^tp=ρt-ρ^ta---(47)

也可以将这样求出的^ρpt作为周期性分量功率计算单元64的输出。

减法计算单元65通过式(48),从功率计算单元62输出的功率ρt减去 周期性分量功率计算单元64输出的周期性分量的功率^ρpt,从而估计周期性 分量以外的非周期性分量的功能^ρat(步骤S65)。

[数32]

ρ^ta=ρt-ρ^tp---(48)

另外,在前述中,首先求出周期性分量功率^ρpt后接着求出了非周期性 分量^ρat,但利用将周期性分量功率^ρpt与非周期性分量功率^ρpt相加等于ρt这一点,除了首先求出周期性分量功率^ρpt的方法以外,还可以如下那样先求 出非周期性分量功率^ρat后,通过减法运算单元65求出周期性分量功率^ρpt

[数33]

ρ^ta=ρt-Σk=1vt|Xt(kf0t)|21-ηvt---(49)

ρ^tp=ρt-ρ^ta---(50)

以如以上那样获得的周期性分量功率^ρpt与非周期性分量功能^ρat作为输 入,在除法运算单元66中,根据式(51)取得它们之间的比例(步骤S66) 并输出。

[数34]

Rt(a,p)=ρ^tpρ^ta---(51)

概率计算单元67以除法运算单元66输出的比的值作为输入,根据下式 算出平均化信号属于非语音状态的概率以及属于语音状态的概率b2,jt)(语 音/非语音概率)(步骤S67)。

[数35]

b2,0(ρt)=C0exp{-(Rt(a,p))22}---(52)

b2,1(ρt)=C1exp{-12(Rt(a,p))2}---(53)

这里,C0、C1是正态分布的常数项,是进行校正使得对exp的项进行积 分时的值成为1的系数。

[语音/非语音状态概率比计算单元95’]

在实施例1中,为了根据式(38)计算语音/非语音状态概率比L(t),使 用声音信号分析单元10输出的语音/非语音概率bw,1,j(Ot),根据式(37)来求 出了正向条件概率αt,j。实施例2的语音/非语音状态概率比计算单元95’为了 根据式(38)来计算语音/非语音状态概率比L(t),利用对声音信号分析单元 10输出的语音/非语音概率bw,1,j(Ot)乘以第2声音信号分析单元60输出的语音 /非语音概率b2,jt)的值,根据式(54)来计算正向条件概率αt,j,这一点与实 施例1中的语音/非语音状态概率比计算单元95不同。除此之外的动作相同。

[数36]

αt,j=(αt-1,0a0,jt-1,1a1,j)bw,1,j(Ot)·b2,jt)  (54)

根据实施例2的语音信号区间估计装置200,对语音信号区间估计装置 100还考虑基于周期性分量功率与非周期性分量功率的估计误差的语音/非语 音概率,因此还可以进一步提高语音信号区间估计的精度。

实施例3

图18表示本发明的附有噪声抑制功能的语音信号区间估计装置300的功 能结构例。附有噪声抑制功能的语音信号区间估计装置300对语音信号区间 估计装置100追加噪声抑制单元70的结构,从而输出语音区间信号、以及抑 制了在该语音区间的声音信号中包含的噪声的噪声抑制信号。

噪声抑制单元70以声音信号、声音信号分析单元10输出的语音/非语音 概率bw,1,j(Ot)、以及语音/非语音状态概率比计算单元20输出的语音状态/非语 音状态概率比L(t)作为输入,抑制在声音信号At中包含的噪声。

图19表示噪声抑制单元70的功能结构例。噪声抑制单元70包括无声用 滤波器系数生成单元71、语音用滤波器系数生成单元72、滤波器系数合并单 元73、噪声抑制滤波器应用单元74。

无声用滤波器系数生成单元71与语音用滤波器系数生成单元72分别根 据在声音信号分析单元10内计算的适应于帧t中的噪声环境的语音/非语音 GMM参数μ0,t,j,k,l、∑0,t,j,k,l、以及对应分布索引SortIdxt,j,1~SortIdxt,j,(Rt,j),生成用 于取出无声分量或语音分量的滤波器系数Filtert,j,l。对应分布索引例如在图7 所示的例子中是对应分布索引SortIdxt,j,1~SortIdxt,j,3(这里Rt,j=3)。

[数37]

Filtert,0,1=(1-β)Σk=1Rt,0{wSort,t,0,kexp{μS,0,SortIdxt,j,k,l}exp(μO,t,SortIdxt,j,k,l)}+β---(55)

Filtert,1,1=(1-β)Σk=1Rt,1{wSort,t,1,kexp{μS,0,SortIdxt,j,k,l}exp(μO,t,1,SortIdxt,j,k,l)}+β---(56)

在式(55)与式(56)中,β(0≤β≤1)是用于控制噪声的抑制量的系数, 在β=0时完全抑制噪声,在β=1时不进行噪声的抑制。

滤波器系数合并单元73接受语音状态/非语音状态概率比L(t),合并在 无声用滤波器系数生成单元71与语音用滤波器系数生成单元72中获得的滤 波器系数Filtert,0,l以及Filtert,1,l,并根据下式来获得最终的噪声抑制滤波器系 数Filtert,l

[数38]

Filtert,1=αt,0·Filtert,0,1t,1·Filtert,1,1  (57)

另外,αt,0、αt,1是根据式(37)算出的正向条件概率,基于αt,0t,1=1的 定义,根据下式来获得语音状态/非语音状态概率比L(t)。

[数39]

αt,0=11+L(t)---(58)

αt,1=L(t)1+L(t)---(59)

噪声抑制滤波器应用单元74通过下式将在滤波器系数合并单元73中获 得的噪声抑制滤波器系数Filtert,l变换为脉冲响应滤波器系数filtert,n

[数40]

filtert,n=ΣlMelDCTl,n·Filtert,l---(60)

这里,MelDCTPm,n是进行了梅尔频率的加权的离散余弦变换(DCT: Discret Cosine Transform)系数。MelDCTPm,n的计算方法例如记载在参考文献 “ETSI ES 202 050 v.1.1.4,“Speech processing,Transmission and Quality  aspects(STQ),Advanced Distributed Speech Recognition;Front-end feature  extraction algorithm;Compression algorithms,”November 2005.p.18-p.19“5.1. 9Mel IDCT””。从而,省略其说明。

此后,通过对多声道的输入声音信号At,ch,n如下式那样卷积脉冲响应 filtert,n,从而获得多声道的噪声抑制语音st,ch,n

[数41]

st,ch,n=Σmfiltert,n-m·At,ch,m---(61)

该噪声抑制信号st,ch,n是噪声抑制单元74的输出信号。另外,以对语音 信号区间估计装置100追加噪声抑制单元70的结构的例子进行了说明,但通 过对语音信号区间估计装置200追加噪声抑制单元70,还能够构成附有噪声 抑制功能的语音信号区间估计装置。

另外,附有噪声抑制功能的语音信号区间估计装置300设为对语音信号 区间估计装置100追加了噪声抑制单元70的结构的结构,但也可以设为对上 述的语音信号区间估计装置200追加了噪声抑制单元70的结构的附有噪声抑 制功能的语音信号区间估计装置。

[实验结果]

进行了评价本发明的语音信号区间估计装置的语音信号区间检测性能的 实验。实验条件如下。对数据库利用了用于语音信号区间检测的评价而设计 的CENSREC-1-C。CENSREC-1-C包含人工生成的仿真数据与在实际环境中 收录的实际数据的两种数据,在本实验中,由于调查实际环境中的噪声以及 产生变形的影响等的语音质量劣化的影响,因此利用实际数据进行了评价。 CENSREC-1-C表示在参考文献“CENSREC-1-C:雑音下音声区間検出評価基 盤の構築、情報処理学会研究報告、SLP-63-1,pp.1-6,Oct.2006.”。

CENSREC-1-C的实际数据的收录在学生食堂与街头这两种环境中进行, SN比(SNR)分别是高SNR(噪声等级60dB(A)前后)与低SNR(噪声 等级70dB(A)前后)。(A)表示计测的特性。语音数据以一名说话者将1~12 位的连续数字以约2秒间隔说话8~10次的语音作为一个文件进行收录,在各 环境中对每个说明书收录4个文件。说话者是10名(男女各5名)(其中评 价对象是除了一名男性之外的9名的数据)。

各个信号是以采样频率8kHz、量化比特数16比特离散采样后的单声道 信号。对该声音信号,将一帧的时间长度设为25ms(200样本点),每10ms (80样本点)移动帧的始点后应用了声音信号分析处理与第2声音信号分析 处理。

对GMM,利用将12维的对数梅尔谱设为声音特征量的混合分布数32 的模型,并分别利用无声信号、去噪语音信号学习。在参数预测处理单元112 中用于求出当前帧的噪声概率模型参数预测值的参数ε设定为0.001。必要分 布决定处理单元117的阈值X设定为0.9,状态转移概率a0,0、a0,1、a1,0、a1,1的值分别设定为0.8、0.2、0.9、0.1。语音信号区间估计单元96的阈值处理 单元960(图13)的阈值TH的值设定为10,无声用滤波器系数生成单元71 与声音用滤波器系数生成单元72(图19)的噪声的抑制控制系数β设定为 0.0。

性能的评价通过下式的区间检测正确率Correct rate与区间检测正确精度 Accuracy来进行。

[数42]

Correct_rate=NcN×100[%]---(62)

Accuracy=Nc-NfN×100[%]---(63)

这里,N是总发话区间数,Nc是正确发话区间检测数、Nf是误发话区间 检测数。区间检测正确率Correct rate是用于评价能够检测多少的发话区间的 尺度,区间检测正确精度Accuracy是用于评价能够检测多少发话区间而不会 过于不足的尺度。

图20表示评价结果。图20的A1、A2表示在CENSREC-1-C数据库规 定的基线,图20的B1、B2表示基于在非专利文献2公开的方法的结果,图 20的C1、C2表示本发明取得的结果。相对于90.43%的区间检测正确率Correct  rate的平均,在本发明中改善了1.6%而成为92.03%。此外,区间检测正确精 度Accuracy的平均相对于非专利文献2改善了4.72%。图21B表示在本发明 的语音信号区间估计装置中获得的噪声抑制输出的信号波形。图21B是声音 输入信号波形。这样通过提案技术,能够有效地抑制噪声。

如上所述,通过本发明的方法,即仅利用必要的分布的概率模型来估计 语音信号区间,从而缩短处理时间,并通过在概率权重计算处理单元116中 获得的概率权重wKurt,t,j加权,从而强调非语音GMM的输出概率与语音GMM 的输出概率的差异,从而能够提高非语音/语音的识别性。

另外,说明了在实施例1的参数预测处理单元112中,通过随机游走过 程,从一帧之前的估计结果来预测当前帧的参数的方法,但也可以利用自反 馈法(线性预测法)等。此时,能够期待根据自反馈系数的次数来提高最终 的噪声模型参数的估计性能。此外,代替GMM存储单元94,也可以利用 HMM(隐马尔科夫模型)等其他的概率模型作为声音信号的概率模型。

此外,在上述方法以及装置中说明的处理并不限定于根据记载的顺序按 照时序执行,也可以根据执行处理的装置的处理能力或需要,设为并列或单 独执行。

此外,在通过计算机来实现上述装置中的处理部件的情况下,各装置应 有的功能的处理内容通过程序来记述。此外,通过由计算机执行该程序,从 而在计算机上实现各装置中的处理部件。

记述了该处理内容的程序能够预先记录在计算机可读取的记录介质。作 为计算机可读取的记录介质,例如,可以是磁记录装置、光盘、光磁记录介 质、半导体存储器等任何记录介质。具体地说,例如,作为磁记录装置,可 以使用硬盘装置、软盘、磁带等,作为光盘,可以使用DVD(数字视频光盘)、 DVD-RAM(随机存取存储器)、CD-ROM(只读光盘存储器)、CD-R(可记 录)/RW(可重写)等,作为光磁记录介质,可以使用MO(光磁盘)等,作 为半导体存储器,可以使用EEP-ROM(电可擦可编只读存储器)等。

此外,通过例如将记录了该程序的DVD、CD-ROM等可移动记录介质 进行销售、转让、出借等,从而进行该程序的流通。此外,也可以预先在服 务器计算机的记录介质中存储该程序,经由网络,从服务器计算机向其他的 计算机转发该程序,从而使该程序流通。

此外,各处理部件也可以通过在计算机上执行规定的程序而构成,这些 处理内容的至少一部分也可以通过硬件来实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号