首页> 中国专利> 有声无声判定装置和有声无声判定方法

有声无声判定装置和有声无声判定方法

摘要

本发明提供一种有声无声判定装置和有声无声判定方法,其中有声无声判定装置10具有:自相关计算部11,计算输入信号的自相关值;延迟计算部12,计算算出的自相关值为最大的延迟;杂音判定部13,基于算出的延迟判定输入信号是否为杂音;杂音推定部14,根据输入信号推定杂音;有声无声判定部15,基于杂音判定部13的判定结果和杂音推定部14推定的杂音以及输入信号判定输入信号有声或无声;有声区间检测部16,基于有声无声判定部15的判定结果对有声区间的持续时间进行计时。杂音推定部14在有声区间的持续时间为一定时间以上时,改变杂音推定方法,使得容易将输入信号判定为有声。

著录项

  • 公开/公告号CN1648994A

    专利类型发明专利

  • 公开/公告日2005-08-03

    原文格式PDF

  • 申请/专利权人 株式会社NTT都科摩;

    申请/专利号CN200410104896.4

  • 发明设计人 仲信彦;大矢智之;

    申请日2004-12-24

  • 分类号G10L11/02;

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人曲瑞

  • 地址 日本东京

  • 入库时间 2023-12-17 16:21:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-02-10

    未缴年费专利权终止 IPC(主分类):G10L11/02 授权公告日:20070620 终止日期:20141224 申请日:20041224

    专利权的终止

  • 2007-06-20

    授权

    授权

  • 2005-09-28

    实质审查的生效

    实质审查的生效

  • 2005-08-03

    公开

    公开

说明书

技术领域

本发明涉及有声无声判定装置和有声无声判定方法。

背景技术

在便携电话和因特网电话中,以消减发送功率和有效利用传送频带为目的的所谓间歇发送的技术得到利用。所谓间歇发送是指这样的技术:在有声音的有声区间内发送对声音编码后的信息,另一方面,在没有声音的无声区间内发送比声音信息少的信息量的信息,或者停止发送信息。为了进行这种间歇发送,利用有声无声判定装置,判定输入信号在包含声音的有声区间还是在不需要发送信息的无声区间。

例如,下述非专利文献1中记载的有声无声判定装置用规定的杂音推定方法从输入信号中推定背景杂音,用推定的背景杂音和输入信号之比(S/N比)来判定是有声区间还是无声区间。

非专利文献1:3GPP TS 26.094 V3.0.0(http://www.3gpp.org/ftp/Specs/html-info/26094.htm)

发明内容

但是,在上述现有的有声无声判定装置中,有以下问题。即,通常,由于杂音性质随时间变化等原因,随着时间的推移,杂音推定精度下降。杂音推定精度的下降在有声区间长时间持续时尤其显著。上述现有的有声无声判定装置持续使用这种精度低下的推定背景杂音进行有声无声判定,因此,随着时间的推移(尤其在有声区间长时间继续时),有声无声判定精度下降。结果,就有这样的问题:在上述现有的有声无声判定装置中,随着时间的推移(尤其在有声区间长时间继续时),错误地将有声区间判定为无声区间的频率变高。

因此,本发明旨在解决上述问题,提供一种无论时间如何推移都能正确地判定有声区间的有声无声判定装置和有声无声判定方法。

为了解决上述课题,本发明的有声无声判定装置,其特征在于,具有:有声无声判定单元,根据规定的判定条件来判定输入信号是否有声;计时单元,基于上述有声无声判定单元的判定结果,对有声区间的持续时间进行计时,其中上述有声无声判定单元在由上述计时单元计时的上述有声区间的持续时间为一定时间以上时,缓和上述判定条件,以使得易于将上述输入信号判定为有声。

为了解决上述课题,本发明的有声无声判定方法,根据规定的判定条件来判定输入信号是否有声,其特征在于,在判定为有声区间的时间在一定时间以上时,缓和上述判定条件,以使得易于将上述输入信号判定为有声。

在判定为有声区间的时间在一定时间以上时,通过缓和判定输入信号是否为有声的判定条件,即使随着时间的推移杂音推定精度下降,也能降低错误地将有声区间判断为无声区间的频率。

本发明的有声无声判定装置的特征在于,上述有声无声判定单元基于利用规定的杂音推定方法推定的杂音来判定上述输入信号是否有声,当由上述计时单元计时的上述有声区间的持续时间为一定时间以上时,改变上述杂音推定方法,以使得易于将上述输入信号判定为有声。

有声区间的持续时间为一定时间以上时,通过改变杂音推定方法以便容易判定为有声,即使随着时间的推移,杂音推定精度下降,也能降低错误地将有声区间判断为无声区间的频率。这时,根据随时间变化的杂音的性质,可以提高杂音的推定精度。

本发明的有声无声判定装置和有声无声判定方法通过缓和在判定为有声区间的时间为一定时间以上时判定输入信号是否为有声的判定条件,即使随着时间的推移杂音推定精度下降,也能降低错误地将有声区间判断为无声区间的频率。结果,无论时间如何推移,都能正确地判定有声区间。

附图说明

图1是根据本发明实施方式的有声无声判定装置的构成图;

图2是根据本发明实施方式的有声无声判定装置的操作流程图。

具体实施方式

参考附图说明根据本发明实施方式的有声无声判定装置。

首先,说明根据本实施方式的有声无声判定装置的构成。图1是根据本实施方式的有声无声判定装置的构成图。

根据本实施方式的有声无声判定装置10物理上作为计算机系统来构成,具备CPU(中央处理器)、存储器、鼠标或键盘等输入装置、显示器等显示装置、硬盘等存储装置、通过无线和外部设备进行数据通信的无线通信单元等。在功能上,如图1所示,有声无声判定装置10具有自相关计算部11,延迟计算部12,杂音判定部13,杂音推定部14,有声无声判定部15,有声区间检测部16(计时装置)。以下,这里,由自相关计算部11,延迟计算部12,杂音判定部13,杂音推定部14和有声无声判定部15构成有声无声判定单元。详细说明有声无声判定装置10的各构成要素。

自相关计算部11计算输入信号的自相关值。具体地说,有声无声判定装置10根据以下的式(1)算出输入信号x(t)的自相关值c(t)。

>>c>>(>t>)>>=>>>>Σ>>n>=>0>>>N>->1> >x>>(>n>)>>x>>(>n>->t>)>>>>>>Σ>>n>=>0>>>N>->1> >>x>2>>>(>n>)> >>>Σ>>n>=>0>>>N>->1> >>x>2>>>(>n>->t>)> > >->->->>(>1>)>>>s>

这里,x(n)(n=0,1,...,N)是在经过一定时间(例如20msec)后每隔一定时间间隔(例如1/8000sec)对x(t)采样得到的第n个值。对于自相关值c(t),也是作为在一定时间(例如18msec)后每隔一定时间间隔(例如1/8000sec)的离散值而得到。

此外,自相关计算部11不一定严密地按上述式(1)算出自相关值。例如,自相关计算部11也可以基于广泛用于声音编码过程中的带听觉加权的输入信号而算出自相关值。

延迟计算部12算出使由自相关计算部11计算的自相关值为最大的延迟。具体地说,延迟计算部12扫描预定的延迟观测区间(例如AMR时为18~143)内的自相关值,算出自相关值为最大的延迟。

杂音判定部13基于延迟计算部12算出的延迟来判定输入信号是否为杂音。例如,杂音判定部13利用延迟计算部12算出的延迟t_max的时间变动t_max(t)(1≤t≤T)判定输入信号是否为杂音。这里,t是表示时刻的从属变量。具体地说,在满足式(2)所示条件的状态持续一定时间的情况下(如果定性地说,是延迟变动小的状态持续一定时间时),杂音判定部13判定输入信号不是杂音。相反,在满足式(2)所示条件的状态不持续一定时间的情况下,杂音判定部13判定输入信号是杂音。

|t_max(t)-t_max(t-1)|≤d  …(2)

此外,式(2)中,d是预定的阈值。这里,杂音判定部13也可以用上述过程以外的过程判定输入信号是否为杂音。

杂音推定部14从输入信号中推定杂音。具体地说,杂音推定部14例如根据下述式(3),推定杂音。

noisem+1(n)=(1-α)·noisem(n)+α·inputm-1(n)  …(3)

这里,noise是推定杂音,input是输入信号,n是表示频带的指数,m是表示时刻(帧)的指数,α是系数。即,noisem(n)表示第n个频带内时刻(帧)m的推定杂音。这里,杂音推定部14根据杂音判定部13的判定结果来改变上述式(3)的系数α。即,杂音判定部13判定输入信号不是杂音时,杂音推定部14使上述式(3)的系数α为0或者接近0的值α1,以便不增大推定杂音功率。另一方面,杂音判定部13判定输入信号为杂音时,杂音推定部14使上述式(3)的系数α为1或者接近1的值α2(α2>α1),以便使推定杂音接近输入信号。此外,杂音推定部14也可以用上述过程以外的过程从输入信号中推定杂音。

有声无声判定部15基于杂音判定部13的判定结果和输入信号以及杂音推定部14推定的杂音,判定输入信号有声或无声。具体地说,例如,有声无声判定部15根据杂音推定部14推定的杂音和输入信号计算出S/N比(更准确地说是各频带的S/N比的累计值或平均值)。有声无声判定部15把算出的S/N比和预定的阈值相比较,S/N比大于阈值时,判定为输入信号是有声的,S/N比小于或等于阈值时,判定为输入信号是无声的。这里,上述阈值设定成随杂音判定部13的判定结果的不同而不同。即,杂音判定部13判定为“非杂音”时的阈值设定得比杂音判定部13判定为“杂音”时的阈值低。这样,杂音判定部13判定为“非杂音”时,S/N比小的信号(即埋在杂音中的信号)也作为“有声”被提取出来的可能性高。此外,有声无声判定部15也可以用上述过程以外的过程判定有声或无声。即,例如,利用上述阈值,无论杂音判定部13的判定结果如何,有声无声判定部15一律基于输入信号和杂音推定部14推定的杂音来判定输入信号有声或无声。有声无声判定部15还可以利用输入信号的分析结果(功率,谱包络,过零数等),判定输入信号有声还是无声。这里,所谓“无声”是指作为信息没有意义的声音,相当于背景杂音等。另一方面,所谓“有声”是指作为信息有意义的声音,相当于人声和音乐等。

有声区间检测部16基于有声无声判定部15的判定结果对有声区间的持续时间进行计时。具体地说,有声区间检测部16直接利用从有声无声判定部15输出的“有声”或“无声”的判定结果对有声区间的持续时间进行计时。有声区间检测部16可以通过对由未图示的声音编码部以大于或等于一定的阈值的编码速率(AMR时为大于或等于4.75kbps的编码速率)进行声音编码的时间进行计时,计时有声区间的持续时间。当有声无声判定部15判断输入信号为有声时,通过声音编码部对该输入信号进行编码,因此,增大声音编码部的编码速率。

杂音推定部14在有声区间检测部16计时的有声区间的持续时间大于或等于一定时间时,改变杂音推定方法,使得容易将输入信号判定为有声。具体地说,杂音推定部14在有声区间检测部16计时的有声区间的持续时间大于或等于一定时间时,将用于推定杂音的上述式(3)中的单位时间前(1帧前)的推定杂音noisem(n)重置为初始值noise0(n),这里,初始值noise0(n)被设定为与有声区间的输入信号相比充分小的值,从而通过将上述式(3)中的单位时间前(1帧前)的推定杂音noisem(n)重置为初始值noise0(n),减小了推定杂音,在有声无声判定部15中容易将输入信号判定为有声。

接着,说明根据本实施方式的有声无声判定装置的操作以及根据本发明实施方式的有声无声判定方法。图2是根据本实施方式的有声无声判定装置的操作流程图。

当向有声无声判定装置10输入输入信号时,首先,通过自相关计算部11算出输入信号的自相关值(S11)。具体地,根据上述式(1),算出输入信号x(t)的自相关值c(t)。

当通过自相关计算部11算出输入信号的自相关值时,通过延迟计算部12算出使自相关计算部11计算出的自相关值为最大的延迟(S12)。具体地说,扫描预定的延迟观测区间内的自相关值,算出自相关值为最大的延迟。

当通过延迟计算部12算出延迟时,基于判定延迟计算部12算出的延迟,通过杂音判定部13判定输入信号是否为杂音(S13)。具体地说,满足上述式(2)所示条件的状态持续一定时间时,判定为输入信号不是杂音。相反,满足式(2)所示条件的状态未持续一定时间时,判定输入信号是杂音。

接着,通过杂音推定部14从输入信号中推定杂音(S14)。具体地说,根据上述式(3),推定杂音。这里,上述式(3)的系数α随杂音判定部13的判定结果变化。即,杂音判定部13判定出输入信号不是杂音时,使上述式(3)的系数α为0或者接近0的值α1,以便不增大推定杂音功率。另一方面,杂音判定部13判定输入信号为杂音时,使上述式(3)的系数α为1或者接近1的值α2(α2>α1),以便使推定杂音接近输入信号。

当通过杂音推定部14推定杂音时,基于杂音判定部13的判定结果、输入信号以及杂音推定部14推定的杂音,有声无声判定部15判定输入信号是有声或无声(S15)。具体地说,例如,根据杂音推定部14推定的杂音和输入信号计算出S/N比,将算出的S/N比和预定的阈值相比较。这里,S/N比大于阈值时,判定输入信号为有声,S/N比小于或等于阈值时,判定输入信号为无声。

这里,通过有声区间检测部16对有声区间的持续时间进行计时。具体地说,可以直接利用有声无声判定部15输出的“有声”或“无声”的判定结果来对有声区间的持续时间进行计时,也可以通过对声音编码部以大于或等于一定阈值的编码速率进行声音编码的时间进行计时,来计时有声区间的持续时间。

有声区间检测部16计时的有声区间的持续时间大于或等于一定时间时(S16),改变杂音推定方法,以便容易判定输入信号为有声(S17)。更具体地说,有声区间检测部16计时的有声区间的持续时间大于或等于一定时间时,在杂音推定部14中将用于推定杂音的上述式(3)中的单位时间前(1帧前)的推定杂音noisem(n)重置为初始值noise0(n)。这里,初始值noise0(n)和有声区间的输入信号相比设定为非常小的值,因此,通过将上述式(3)中的单位时间前(1帧前)的推定杂音noisem(n)重置为初始值noise0(n),减小了推定杂音,在有声无声判定部15中容易判定输入信号为有声。

接着,说明根据本实施方式的有声无声判定装置的作用和效果。根据本实施方式的有声无声判定装置10通过有声区间检测部16对有声区间的持续时间进行计时,当有声区间的持续时间大于或等于一定时间时,杂音推定部14改变杂音推定方法,使得容易判定为有声(具体地说,将用于推定杂音的上述式(3)中的单位时间前(1帧前)的推定杂音noisem(n)重置为初始值noise0(n))。因此,即使随着时间的推移杂音推定精度下降,也能降低错误地将有声区间判断为无声区间的频率。结果,无论时间如何推移,都能正确地判定有声区间。

当有声区间的持续时间为大于或等于一定时间时,通过把用于推定杂音的上述式(3)中的单位时间前(1帧前)的推定杂音noisem(n)重置为初始值noise0(n),则即使杂音的性质随时间而变化,也能提高杂音的推定精度。

在根据上述实施方式的有声无声判定装置10中,有声区间检测部16计时的有声区间的持续时间大于或等于一定时间时,改变杂音推定方法,使得在杂音推定部14容易将将输入信号判定为有声。但是,在有声区间检测部16计时的有声区间的持续时间大于或等于一定时间时,缓和是否有声的判定条件以便容易将输入信号判定为有声的本发明技术思想的范围内可以考虑作出各种变形。例如,当有声区间检测部16计时的有声区间的持续时间大于或等于一定时间时,可以改变自相关计算部11的自相关计算方法、延迟计算部12的延迟计算方法、杂音判定部13的杂音判定方法、有声无声判定部15的有声无声判定方法。具体地说,有声区间检测部16计时的有声区间的持续时间大于或等于一定时间的情况下,判定是否有声时,考虑改变输入信号的自相关、谱包络、延迟、推定杂音功率、S/N比等参数的利用方法,或者将这些参数重置为初始值。

本发明例如在便携电话和因特网电话的通信中,用作有声无声判定装置,判定输入信号是包含声音的有声区间还是不需要发送信息的无声区间。

当然,以上说明的本发明的实施方式可以采用各种变形方式。这些变形方式不脱离本发明的主题和目的,下述请求范围旨在包含所有上述变形方式的技术内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号