首页> 中国专利> 用于恢复由于对测试语音信号进行噪声去除导致在测试噪声去除后语音信号中衰减的谱成分的方法

用于恢复由于对测试语音信号进行噪声去除导致在测试噪声去除后语音信号中衰减的谱成分的方法

摘要

通过将训练无畸变语音信号表示为训练无畸变基本成分的组合并且将训练噪声去除后语音信号表示为训练有畸变基本成分的组合来恢复由于对测试语音信号进行噪声去除导致在测试噪声去除后语音信号中衰减的谱成分。测试噪声去除后信号被分解为训练有畸变基本成分的组合。无畸变测试语音信号然后被估计为与训练有畸变基本成分的组合相同的训练无畸变基本成分的组合。

著录项

  • 公开/公告号CN103238181A

    专利类型发明专利

  • 公开/公告日2013-08-07

    原文格式PDF

  • 申请/专利权人 三菱电机株式会社;

    申请/专利号CN201180057912.7

  • 发明设计人 R·辛格;

    申请日2011-11-08

  • 分类号G10L21/0208;G10L21/0272;G10L21/038;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人李辉

  • 地址 日本东京都

  • 入库时间 2024-02-19 19:37:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-06-10

    授权

    授权

  • 2013-09-04

    实质审查的生效 IPC(主分类):G10L21/0208 申请日:20111108

    实质审查的生效

  • 2013-08-07

    公开

    公开

说明书

技术领域

本发明一般地涉及噪声去除后语音信号,并且更具体地涉及恢复由于噪声去除而 导致在语音信号中衰减的谱成分。

背景技术

语音信号常常在噪声环境中被获取。除了降低语音的感觉品质和清晰度之外,噪 声还不利地影响了下游处理,例如,用于通常为了与无畸变的“清晰”语音信号相关的 效率性能而优化的用于发送的编码和识别。为此,需要在进一步处理之前对信号进行 噪声去除。已知大量的噪声去除方法。通常,传统的方法首先对噪声进行估计,并且 然后通过减法或滤波来减少噪声。

问题在于,噪声估计通常是不准确的,特别是当噪声随时间变化的时候。结果, 在噪声去除之后剩余一些残留噪声,并且携带谱成分的信息被衰减。例如,如果在车 辆中要求语音然后进行噪声去除,则诸如/S/的摩擦音的高频成分和诸如/M/、/N/和/L/ 的鼻音和流体音的超低频成分被衰减。这是由于汽车噪声是由高频和低频主导的,并 且减少噪声导致语音信号中的这些谱成分的衰减。

虽然噪声去除获得了具有改进的感觉品质的信号,但是语音的清晰度常常没有得 到改进,即,虽然噪声去除后信号听起来是无畸变的,但是分辨出所说的内容的能力 被降低了。在一些情况下,特别是当噪声去除程度较强时或者当噪声随时间变化时, 与有噪声信号相比,噪声去除后信号的清晰度较低。

该问题是由于不完全的处理而导致的。不管怎样,对于集成有第三方噪声去除硬 件或软件的语音接口装置来说,这是一个非常现实的问题。噪声去除技术常常是集成 到装置中的“黑匣子”,并且只有噪声去除后信号才是可用的。在该情况下,很重要的 是在某种程度上恢复由于噪声去除而衰减的语音信息的频谱成分。

发明内容

噪声使得语音信号劣化,从而影响了感觉品质,清晰度以及下游处理(例如,用 于进行传输的编码或者语音识别)。因此,对有噪声语音进行噪声去除。通常,噪声 去除方法对噪声的估计(其常常是不准确的)进行减法或滤波。结果,噪声去除会使 得语音的谱成分衰减,并且降低了清晰度。

训练无畸变语音信号被表示为训练无畸变基本成分的组合。训练噪声去除后语音 被表示为训练有畸变基本成分的组合。将测试噪声去除后语音信号分解为训练有畸变 基本成分的组合。然后,对应的测试无畸变语音信号能够被估计为训练无畸变基本成 分的相同组合。

附图说明

图1是根据本发明的实施方式的噪声去除处理100的模型。

图2是根据本发明的实施方式的恢复测试噪声去除后语音信号中的谱成分的方 法的流程图;

图3是详细示出到时域信号的估计的短时傅立叶变换的变换的流程图;以及

图4是详细示出到执行带宽扩展时的信号的估计的短时傅立叶变换的变换的流 程图。

具体实施方式

本发明的实施方式提供了用于恢复由于对测试语音信号进行噪声去除而导致在 测试噪声去除后语音信号中衰减的谱成分以增强噪声去除后信号中的语音的清晰度 的方法。

该方法受限于噪声去除的实际方面。首先,噪声去除通常是“黑匣子”。估计噪声 的方式以及实际的噪声减少过程都是未知的。其次,单独地记录噪声本身通常是不可 能或不现实的,并且没有噪声的外部估计可用于理解噪声去除如何影响语音的任何谱 成分。第三,处理必须在没有将噪声重引入信号中的情况下恢复语音的被衰减的频谱 成分。

该方法使用语音信号的组合特征描述,其假设信号能够被表示为相加的基本成分 的相加组合。

在一个实施方式中,通过非负矩阵因子分解(NMF)来获得该特征描述,但是 也能够使用其它技术。NMF将矩阵因子分解为具有非负元素的矩阵。NMF已经用于 分离混合语音信号和对语音进行噪声去除。组合模型已经用于扩展频带受限的信号的 带宽。然而,到目前为止了解的是,NMF还没有用于恢复噪声去除后语音信号中的 被衰减的谱成分的特定问题。

相加的基本成分的组合受到噪声去除影响的方式相对恒定,并且能够从包括训练 无畸变信号和训练有畸变语音信号的立体声对的训练数据来获得。通过确定噪声去除 后信号如何用相加的基本成分的组合来表示,能够从基本成分的无畸变版本来估计衰 减后的谱结构,并且接下来进行恢复以提供无畸变的语音。

噪声去除模型

如图1中所示,本发明的实施方式将有损噪声去除处理G()100建模为无损噪声 去除机制F()110和畸变函数D()120的组合,其中,有损噪声去除处理G()100没有 适当地衰减有噪声语音S的谱成分,无损噪声去除机制F()110在没有衰减任何语音 谱成分的情况下对信号中的噪声进行衰减,并且畸变函数D()120对无损噪声去除后 信号X进行修改以产生有损信号Y。

即,利用理想的“无损”噪声去除函数F(S)100对有噪声语音信号S进行处理以产 生假想的无损噪声去除后信号X。然后,噪声去除后信号X通过畸变函数D(X)120, 其对谱成分进行衰减以产生有损信号Y。

目的在于仅利用有损信号Y来估计噪声去除后信号X。本发明的实施方式将无 损信号X表示为加权相加的基本成分wiBi的组合

X=Σi=1KwiBi---(1).

基本成分Bi被假设为表示构成组成噪声去除后语音信号X的各谱结构的不相关 结构单元。畸变函数D()使基本成分畸变以修改基本成分所表示的谱结构。因此,任 何基本成分Bi通过畸变函数变换为Bi畸变=D(Bi)。

假设畸变对于任何基本成分独立于其它基本成分而进行变换,即,

D(Bi|Bj:j≠i)=D(Bi),

其中,D(Bi|Bj:j≠i)表示基本成分Bi的畸变,假设其它基本成分是Bj,同时 有j≠i。该假设除非在基本成分表示不重合的完全的谱结构的情况下才是有效的。 还假设的是,畸变没有修改基本成分被组合以构成信号的方式。这些假设用于简化方 法。上述假设表示为

等式2可推出下述结论,如果所有基本成分Bi及其畸变版本Bi畸变都是已知的, 并且如果能够确定有畸变基本成分构成Y的方式,即,如果能够对权重wi进行估计, 则能够对噪声去除后信号X进行估计。

恢复方法概述

图2示出了用于恢复测试噪声去除后语音信号203中的谱成分的方法200的步 骤。训练无畸变语音信号201表示为训练无畸变基本成分211的组合(210)。训练噪 声去除后语音202表示为训练有畸变基本成分221的组合(220)。通过根据训练有畸 变基本成分221的组合分解测试噪声去除后语音信号203(230),能够将对应的测试 无畸变语音信号204估计为与训练有畸变基本成分221的组合相同的训练无畸变基本 成分211的组合(240)。上述方法的步骤能够在如本领域中已知的连接到存储器和输 入/输出接口的处理器中执行。

表示信号

图1中示出并描述的模型主要是谱模型。该模型利用了不相关信号的组合,这导 致了所有信号的谱特征描述,这是因为,不相关信号的电力谱是相加的。因此,所有 语音信号被表示为通过确定信号的短时傅立叶变换(STFT)并计算其成分的振幅而 获得的振幅谱图。在理论上,进行相加的是电力谱。然而,根据经验,加法对于振幅 谱来说更好。

用于STFT的最优分析帧是40-64ms。因此,通过在信号上滑动64ms的窗口来 对语音信号进行分段,从而产生帧。在每帧上计算傅立叶谱以获得复合谱矢量。用于 所有帧的复合谱矢量组构成了用于信号的复合谱图。用于所有帧的振幅谱矢量构成了 振幅谱图。用于各帧的谱表示为矢量,例如,X(t)、Y(t)。

S、X和Y分别表示有噪声语音的振幅谱图、无损噪声去除后语音和有损噪声去 除后语音。基本成分Bi及其畸变版本Bi畸变表示振幅谱矢量。信号X的第t个分析帧 (表示为X(t))的振幅谱假设是由无损基本成分Bi如下地组合

X(t)=Σiwi(t)Bi,

并且有损信号Y的对应帧的振幅谱为

而且,权重现在都是非负的,这是因为等式的模型中的权重的符号被并入了用于 基本成分的谱的相位中,并且没有出现在信号的振幅谱与基本成分之间的关系中。

谱恢复方法根据有损信号Y的振幅谱图来估计无损振幅谱图X。估计的振幅谱 图被逆变换到时域信号。为此,使用有损信号的复合谱图的相位。

恢复方法详述

为了进行恢复,在训练阶段中,用于信号X的无损基本成分Bi211和对应的用 于信号Y的有损基本成分Bi畸变221是从训练数据(即,训练无畸变语音信号201和 训练噪声去除语音信号202)获得的。在训练之后,在该方法的操作过程中,这些基 本成分用于估计噪声去除后信号X。

获得基本成分

由于畸变函数D()120是未知的,因此基本成分Bi和Bi畸变是通过信号X和对应的 信号Y的共同记录的分析一起获得的。因此,在训练阶段需要训练信号X和Y的共 同记录。然而,信号X不是直接可用的,并且替代地使用下面的近似。

无畸变(清晰)训练语音信号C被利用以数字形式添加的噪声人为地劣化以获 得有噪声信号S。然后,利用噪声去除处理110对信号S进行处理以获得对应的信号 Y。“无损噪声去除后”信号X是假想的实体,其也是未知的。替代地,原始的无畸变 清晰信号C用作用于信号的X的替代。噪声去除处理和畸变函数将延迟引入到信号 中,从而用于Y和C的信号在时间上彼此相对地偏移。

由于等式2的模型假设X的每帧与Y的对应帧是一一对应的,因此,记录的信 号C和Y的采样被在时间上对齐以估计由噪声去除引入的任何相对时间偏移。通过 将信号C的每帧与信号Y的对应帧彼此关联来估计时间偏移。

基本成分Bi被假设为用于信号X的构成基本成分。能够通过利用NMF分析信号 的振幅谱来获得基本成分。然而,作为额外的约束,有畸变基本成分Bi畸变必须是可 靠地已知为实际上是其无畸变对应基本成分Bi的畸变。

因此,使用基于示例的模型,其中确保了这样的对应关系。从信号C中任意地 选择了大多数振幅谱矢量作为用于信号X的基本成分Bi。从信号Y的训练事例中选 择对应的矢量作为Bi畸变。这确保了Bi畸变确实是Bi的近似准确的畸变版本。由于基本 成分表示语音中的谱结构,并且语音中的谱结构的大概数目实际上是没有限制的,可 以选择大量(例如,5000或更多个)训练基本成分。等式1的模型因此变为过于完 全,组合了超过信号的维度的太多元素。

估计权重

用于恢复测试噪声去除信号Y203中的谱成分的方法确定Y的每个谱矢量Y(t) 是如何由有畸变基本成分构成的。如上所述,

如果所有训练有畸变基本成分221的组被表示为矩阵并且权重 的组{wi(t)}表示为矢量:W(t)=[w1(t)w2(t)...]T,则

Y(t)=BW(t)---(3).

矢量W(t)被限制为在估计过程中是非负的。已知各种用于学习权重的更新规则。 对于语音和音频信号,更有效的是,采用使得Y(t)与之间的一般化的 Kullback-Leibler距离最小的更新规则:

其中,表示成分相乘,并且所有除法都是针对成分进行的。由于表示是过完 全的,即,存在多于Y(t)中的维度的基本成分,因此,等式是欠定的并且存在针对 W(t)的多个解,这些解同等良好地描述了Y(t)的特征。

估计具有恢复谱成分的语音

在对于任何Y(t)确定了权重W(t)=[w1(t)w2(t)...]T之后,按照等式2,能够将对应 的无损谱X(t)估计为因为估计过程是迭代的,因此,永远无法 达到等式3中的严密性。替代地,矩阵是对于Y(t)的唯一近似。为了考虑信号 Y中的全部能量,使用下述威纳滤波公式来估计X的谱矢量

上面的所有除法和乘法都是针对成分的,并且ε>0以确保在Y(t)=0时仍然能 够恢复被衰减的谱成分。

图3示出了在估计权重之后恢复无畸变测试信号的整个处理300。通过根据估计 的权重306组合训练无畸变基本成分211来确定等式(5)的分子所示的初始估计 (301)。然后在威纳滤波估计302中使用该结果。获得的STFT被与噪声去除后测试 信号的STFT的相位组合,并且最后通过执行逆STFT304来变换到时域信号305。

扩展带宽

在多数场合下,记录的噪声去除后语音信号具有减小的带宽,例如,如果通过电 话获取了语音,则该语音可以仅包括最高为4kHz的低频,并且4kHz以上的高频丢 失。在这些情况下,该方法能够扩展为将高频谱成分恢复到信号中。这也被预计为改 进了信号的清晰度。为了扩展带宽,能够使用带宽重构过程,参见美国专利 7698143“Constructing broad-band acoustic signals from lower-band acoustic signals” (2010年4月13日授予Ramakrishnan等人),通过引用将其并入这里。该过程仅涉 及从较低频带声学信号构造宽带声学信号,并且没有涉及这里所描述的噪声去除后语 音信号。

在该情况下,训练数据还包括用于训练无畸变信号C的宽带信号。用于C和Y 的训练记录在时间上是对齐的,并且使用相同的分析帧来执行STFT分析。这确保了 在任何共同记录中都在用于信号C和Y的谱矢量之间存在一一对应的关系。因此, 虽然从Y的训练事例获得的基本成分Bi畸变221表示了带宽减少的信号,但是对应的 基本成分Bi211表示宽带信号并且包括高频成分。在对信号进行噪声去除之后,使用 等式5恢复低频成分,并且高频成分获得为

X(t,f)=∑iwi(t)Bi(f),f∈{高频},

其中,f是针对X(t)和Bi的专有频率成分的索引。

上面的估计仅确定了谱振幅。为了将振幅谱图逆变换到时域,还要求信号相位。 从带宽减少的有损噪声去除后信号直接获取用于低频成分的相位。对于更高的频率, 从低频复制相位项是足够的。

图4示出了用于在估计了权重之后利用带宽扩展恢复无畸变测试信号的整个处 理。确定由等式(5)的分子示出的针对低频成分和高频成分的初始估计(401)。使 用威纳滤波估计来402来更新低频成分,同时保持来自步骤401的高频估计。获得的 STFT与低频的噪声去除后测试信号的STFT的相位组合(403)。低频的相位被复制 到高频(404),并且最终通过执行逆STFT405来变换到时域信号。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号