公开/公告号CN105165026A
专利类型发明专利
公开/公告日2015-12-16
原文格式PDF
申请/专利权人 弗劳恩霍夫应用研究促进协会;
申请/专利号CN201380073406.6
申请日2013-11-25
分类号H04R3/00(20060101);G10K11/34(20060101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人梁丽超;陈鹏
地址 德国慕尼黑
入库时间 2023-12-18 12:54:53
法律状态公告日
法律状态信息
法律状态
2019-08-13
授权
授权
2016-01-13
实质审查的生效 IPC(主分类):H04R3/00 申请日:20131125
实质审查的生效
2015-12-16
公开
公开
技术领域
本发明涉及音频信号处理,并且尤其涉及使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法。
背景技术
在现代通信系统中通常发现在噪声和混响条件下提取声源。在过去的四十年,提出了大量空间滤波技术,以完成这个任务。在观察的信号符合信号模型时并且在计算滤波器所需要的信息精确时,现有空间滤波器是最佳的。然而,实际上,通常违背信号模型,并且估计所需要的信息是一项重大的挑战。
现有空间滤波器可广义地分成线性空间滤波器(例如,参照[1,2,3,4])和参数空间滤波器(parametricspatialfilter)(例如,参照[5,6,7,8])。通常,线性空间滤波器需要估计一个或多个传播向量或者期望的一个或多个源的二阶统计量(SOS)加上干扰的SOS。一些空间滤波器被设计为提取混响或去混响的单个源信号(例如,参照[9,10,11,12,13,14,15,16]),而其他空间滤波器被设计为提取两个或更多个混响源信号的和(例如,参照[17,18])。上述方法需要一个或多个期望源的方向的先验知识或仅仅期望源单独地或者同时激活的周期。
这些方法的缺点在于,不能足够快速地适应新情况,例如,在期望源激活时变激活的源移动或竞争扬声器。参数空间滤波器通常基于比较简单的信号模型,例如,在时频域内接收的信号由单个平面波加上扩散声构成,并且根据模型参数的瞬时估计,计算参数空间滤波器。参数空间滤波器的优点是高度灵活的方向响应、扩散声音和干涉源的较强抑制、以及快速适合于新情况的能力。然而,如在[19]中所示,实际上可以容易地违背基本单平面波信号模型,这显著降低参数空间滤波器的性能。应注意的是,现有技术参数空间滤波器使用所有可用的麦克风信号,来估计模型参数,而仅单个麦克风信号和实值增益用于计算最终的输出信号。用于使多个可用麦克风信号相结合以便找出增强的输出信号的扩展不直接(straightforward)。
因此,如果提供用于获得对声源的期望空间响应的改进概念,则被高度支持。
发明内容
因此,本发明的目标在于,提供用于提取声源的改进概念。由根据权利要求1所述的滤波器、根据权利要求17所述的方法以及由根据权利要求18所述的计算机程序,解决本发明的目标。
提供了一种滤波器,该滤波器用于基于两个或更多个输入麦克风信号生成音频输出信号(其包括多个音频输出信号样本)。在时频域中表示音频输出信号和两个或更多个输入麦克风信号,其中,多个音频输出信号样本中的每个被分配给多个时频段(time-frequencybin)中的一个时频段。
该滤波器包括权重生成器,权重生成器被适配成为多个时频段中的每个,接收一个或多个声源的一个或多个声音分量的到达方向信息或一个或多个声源的位置信息,并且被适配为根据所述时频段的一个或多个声源的一个或多个声音分量的到达方向信息或者根据所述时频段的一个或多个声源的位置信息,为多个时频段中的每个生成加权信息。
而且,该滤波器包括输出信号生成器,输出信号生成器用于通过为多个时频段中的每个,生成多个音频输出信号样本中的分配给所述时频段的一个音频输出信号样本,来根据所述时频段的加权信息并且根据分配给所述时频段的音频输入样本,生成两个或更多个输入麦克风信号中的每个的音频输出信号。
实施方式提供了一种空间滤波器,用于获得至多L个同时激活的声源的期望的响应。通过最小化经受L个线性约束的在滤波器的输出处的扩散加噪声功率,获得所提供的空间滤波器。与现有技术概念相反,L个约束基于瞬时窄带到达方向估计。此外,提供用于扩散噪声比/扩散功率的新型估计器,其呈现足够高的时间和光谱分辨率,以实现去混响和噪声降低。
根据一些实施方式,提供了用于获得在每个时间-频率瞬间同时激活的至多L个声源的期望的任意空间响应的概念。为此,关于声音场景的瞬时参数信息(IPI)结合到空间滤波器的设计内,产生“知情空间滤波器(informedspatialfilter)”。
在一些实施方式中,例如,这种知情空间滤波器基于复杂权重(complexweight)使所有可用的麦克风信号组合,以提供增强的输出信号。
根据实施方式,例如,知情空间滤波器可实现为线性约束最小方差(LCMV)空间滤波器或者参数多通道维纳滤波器。
在一些实施方式中,例如,通过最小化经受L个线性约束的扩散加自噪声功率,获得所提供的知情空间滤波器。
在一些实施方式中,相对于现有技术,L个约束基于瞬时到达方向(DOA)估计,并且所产生的对L个DOA的响应与特定的期望方向性对应。
而且,提供用于所需要的信号和噪声统计(例如,扩散噪声比(DNR))的新型估计器,其呈现足够高的时间和光谱分辨率,例如,以减少混响和噪声。
而且,提供了一种用于基于两个或更多个输入麦克风信号生成音频输出信号的方法,所述音频输出信号包括多个音频输出信号样本。在时频域中表示音频输出信号和两个或更多个输入麦克风信号,其中,多个音频输出信号样本中的每个被分配给多个时频段中的一个时频段。该方法包括:
-为多个时频段((k,n))中的每个,接收一个或多个声源的一个或多个声音分量的到达方向信息或一个或多个声源的位置信息,
-根据所述时频段的一个或多个声源的一个或多个声音分量的到达方向信息或者根据所述时频段的一个或多个声源的位置信息,为多个时频段中的每个生成加权信息,并且
-通过为多个时频段((k,n))中的每个,生成分配给所述时频段((k,n))的多个音频输出信号样本中的一个,来根据所述时频段((k,n))的加权信息并且根据分配给所述时频段((k,n))的音频输入样本,生成两个或更多个输入麦克风信号中的每个的音频输出信号。
而且,提供了一种计算机程序,用于在计算机或信号处理器上执行时,实施上述方法。
附图说明
在下文中,参照附图,更详细地描述本发明的实施方式,其中:
图1a示出了根据实施方式的滤波器;
图1b示出了根据实施方式的滤波器的一个可能的应用场景;
图2示出了根据实施方式的滤波器以及多个麦克风;
图3示出了根据实施方式的权重生成器;
图4示出了根据实施方式的两个实例响应的幅度;
图5示出了根据实施线性约束最小方差方法的另一个实施方式的权重生成器;
图6示出了根据实施参数多通道维纳滤波器方法的进一步实施方式的权重生成器;
图7示出了根据时间和频率的真实的和估计的扩散噪声比;
图8示出了比较空间滤波器的方向性指数和白噪声增益;
图9示出了估计的到达方向以及所产生的增益;以及
图10示出了立体扬声器再现的情况的实例。
具体实施方式
图1a示出了滤波器100,其用于基于两个或更多个输入麦克风信号生成音频输出信号(其包括多个音频输出信号样本)。在时频域中表示音频输出信号以及两个或更多个输入麦克风信号,其中,多个音频输出信号样本中的每个被分配给多个时频段(k,n)中的一个时频段(k,n)。
滤波器100包括权重生成器110,其被适配成为多个时频段(k,n)中的每个,接收一个或多个声源的一个或多个声音分量的到达方向信息或一个或多个声源的位置信息,并且被适配为根据所述时频段(k,n)的一个或多个声源的一个或多个声音分量的到达方向信息或者根据所述时频段(k,n)的一个或多个声源的位置信息,为多个时频段(k,n)中的每个,生成加权信息。
而且,滤波器包括输出信号生成器120,其用于通过根据所述时频段(k,n)的加权信息并且根据分配给所述时频段(k,n)的音频输入样本,为多个时频段(k,n)中的每个生成分配给所述时频段(k,n)的所述多个音频输出信号样本中的一个,来生成两个或更多个输入麦克风信号中的每个的音频输出信号。
例如,两个或更多个输入麦克风信号中的每个包括多个音频输入样本,其中,每个音频输入样本被分配给一个时频段(k,n),并且音频信号生成器120可被适配为根据所述时频段(k,n)的加权信息并且根据两个或更多个输入麦克风信号中的每个的音频输入样本中的一个,即,根据两个或更多个输入麦克风信号中的每个的音频输入样本中的被分配给所述时频段(k,n)的一个音频输入样本,生成多个音频输出信号样本中的被分配给所述时频段(k,n)的一个音频输出信号样本。
对于每个时频段(k,n)的要生成的每个音频输出信号样本,权重生成器110重新生成单独的加权信息。然后,音频信号生成器120基于为该时频段生成的加权信息,生成考虑的时频段(k,n)的音频输出信号样本。换言之,通过权重生成器110为要生成音频输出信号样本的每个时频段计算新加权信息。
在生成加权信息时,权重生成器110被适配为考虑一个或多个声源的信息。
例如,权重生成器110可考虑第一声源的位置。在实施方式中,权重生成器还可考虑第二声源的位置。
例如,或者,第一声源可发射具有第一声音分量的第一声波。具有第一声音分量的第一声波到达麦克风,并且权重生成器110可考虑第一声音分量的/声波的到达方向。借此,权重生成器110将关于第一声源的信息考虑在内。而且,第二声源可发射具有第二声音分量的第二声波。具有第二声音分量的第二声波到达麦克风,并且权重生成器110可考虑第二声音分量的/第二声波的到达方向。借此,权重生成器110还将关于第二声源的信息考虑在内。
图1b示出了根据实施方式的滤波器100的可能的应用场景。具有第一声音分量的第一声波由第一扬声器121(第一声源)发射并且到达第一麦克风111。考虑在第一麦克风111处的第一声音分量的到达方向(=第一声波的到达方向)。而且,具有第二声音分量的第二声波由第二扬声器122(第二声源)发射并且到达第一麦克风111。权重生成器110还能够考虑在第一麦克风111处的第二声音分量的到达方向,以确定加权信息。而且,权重生成器还可考虑在其他麦克风(例如,麦克风112)处的声音分量的到达方向(=声波的到达方向),以确定加权信息。
应注意的是,声源可以(例如)是在环境中物理上存在的物理声源,例如,扬声器、乐器或个人说话。
然而,应注意的是,镜像源(mirrorimagesource)也是声源。例如,由扬声器122发射的声波可被壁125反射,并且然后,声波似乎从与实际上发射声波的扬声器的位置不同的位置123发射。这种镜像源123也被视为声源。权重生成器110可被适配为根据与镜像源相关的到达方向信息或者根据关于一个、两个或更多个镜像源的位置信息来生成加权信息。
图2示出了根据实施方式的滤波器100以及多个麦克风111、112、113、…、11n。在图2的实施方式中,滤波器100进一步包括滤波器组101。而且,在图2的实施方式中,权重生成器110包括信息计算模块102、权重计算模块103以及传递函数选择模块104。
在时频域中进行处理,分别地,k表示频率指数,并且n表示时间指数。将M个时域麦克风信号x1...M(t)从麦克风111、112、13、…、11n中输入设备(滤波器100)中,通过滤波器组101将这些时域麦克风信号转换成时频域。由以下向量给出转换的麦克风信号:
x(k,n)=[X1(k,n)X2(k,n)...XM(k,n)]T。
滤波器100输出期望信号Y(k,n)(音频输出信号)。音频输出信号(期望信号)Y(k,n)可例如表示用于单声道再现的增强信号、用于双耳声音再现的耳机信号或者用于具有任意的扬声器设置的空间声音再现的扬声器信号。
由输出信号生成器120生成期望信号Y(k,n),例如,通过例如利用以下公式基于瞬时复杂权重w(k,n)=[W1(k,n)W2(k,n)…WM(k,n)]T进行M个麦克风信号x(k,n)的线性组合:
Y(k,n)=wH(k,n)x(k,n)(1)
通过权重计算模块103确定权重w(k,n)。对于每个k和每个n,重新确定确定w(k,n)。换言之,对于每个时频段(k,n),进行权重w(k,n)的确定。更具体而言,例如,基于瞬时参数信息(IPI)
信息计算模块102被配置为从麦克风信号x(k,n)计算IPI
图3示出了根据实施方式的权重生成器110。权重生成器110包括信息计算模块102、权重计算模块103以及传递函数选择模块104。
如在图3中的实例中所示,IPI主要包括例如由DOA估计模块201计算的一个或方向性声音分量(例如,平面波)的瞬时到达方向(DOA)。
如下面所解释的,DOA信息可通过空间频率(例如,通过
而且,IPI
在实施方式中,权重生成器110被适配为根据关于两个或更多个输入麦克风信号的信号或噪声分量的统计信息,为多个时频段(k,n)中的每个生成加权信息。例如,这种统计信息是在此处提及的二阶统计量。例如,统计信息可以是噪声分量的功率、信号扩散(signal-to-diffuse)信息、信号噪声(signal-to-noise)信息、扩散噪声(diffuse-to-noise)信息、信号分量的功率、扩散分量的功率、或者两个或更多个输入麦克风信号的信号分量或噪声分量的功率谱密度矩阵。
二阶统计量可以由统计计算模块205计算。该二阶统计量信息可例如包括固定噪声分量(例如,自噪声)的功率、非固定噪声分量(例如,扩散噪声)的功率、信号扩散比(SDR)、信噪比(SNR)或扩散噪声比(DNR)。该信息允许根据特定的优化标准计算最佳权重w(k,n)。
“固定噪声分量”/“缓慢变化的噪声分量”例如是具有随着时间不变化或缓慢变化的统计特性的噪声分量。
“非固定噪声分量”例如是具有随着时间快速变化的统计特性的噪声分量。
在实施方式中,权重生成器110被适配为根据表示关于两个或更多个输入麦克风信号的第一噪声分量的信息的第一噪声信息并且根据表示关于两个或更多个输入麦克风信号的第二噪声分量的信息的第二噪声信息,为多个时频段(k,n)中的每个生成加权信息。
例如,第一噪声分量可以是非固定噪声分量,并且第一噪声信息可以是关于非固定噪声分量的信息。
例如,第二噪声分量可以是固定噪声分量/缓慢变化的噪声分量,并且第二噪声信息可以是关于固定的/缓慢变化的噪声分量的信息。
在实施方式中,权重生成器110被配置为通过利用例如预定义的统计信息(例如,由非固定噪声分量引起的关于两个或更多个输入麦克风信号之间的空间相干性的信息)生成第一噪声信息(例如,关于非固定的/非缓慢变化的噪声分量的信息),并且其中,权重生成器110被配置为在不利用统计信息的情况下生成第二噪声信息(例如,关于固定的/缓慢变化的噪声分量的信息)。
关于快速变化的噪声分量,输入麦克风信号不能单独提供足够的信息来确定关于这种噪声分量的信息。例如,此外,需要统计信息来确定关于快速变化的噪声分量的信息。
然而,关于不变化或不快速变化的噪声分量,不需要统计信息来确定关于这些噪声分量的信息。相反,评估麦克风信号是足够的。
应注意的是,可利用估计的DOA信息计算统计信息,如在图3中所示。应进一步注意的是,还可在外部提供IPI。例如,声音(分别是声源的位置)的DOA可由摄影机以及脸部识别算法确定,假设人类谈话者形成声音场景。
传递函数选择模块104被配置为提供传递函数G(k,n)。图2和图3的(可能复杂的)传递函数G(k,n)描述了系统的期望响应,给定(例如,当前参数)IPI
应注意的是,通常,记录的声音场景的统计信息随着时间和频率快速地变化。结果,IPI
应进一步注意的是,M个输入麦克风可形成单个麦克风阵列,或者可分布为在不同的位置形成多个阵列。而且,IPI
在声源的位置信息是可用的时,对DOA提供的所有解释同样适用。例如,位置信息可由DOA(角度)和距离表示。在使用这种位置表示时,可从位置信息中立即获得DOA。或者,位置信息可例如由x、y、z坐标描述。然后,基于声源的位置信息并且基于记录各自的输入麦克风信号的麦克风的位置,可容易计算DOA。
在下文中,描述进一步实施方式。
一些实施方式允许通过去混响和噪声降低进行在空间上的选择性声音记录。在该背景下,提供实施方式,应用空间滤波,用于在源提取、去混响以及噪声降低方面的信号增强。这种实施方式的目的在于,计算与具有任意拾取图案的方向麦克风的输出对应的信号Y(k,n)。这意味着方向性声音(例如,单个平面波)根据其DOA根据需要衰减或保存,同时抑制扩散声音或麦克风自噪声。根据实施方式,所提供的空间滤波器尤其结合使现有技术空间滤波器的优点,提供在具有高DNR的情况下的高方向性指数(DI)以及高白噪声增益(WNG)。根据一些实施方式,空间滤波器可仅仅受到线性约束,这允许快速计算权重。例如,图2和图3的传递函数G(k,n)可例如表示方向性麦克风的期望拾取图案。
在下文中,提供该问题的公式表示。然后,提供权重计算模块103和IPI计算模块102的实施方式,以利用去混响和噪声降低来进行在空间上的选择性声音记录。而且,描述了相应TF选择模块104的实施方式。
首先,提供该问题的公式表示。考虑位于d1...M处的M个全方向性麦克风的阵列。对于每个(k,n),假设声场由在各向同性以及在空间上均匀的扩散声场中传播的L<M个平面波(方向声音)构成。麦克风信号x(k,n)可写为:
>
其中,xl(k,n)=[Xl(k,n,d1)...Xl(k,n,dM)]T包括与第l个平面波的声压成比例的麦克风信号,xd(k,n)是所测量的非固定噪声(例如,扩散噪声),并且xn(k,n)是固定噪声/缓慢变化的噪声(例如,麦克风自噪声)。
假设在公式(2)中的三个分量彼此不相关,则麦克风信号的功率谱密度(PSD)矩阵可由以下公式描述:
>
其中,Φd(k,n)=φd(k,n)Γd(k)(4)
其中,Φn(k,n)是固定噪声/缓慢变化的噪声的PSD矩阵,并且φd(k,n)是非固定噪声的预期功率,该功率可随着时间和频率快速地变化。由γij(k)表示的相干矩阵Γd(k)的第ij个元素是由非固定噪声引起的在麦克风i和j之间的相干性。例如,对于球面各向同性扩散场,γij(k)=sinc(κrij)[20],其中,波数k和rij=||dj-di||。相干矩阵Γd(k)的第ij个元素是由固定噪声/缓慢变化的噪声引起的在麦克风i和j之间的相干性。对于麦克风自噪声,Φn(k,n)=φn(k,n)I,其中,I是单位矩阵并且φn(k,n)是自噪声的期望功率。
在(2)中的方向性声音xl(k,n)可写为:
其中,
描述了从第一到第i个麦克风的第l个平面波的相移。应注意的是,ri=||di-d1||等于第一与第i个麦克风之间的距离。
角度
如上所述,实施方式的目的在于,对麦克风信号x(k,n)进行滤波,使得从特定空间区域到达的方向性声音根据需要衰减或放大,同时抑制固定和非固定噪声。因此,期望的信号可表示为:
其中,
图4涉及根据实施方式的具有两个任意的方向性函数和源位置的场景。尤其地,图4显示了两个实例方向性
通过麦克风信号的线性组合,获得信号Y(k,n)的估计,例如,通过
>
其中,w(k,n)是长度M的复杂权重向量。在下面获得相应的最佳权重向量w(k,n)。在下文中,为了简单起见,省略权重w(k,n)对k和n的依赖性。
现在,描述在图2和图3中的权重计算模块103的两个实施方式。
从(5)和(7)中,遵循w(k,n)应满足线性约束:
而且,在滤波器的输出处的非固定和固定/缓慢变化的噪声功率应尽可能减小。
图5描述了应用空间滤波的本发明的实施方式。尤其地,图5示出了根据另一个实施方式的权重生成器110。再次,权重生成器110包括信息计算模块102、权重计算模块103以及传递函数选择模块104。
更尤其地,图5示出了线性约束的最小方差(LCMV)方法。在该实施方式中(见图5),根据包括L个平面波的DOA的IPII(k,n)以及固定和非固定的噪声的统计信息,计算权重w(k,n)。后面的信息可包括DNR、两个噪声分量的单独功率φn(k,n)以及φd(k,n)、或者两个噪声分量的PSD矩阵Φn以及Φd。
例如,Φd可被视为关于两个噪声分量的第一噪声分量的第一噪声信息,并且Φn可被视为关于两个噪声分量的第二噪声分量的第二噪声信息。
例如,权重生成器110可被配置为根据在一个或多个麦克风输入信号的至少一些第一噪声分量之间的一个或多个相干性,来确定第一噪声信息Φd。例如,权重生成器110可被配置为根据表示由两个或更多个输入麦克风信号的第一噪声分量引起的相干性的相干矩阵Γd(k),来确定第一噪声信息,例如,通过应用公式Φd(k,n)=φd(k,n)Γd(k)。
通过在滤波器的输出处最小化自噪声(固定噪声/缓慢变化的噪声)和扩散声音功率(非固定噪声)的总和,找出用于解决在(8)中的问题的权重w(k,n),即,
使用(4)并且假设Φn(k,n)=φn(k,n)I,优化问题可表示为:
其中,>
是在麦克风处的时变输入DNR。给定约束条件(9),对于(10)和(12)的解决方法是[21]。
>
=C-1A[AHC-1A]-1g,(15)
其中,
下面描述Ψ(k,n)和其他需要的IPI的估计的实施方式。
其他实施方式基于参数多通道维纳滤波器。在这种实施方式中,如图6所示,IPI进一步包括关于信号统计的信息,例如,包括L个平面波(方向声音)的功率的信号PSD矩阵Φs(k,n)。而且,可选控制参数λ1...L(k,n)被视为控制L个平面波中的每个的信号失真的程度。
图6示出了实施利用参数多通道维纳滤波器的权重生成器110的空间滤波器的应用的实施方式。在此,权重生成器110包括信息计算模块102、权重计算模块103以及传递函数选择模块104。
通过参数多通道维纳滤波器方法,计算权重w(k,n)。维纳滤波器最小化在输出处的残余信号的功率,即,
被最小化的价值函数(costfunction)C(k,n)可写为:
>
>
其中,Φs(k,n)=E{xs(k,n)xs(k,n)H}包括方向声音PSD,并且xs(k,n)=[X1(k,n,d1)X2(k,n,d1)….XL(k,n,d1)]包括与在参考麦克风处的L个平面波的声压成比例的信号。要注意的是,Φs(k,n)是对角矩阵,其中,对角元素diag{Φs(k,n)}=[φ1(k,n)...φL(k,n)]T是到达的平面波的功率。为了控制引入的信号失真,可以包括对角矩阵Λ(k,n),其包括时间和频率相关的控制参数diag{Λ}=[λ1(k,n)λ2(k,n)...λL(k,n)]T,即,
CPW(k,n)=[g-AH(k,n)w]HΛ(k,n)Φs(k,n)[g-AH(k,n)w]
wHΦu(k,n)w.(20)
考虑CPW(k,n)的在(17)中的最小化问题的解决方案是:
w=[AHΛ(k,n)Φs(k,n)A+Φu]-1AΛ(k,n)Φs(k,n)g.(21)
这等同于
>
应注意的是,对于,Λ-1=0,获得在(14)中的LCMV解决方案。对于Λ-1=I,获得多通道维纳滤波器。对于其他值λ1...L(k,n),可分别控制相应源信号的失真程度以及残余噪声抑制的程度。因此,通常根据可用的参数信息,限定
其中,f(·)是任意用户定义的函数。例如,可根据以下公式选择λ1...L(k,n):
>
其中,φl(k,n)是第l个信号(第l个平面波)的功率,并且φu(k,n)=φn(k,n)+φd(k,n)是不期望信号(固定噪声/缓慢变化的噪声加上非固定的噪声)的功率。借此,参数维纳滤波器取决于关于两个或更多个输入麦克风信号的信号分量的统计信息,因此,参数维纳滤波器进一步取决于关于两个或更多个输入麦克风信号的噪声分量的统计信息。
如果与噪声相比,源1强烈,则获得接近0的
下面描述Φs(k,n)和Φu(k,n)的估计。
在下文中,描述瞬时参数估计模块102的实施方式。
在能够计算权重之前,需要估计不同的IPI。可通过众所周知的窄带DOA估计器(例如,ESPRIT[22]或根MUSIC[23])或其他现有技术估计器获得在模块201中计算的L个平面波。例如,这些算法可为到达阵列的一个或多个波提供(例如)方位角
在下文中,描述扩散噪声比(DNR)估计。尤其地,描述输入DNRΨ(k,n)的估计,即,在图5中的模块202的实现。DNR估计利用在模块201中获得的DOA信息。为了估计Ψ(k,n),可使用额外的空间滤波器,该滤波器去除L个平面波,以便仅仅捕捉扩散声音。例如,通过最大化阵列的WNG,找出这个空间滤波器的权重,即,
>
服从
约束条件(27)确保非零加权wΨ。传播向量
其中,
>
现在,可通过(13)和(29)计算输入DNR,即,
>
假设功率随着时间是恒定的或者缓慢地变化,在静音(silence)时,例如,可以估计所需要的麦克风自噪声φn(k,n)的预期功率。要注意的是,由于所选择的优化标准(45),所以所提出的DNR估计器实际上不必提供最低估计方差,但是提供公正的结果。
在下文中,讨论非固定PSDφd(k,n)的估计,即,在图5中的模块(202)的另一个实现。可以使用以下公式,估计非固定噪声的功率(PSD):
>
其中,在前一个段落中,定义了wΨ。应注意的是,在静音时(即,在没有信号和非固定噪声时),可估计固定/缓慢变化的噪声PSD矩阵Φn(k,n),即,
Φn(k,n)=E{x(k,n)xH(k,n)},(32)
其中,通过对静音帧(silentframe)n求平均来逼近期望值。可以通过现有技术方法检测静音帧。
在下文中,讨论不期望信号PSD矩阵(见模块203)的估计。
可通过以下公式:
Φu(k,n)=φn(k,n)(Ψ(k,n)Γd(k)+Γn(k)),(33)
或者更通常通过以下公式:
Φu(k,n)=φd(k,n)Γd(k)+Φn(k,n),(34),
获得不期望信号(固定/缓慢变化的噪声加上非固定的噪声)Φu(k,n)的PSD矩阵。
其中,Γd(k)和Γn(k)可用作先验信息(见上文)。如上所解释的,可计算DNRΨ(k,n)、固定/缓慢变化的噪声功率φn(k,n)以及其他需要的量。因此,Φu(k,n)估计利用由模块201获得的DOA信息。
在下文中,描述信号PSD矩阵(见模块204)的估计。
可通过以下公式,计算用于计算Φs(k,n)所需要的到达平面波的功率φ1...L(k,n):
>
其中,权重wl抑制所有到达的平面波,除了第l个波,即,
例如,
>
经受(36)。Φs(k,n)估计利用在模块(201)中获得的DOA信息。如在前一段落中所解释的,可计算不期望信号Φu(k,n)的所需要的PSD矩阵。
现在,描述根据实施方式的传递函数选择模块104。
在本申请中,可以根据DOA信息
现在,提供实验结果。以下模拟结果展示了上述实施方式的可适用性。比较所提出的系统和现有技术系统,下面将进行解释。然后,讨论实验设置并且提供结果。
首先,考虑现有空间滤波器。
虽然在静音期间,可估计PSDφn(k,n),但是通常假设φd(k,n)未知并且难以察觉。因此,考虑可在无这种知识的情况下计算的两个现有空间滤波器。
第一空间滤波器已知为延时求和波束成形器,并且最小化在滤波器的输出处的自噪声功率[即,最大化WNG][1]。然后,通过以下公式,获得使经受(9)的在(7)与(8)之间的均方误差(MSE)最小化的优化权重向量:
存在针对(38)的封闭式解决方案[1],该解决方案允许快速计算wn。应注意的是,该滤波器不必提供最大的DI。
第二空间滤波器已知为稳健的超方向性(SD)波束成形器,并且通过在WNG上的下限,最小化在滤波器的输出处的扩散声音功率[即,最大化DI][24]。在WNG上的下限增大对在传播向量内的误差的稳健性,并且限制自噪声的放大[24]。然后,通过以下公式,获得最小化经受(9)的在(7)与(8)之间的MSE并且满足在WNG上的下限的优化加权向量:
并且经受二次约束wHw<β。参数β-1定义最小WNG并且确定滤波器的可实现的DI。实际上,通常难以在低SNR情况下的充分WNG与在高SNR情况下的足够高的DI之间找出最佳权衡。而且,由于二次约束,所以解决(39),造成非凸优化问题,这需要时间来解决。由于时变约束(9)造成需要给每个k和n重新计算复杂加权向量,所以这尤其是个问题。
现在,考虑实验设置。假设在(2)中的模型中的L=2个平面波以及具有麦克风间的间距3cm的M=4个麦克风的均匀线性阵列(ULA),使用源图像方法[25、26],模拟鞋盒空间(7.0×5.4×2.4m3、RT60≈380ms),在
考虑图4的方向性函数
在下文中,考虑非时变方向约束。
为了这个模拟,假设关于这两个源位置
图7示出了真实的和估计的DNRΨ(k,n)。这两个标记的区域分别表示信号的静音和活动部分。尤其地,图7描述了根据时间和频率的真实的和估计的DNRΨ(k,n)。由于混响环境,所以在语音活动期间,获得较高的DNR。由于结合的时间平均化处理,所以在图7(b)中的估计的DNR处理有限的时间分辨率。然而,Ψ(k,n)估计足够精确,如以下结果所示。
图8(a)描述了wn和wd(均与信号无关)的以及所提出的空间滤波器wnd(与信号相关)的平均DI。对于所提出的空间滤波器,显示了信号的静音部分以及在语音活动期间[在图7(b)中标记这两个信号部分]的DI。在静音期间,所提出的空间滤波器(虚线wnd)提供与wn相同的低DI。在语音活动期间(实线wnd),所获得的DI与稳健的SD波束成形器(wd)一样高。图8(b)显示了相应的WNG。在静音期间,所提出的空间滤波器(虚线wnd)实现了高WNG,而在信号活动期间,WNG较低。
图8:比较空间滤波器的DI和WNG。对于wd,最小WNG设为-12dB,以使空间滤波器稳健,抵抗麦克风自噪声。
通常,图8示出了所提出的空间滤波器使这两个现有空间滤波器的优点相结合:在静音部分期间,提供最大WNG,导致最小自噪声放大,即,高稳健性。
在通常掩蔽自噪声的信号活动和高混响期间,提供高DI(以低WNG为代价),导致扩散声音的最佳降低。在这种情况下,甚至相当小的WNG可容忍。
要注意的是,对于更高的频率(f>5kHz),由于在(39)和(12)中的相关矩阵Γd(k)几乎等于单位矩阵,所以所有空间滤波器几乎相同地运行。
在下文中,考虑瞬时方向约束。
对于该模拟,假设没有关于
图9描述了估计的
表1示出了所有空间滤波器(*未处理的)的性能。在括号内的值表示非时变方向约束条件,不在括号内的值表示瞬时方向约束条件。在计算SIR、SRR以及SSNR之前,信号进行A加权。
表1
尤其地,表1总结了空间滤波器在滤波器的输出处的在信号干扰比(SIR)、信号混响比(SRR)以及SSNR方面的总体性能。在SIR和SRR(源分离、去混响)方面,所提出的方法(wnd)和稳健的SD波束成形器(wd)提供最高性能。然而,所提出的wnd的SSNR比wd的SSNR高6dB,这表示可以清楚听见的优点。使用wn,获得在SSNR方面的最佳性能。在PESQ方面,wnd和wd胜过wn。使用瞬时方向约束条件,而非时变约束条件(在括号内的值)主要降低可实现的SIR,但是在改变源位置的情况下,提供快速适应。应注意的是,每个时间帧的所有需要的复杂加权的计算时间对于wd大于80s(CVX工具箱[27,28])并且对于所提出的方法小于0.08s(MATLABR2012b、MacBookPro2008)。
在下文中,描述空间声音再现的实施方式。实施方式的目的在于,(例如)通过麦克风阵列捕捉声音场景,并且通过任意的声音再现系统(例如,5.1扬声器设置、耳机再现)再现空间声音,以便再创建原始空间印象。假设声音再现系统包括N个通道,即,计算N个输出信号Y(k,n)。
首先,提供问题公式表示。考虑信号模型(见以上公式(2)),并且公式表示相似的问题。固定/缓慢变化的噪声与不期望的麦克风自噪声对应,而非固定的噪声与期望的扩散声音对应。由于再现记录场景的原始空间印象至关重要,所以在本申请中期望扩散声音。
在下文中,应在没有失真的情况下从相应的
其中,Yi(k,n)是声音再现系统的第i个信道的信号(i={1,...,N}),Xd,i(k,n,d)是在从扬声器i中再现的任意点(例如,在第一麦克风d1)处测量的扩散声音,并且Gd(k,n)是扩散声音的增益函数,以在再现期间确保扩散声音的正确功率(通常
方向声音分量的传递函数
如上所述,基于复杂权重w(k,n),通过麦克风信号的线性组合,估计信号Yi(k,n),即,
>
经受特定的约束条件。在接下来的小部分中解释加权w(k,n)的约束条件和计算。
在下文中,在本背景下,考虑根据相应的实施方式的权重计算模块103,提供图2的权重计算模块103的两个实施方式。从公式(5)和公式(40)中得出以下结论:wi(k,n)应满足线性约束:
而且,应保持扩散声音功率。因此,wi(k,n)可以满足二次约束:
>
而且,在滤波器的输出处的自噪声功率应最小化。因此,最佳权重可计算为:
>
经受公式(43)和公式(44)。这导致(例如)通过熟知的数值方法[29]可以解决的凸优化问题。
对于瞬时参数估计模块102,根据相应的实施方式,通过熟知的窄带DOA估计器(例如,ESPRIT[22]或根MUSIC[23])或其他现有技术估计器,可以获得L个平面波的
现在,考虑根据相应的实施方式的传递函数选择模块104。在本申请中,根据DOA信息
通常提供传递函数
在图10中描述了立体扬声器再现的一个实例。尤其地,图10示出了立体再现的增益函数。
虽然在设备的背景下描述了一些方面,但是显然,这些方面还表示相应方法的描述,其中,方框或装置与方法步骤或方法步骤的特征对应。相似地,在方法步骤的背景下描述的方面还表示相应设备的相应方框或项目或特征的描述。
本发明的分解信号可存储在数字储存介质上或者可在传输介质上传输,例如,无线传输介质或有线传输介质,诸如,互联网。
根据某些实施要求,本发明的实施方式可以在硬件中或者在软件中实施。可使用数字储存介质(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH执行实施),在所述数字储存介质上存储了电子可读的控制信号,其与可编程计算机系统协作(或者能够协作),以便执行相应的方法。
根据本发明的一些实施方式包括非瞬时性数据载体,其具有电子可读控制信号,这些信号能够与可编程计算机系统协和,以便执行在本文中描述的一种方法。
通常,本发明的实施方式可实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可操作为执行一种方法。例如,该程序代码可存储在机器可读载体上。
其他实施方式包括存储在机器可读载体上的用于执行在本文中描述的一种方法的计算机程序。
换言之,因此,本发明的方法的实施方式是具有程序代码的计算机程序产品,当计算机程序在计算机上运行时,所述程序代码用于执行在本文中描述的一种方法。
因此,本发明的方法的进一步实施方式是数据载体(或数字存储介质或计算机可读介质),其包括存记录在其上的用于执行在本文中描述的一种方法的计算机程序
因此,本发明的方法的进一步实施方式是数据流或信号序列,其表示用于执行在本文中描述的一种方法的计算机程序。例如,数据流或信号序列可被配置为通过数据通信连接(例如,通过互联网)传输。
进一步实施方式包括处理器件,例如,计算机或可编程逻辑装置,其被配置为或者适配为执行在本文中描述的一种方法。
进一步实施方式包括具有安装在其上的计算机程序的计算机,所述计算机程序用于执行在本文中描述的一种方法。
在一些实施方式中,可编程逻辑装置(例如,现场可编程门阵列)可用于执行在本文中描述的方法的一些或所有功能。在一些实施方式中,现场可编程门阵列可与微处理器协作,以便执行在本文中描述的一种方法。通常,这些方法优选地由任何硬件设备执行。
上述实施方式仅仅说明本发明的原理。要理解的是,在本文中描述的设置和细节的修改和变化对于本领域的技术人员将是显而易见的。因此,其目的在于,仅受到待审专利权利要求的范围的限制,而不受到通过在本文中的实施方式的描述和解释呈现的具体细节的限制。
参考文献
[1]J.Benesty,J.Chen,andY.Huang,MicrophoneArraySignalProcessing.Berlin,Germany:Springer-Verlag,2008.
[2]S.Doclo,S.Gannot,M.Moonen,andA.Spriet,“Acousticbeamformingforhearingaidapplications,”inHandbookonArrayProcessingandSensorNetworks,S.HaykinandK.RayLiu,Eds.Wiley,2008,ch.9.
[3]S.GannotandI.Cohen,“Adaptivebeamformingandpostfiltering,”inSpringerHandbookofSpeechProcessing,J.Benesty,M.M.Sondhi,andY.Huang,Eds.Springer-Verlag,2008,ch.47.
[4]J.Benesty,J.Chen,andE.A.P.Habets,SpeechEnhancementintheSTFTDomain,ser.SpringerBriefsinElectricalandComputerEngineering.Springer-Verlag,2011.
[5]I.Tashev,M.Seltzer,andA.Acero,“Microphonearrayforheadsetwithspatialnoisesuppressor,”inProc.NinthInternationalWorkshoponAcoustic,EchoandNoiseControl(IWAENC),Eindhoven,TheNetherlands,2005.
[6]M.Kallinger,G.DelGaldo,F.Kuech,D.Mahne,andR.Schultz-Amling,“Spatialfilteringusingdirectionalaudiocodingparameters,”inProc.IEEEIntl.Conf.onAcoustics,SpeechandSignalProcessing(ICASSP),Apr.2009,pp.217–220.
[7]M.Kallinger,G.D.Galdo,F.Kuech,andO.Thiergart,“Dereverberationinthespatialaudiocodingdomain,”inAudioEngineeringSocietyConvention130,LondonUK,May2011.
[8]G.DelGaldo,O.Thiergart,T.Weller,andE.A.P.Habets,“Generatingvirtualmicrophonesignalsusinggeometricalinformationgatheredbydistributedarrays,”inProc.Hands-FreeSpeechCommunicationandMicrophoneArrays(HSCMA),Edinburgh,UnitedKingdom,May2011.
[9]S.Nordholm,I.Claesson,andB.Bengtsson,“Adaptivearraynoisesuppressionofhandsfreespeakerinputincars,”IEEETrans.Veh.Technol.,vol.42,no.4,pp.514–518,Nov.1993.
[10]O.Hoshuyama,A.Sugiyama,andA.Hirano,“Arobustadaptivebeamformerformicrophonearrayswithablockingmatrixusingconstrainedadaptivefilters,”IEEETrans.SignalProcess.,vol.47,no.10,pp.2677–2684,Oct.1999.
[11]S.Gannot,D.Burshtein,andE.Weinstein,“Signalenhancementusingbeamformingandnonstationaritywithapplicationstospeech,”IEEETrans.SignalProcess.,vol.49,no.8,pp.1614–1626,Aug.2001.
[12]W.HerbordtandW.Kellermann,“Adaptivebeamformingforaudiosignalacquisition,”inAdaptiveSignalProcessing:Applicationstoreal-worldproblems,ser.SignalsandCommunicationTechnology,J.BenestyandY.Huang,Eds.Berlin,Germany:Springer-Verlag,2003,ch.6,pp.155–194.
[13]R.Talmon,I.Cohen,andS.Gannot,“Convolutivetransferfunctiongeneralizedsidelobecanceler,”IEEETrans.Audio,Speech,Lang.Process.,vol.17,no.7,pp.1420–1434,Sep.2009.
[14]A.Krueger,E.Warsitz,andR.Haeb-Umbach,“SpeechenhancementwithaGSC-likestructureemployingeigenvector-basedtransferfunctionratiosestimation,”IEEETrans.Audio,Speech,Lang.Process.,vol.19,no.1,pp.206–219,Jan.2011.
[15]E.A.P.HabetsandJ.Benesty,“Jointdereverberationandnoisereductionusingatwo-stagebeamformingapproach,”inProc.Hands-FreeSpeechCommunicationandMicrophoneArrays(HSCMA),2011,pp.191–195.
[16]M.TaseskaandE.A.P.Habets,“MMSE-basedblindsourceextractionindiffusenoisefieldsusingacomplexcoherence-basedaprioriSAPestimator,”inProc.Intl.WorkshopAcoust.SignalEnhancement(IWAENC),Sep.2012.
[17]G.Reuven,S.Gannot,andI.Cohen,“Dualsourcetransfer-functiongeneralizedsidelobecanceller,”IEEETrans.SpeechAudioProcess.,vol.16,no.4,pp.711–727,May2008.
[18]S.Markovich,S.Gannot,andI.Cohen,“Multichanneleigenspacebeamforminginareverberantnoisyenvironmentwithmultipleinterferingspeechsignals,”IEEETrans.Audio,Speech,Lang.Process.,vol.17,no.6,pp.1071–1086,Aug.2009.
[19]O.ThiergartandE.A.P.Habets,“Soundfieldmodelviolationsinparametricspatialsoundprocessing,”inProc.Intl.WorkshopAcoust.SignalEnhancement(IWAENC),Sep.2012.
[20]R.K.Cook,R.V.Waterhouse,R.D.Berendt,S.Edelman,andM.C.ThompsonJr.,“Measurementofcorrelationcoefficientsinreverberantsoundfields,”TheJournaloftheAcousticalSocietyofAmerica,vol.27,no.6,pp.1072–1077,1955.
[21]O.L.Frost,III,“Analgorithmforlinearlyconstrainedadaptivearrayprocessing,”Proc.IEEE,vol.60,no.8,pp.926–935,Aug.1972.
[22]R.RoyandT.Kailath,“ESPRIT-estimationofsignalparametersviarotationalinvariancetechniques,”Acoustics,SpeechandSignalProcessing,IEEETransactionson,vol.37,no.7,pp.984–995,July1989.
[23]B.RaoandK.Hari,“Performanceanalysisofroot-music*,”inSignals,SystemsandComputers,1988.Twenty-SecondAsilomarConferenceon,vol.2,1988,pp.578–582.
[24]H.Cox,R.M.Zeskind,andM.M.Owen,“Robustadaptivebeamforming,”IEEETrans.Acoust.,Speech,SignalProcess.,vol.35,no.10,pp.1365–1376,Oct.1987.
[25]J.B.AllenandD.A.Berkley,“Imagemethodforefficientlysimulatingsmall-roomacoustics,”J.Acoust.Soc.Am.,vol.65,no.4,pp.943–950,Apr.1979.
[26]E.A.P.Habets.(2008,May)Roomimpulseresponse(RIR)generator.[Online].Available:http://home.tiscali.nl/ehabets/rirgenerator.html;还见:http://web.archive.org/web/20120730003147/http://home.tiscali.nl/ehabets/rir_generator.html
[27]I.CVXResearch,“CVX:Matlabsoftwarefordisciplinedconvexprogramming,version2.0beta,”http://cvxr.com/cvx,September2012.
[28]M.GrantandS.Boyd,“Graphimplementationsfornonsmoothconvexprograms,”inRecentAdvancesinLearningandControl,ser.LectureNotesinControlandInformationSciences,V.Blondel,S.Boyd,andH.Kimura,Eds.Springer-VerlagLimited,2008,pp.95–110.
[29]H.L.VanTrees,Detection,Estimation,andModulationTheory:PartIV:OptimumArrayProcessing.JohnWiley&Sons,April2002,vol.1.
机译: 使用多个瞬时到达方向估计进行知觉空间滤波的滤波器和方法
机译: 使用多个瞬时到达方向估计的信息空间滤波的滤波器和方法
机译: 使用多个瞬时到达方向估计的信息空间滤波的滤波器和方法