首页> 中国专利> 自适应语音可理解性处理器

自适应语音可理解性处理器

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请描述了用于自适应地处理语音以改进语音可理解性的系统和方法。这些系统和方法可以自适应地识别和跟踪共振峰位置，从而使共振峰能够在改变时得到强调。因此，即使在有噪环境中，这些系统和方法也可以改进近端可理解性。所述系统和方法可以在IP语音(VoIP)应用、电话和／或视频会议应用(包括在蜂窝电话、智能电话等上)、膝上型和平板通信等中实现。所述系统和方法还可以增强非浊音话音，所述非浊音话音可以包括无需声道而产生的话音，如，瞬态话音。

著录项

公开/公告号CN103827965A

专利类型发明专利
公开/公告日2014-05-28

原文格式PDF
申请/专利权人 DTS有限责任公司;
展开▼

申请/专利号CN201280047329.2
发明设计人鲁迪克阳;何星;詹姆斯·特雷西;
展开▼

申请日2012-07-26
分类号G10L21/003(20060101);G10L21/0316(20060101);G10L21/0364(20060101);G10L19/07(20060101);G10L25/15(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人杨静
地址美国加利福尼亚州
入库时间 2023-12-17 00:06:05

法律信息

法律状态公告日

法律状态信息

法律状态
2016-05-25

授权

授权
2014-06-25

实质审查的生效 IPC(主分类):G10L21/003 申请日:20120726

实质审查的生效
2014-05-28

公开

公开

说明书

相关申请的交叉引用

本申请依据35U.S.C.§119(e)要求2011年7月29日递交的题为 “Adaptive Voice Intelligibility Processor”的美国临时申请No. 61／513,298，其公开内容以引用方式完全并入于此。

背景技术

经常在包括高背景噪声的区域中使用移动电话。该噪声通常具有使得来自移动电话扬声器的话音通信的可理解性极大劣化的级别。在许多情况下，由于较高的环境噪声级别掩盖了呼叫方的语音或使呼叫方的语音失真，如收听方听到的那样，一些通信丢失或至少部分丢失。

在高背景噪声存在的情况下最小化可理解性损失的尝试已经涉及使用均衡器、限幅电路或者简单地提高移动电话的音量。均衡器和限幅电路自身可以增加背景噪声，因此未解决该问题。提高移动电话的声音或扬声器音量的总体级别通常不显著地改进可理解性，并且会引起其他问题，如，反馈和收听方不适。

发明内容

为了概述本公开，此处描述了发明的特定方面、优势和新颖特征。应理解，可以在根据此处公开的发明的任意特定实施例中实现未必全部这些优势。因此，以实现或优化此处教导的一个或一组优势而不一定实现此处可能教导或启示的其他优势的方式，来实现或实施此处公开的发明。

在特定实施例中，一种调整语音可理解性增强的方法包括：接收输入的语音信号；以及利用线性预测编码(LPC)过程来获得输入的语音信号的谱表示。所述谱表示可以包括一个或更多个共振峰频率。所述方法还可以包括：利用一个或更多个处理器来调整输入的语音信号的谱表示，以产生增强滤波器，所述增强滤波器被配置为强调所述一个或更多个共振峰频率。此外，所述方法可以包括：对输入的语音信号的表示应用所述增强滤波器，以产生具有增强的共振峰频率的修改后的语音信号；基于输入的语音信号来检测包络；以及分析修改后的语音信号的包络，以确定一个或更多个时间增强参数。此外，所述方法可以包括：对修改后的语音信号应用所述一个或更多个时间增强参数，以产生输出的语音信号。至少应用所述一个或更多个时间增强参数可由一个或更多个处理器执行。

在特定实施例中，前一段的方法可以包括以下特定的任意组合：其中，对修改后的语音信号应用所述一个或更多个时间增强参数包括：锐化修改后的语音信号的一个或更多个包络中的峰，以强调修改后的语音信号中所选择的辅音；其中，检测包络包括检测以下各项中一个或更多个的包络：输入的语音信号；以及修改后的语音信号；以及还包括：对输入的语音信号应用逆滤波器，以产生激励信号，使得所述对输入的语音信号的表示应用所述增强滤波器包括对所述激励信号应用所述增强滤波器。

在一些实施例中，一种用于调整语音可理解性增强的系统包括：分析模块，能够获得输入的音频信号的至少一部分的谱表示。所述谱表示包括一个或更多个共振峰频率。所述系统还可以包括：共振峰增强模块，可以产生增强滤波器，所述增强滤波器可以强调所述一个或更多个共振峰频率。所述增强滤波器能够以一个或更多个处理器被应用于输入的音频信号的表示，以产生修改后的语音信号。此处，所述系统还可以包括：时间包络成形器，被配置为至少部分基于修改后的语音信号的一个或更多个包络来对修改后的语音信号应用时间增强。

在特定实施例中，前一段的系统可以包括以下特定的任意组合：其中，所述分析模块还被配置为：使用线性预测编码技术来获得输入的音频信号的谱表示，所述线性预测编码技术被配置为产生与所述谱表示相对应的系数；还包括：映射模块，被配置为将所述系数映射至线谱对；还包括：修改所述线谱对，以增强与共振峰频率相对应的谱表示中的增益；其中，所述增强滤波器还被配置为应用于以下各项中的一个或更多个：输入的音频信号；以及从输入的音频信号导出的激励信号；其中，所述时间包络成形器还被配置为：将修改后的语音信号细分为多个频带，并且所述一个或更多个包络与所述多个频带中至少一些频带的包络相对应；还包括：语音增强控制器，可以被配置为至少部分基于输入的麦克风信号中检测到的环境噪声量，来调整增强滤波器的增益；还包括：语音活动性检测器，被配置为检测输入的麦克风信号中的语音，并响应于检测到的语音来控制语音增强控制器；其中，所述语音活动性检测器还被配置为：响应于检测到输入的麦克风信号中的语音，使所述语音增强控制器基于先前的噪声输入来调整增强滤波器的增益；以及还包括：麦克风校准模块，被配置为设置麦克风的增益，所述麦克风被配置为接收输入的麦克风信号，其中，所述麦克风校准模块还被配置为：至少部分基于参考信号和记录的噪声信号，来设置所述增益。

在一些实施例中，一种用于调整语音可理解性增强的系统包括：线性预测编码分析模块，可以应用线性预测编码(LPC)技术来获得与输入的语音信号的谱相对应的LPC系数，其中，所述谱包括一个或更多个共振峰频率。所述系统还可以包括：映射模块，可以将所述LPC 系数映射至线谱对。所述系统还可以包括一个或更多个处理器的共振峰增强模块，其中，所述共振峰增强模块可以修改所述线谱对从而调整输入的语音信号的谱，并产生增强滤波器，所述增强滤波器可以强调所述一个或更多个共振峰频率。所述增强滤波器可以应用于输入的音频信号的表示，以产生修改后的语音信号。

在各种实施例，前一段的系统可以包括以下特征的任意组合：还包括：语音活动性检测器，可以检测输入的麦克风信号中的语音，并响应于检测到的语音使增强滤波器的增益得到调整；还包括：麦克风校准模块，可以设置麦克风的增益，所述麦克风可以接收输入的麦克风信号，其中，所述麦克风校准模块还被配置为：至少部分基于参考信号和记录的噪声信号，来设置所述增益；其中，所述增强滤波器还被配置为应用于以下各项中的一个或更多个：输入的音频信号；以及从输入的音频信号导出的激励信号；还包括：时间包络成形器，可以至少部分基于修改后的语音信号的一个或更多个包络，来对修改后的语音信号应用时间增强；以及其中，所述时间包络成形器还被配置为：锐化修改后的语音信号的一个或更多个包络中的峰，以强调修改后的语音信号的所选择的部分。

附图说明

在附图中，可以重复使用附图标记以指示所标记的元素之间的对应性。提供附图以示意此处描述的发明的实施例而非限制其范围。

图1示出了能够实现语音增强系统的移动电话环境的实施例。

图2示出了语音增强系统的更详细的实施例。

图3示出了自适应语音增强模块的实施例。

图4示出了话音谱的示例曲线。

图5示出了自适应语音增强模块的另一实施例。

图6示出了时间包络成形器的实施例。

图7示出了时域话音包络的示例曲线。

图8示出了起音和衰减包络的示例曲线。

图9示出了语音检测过程的实施例。

图10示出了麦克风校准过程的实施例。

具体实施方式

I.简介

现有的语音可理解性系统试图强调话音中的共振峰，所述共振峰可以包括讲话方的声带产生的与特定元音和响辅音相对应的谐振频率。这些现有系统通常采用具有带通滤波器的滤波器组，所述带通滤波器用于强调预期出现共振峰的不同固定频带处的共振峰。该方案的问题在于：对于不同个体，共振峰位置可能不同。此外，给定个体的共振峰位置也可能随时间改变。因此，固定的带通滤波器可能强调与给定个体的共振峰频率不同的频率，导致受损的语音可理解性。

本公开描述了用于自适应地处理话音以改进语音可理解性的系统和方法以及其他特征。在特定实施例中，这些系统和方法能够自适应地识别和跟踪共振峰位置，从而使共振峰能够在改变时得到强调。因此，即使在有噪环境中，这些系统和方法也可以改进近端可理解性。所述系统和方法还可以增强非浊音话音，所述非浊音话音可以包括无需声道而产生的话音，如，瞬态话音。可以被增强的非浊音话音的一些示例包括阻塞辅音，如爆破音、摩擦音和塞擦音。

可以使用许多技术来自适应地跟踪共振峰位置。自适应滤波是一种这样的技术。在一些实施例中，可以使用在线性预测编码(LPC)的上下文中采用的自适应滤波来跟踪共振峰。为了简单起见，本说明书的其余部分将描述LPC上下文中的自适应共振峰跟踪。然而，应理解的是，在特定实施例中，可以使用许多其他自适应处理技术代替LPC来跟踪共振峰位置。此处可以取代LPC使用的或除了LPC还可以使用的技术的一些示例包括多带能量解调、极点交互、无参数预测、以及上下文相关的音位信息。

II.系统概况

图1示出了可以实现语音增强系统110的移动电话环境100的实施例。语音增强系统110可以包括用于增强语音输入信号102的可理解性的硬件和／或软件。语音增强系统110可以例如利用语音增强处理语音输入信号102，所述语音增强强调元音声音(如共振峰)以及非元音声音(如辅音，包括例如爆破音和摩擦音)的区别特征。

在示例移动电话环境100中，示出了呼叫方电话104和接收方电话 108。在该示例中语音增强系统110安装在接收方电话108中，虽然在其他实施例中，两个电话都可以具有语音增强系统。呼叫方电话104和接收方电话108可以是移动电话、互联网协议语音(VoIP)电话、智能电话、有线电话、电话和／或视频会议电话、其他计算设备(如膝上型或平板计算机)等。呼叫方电话104可以被看作位于移动电话环境100的远端，接收方电话可以被看作位于移动电话环境100的近端。当接收方电话 108的用户讲话时，近端和远端可以反转。

在所描述的实施例中，呼叫方向呼叫方电话104提供语音输入 102。呼叫方电话104中的发射器106向接收方电话108发送语音输入信号102。发射器106可以无线方式或通过通讯电缆或两者的结合发送语音输入信号102。接收方电话108中的语音增强系统110可以增强语音输入信号102以提高语音可理解性。

语音增强系统110可以动态地识别语音输入信号102中表示的语音的共振峰或其他特征部分。因此，即使共振峰随时间改变或对于不同讲话方不同，语音增强系统110也能够动态增强语音的共振峰或其他特征部分。语音增强系统110还可以至少部分基于使用接收方电话108 的麦克风检测的麦克风输入信号112中的环境噪声，适配对语音输入信号102应用语音增强的程度。环境噪声或内容可以包括背景或环境噪声。如果环境噪声增加，语音增强系统110可以增加所应用的语音增强的量，反之亦然。因此，语音增强可以至少部分跟踪检测到的环境噪声的量。类似地，语音增强系统110还可以至少部分基于环境噪声的量，来增加应用于语音输入信号102的总增益。

然而，当存在较少的环境噪声时，语音增强系统110可以减少语音增强的量和／或所应用的增益增加。该减少可以有益于收听方，这是由于当存在较低级别的环境噪声时，语音增强和／或音量增加可能听起来刺耳或令人不快。例如，一旦环境噪声超过阈值量，语音增强系统 110就可以开始对语音输入信号102应用语音增强，以避免使语音在不存在环境噪声的情况下听起来刺耳。

因此，在特定实施例中，在存在变化级别的环境噪声的情况下，语音增强系统110将语音输入信号变换为收听方能够更易于理解的增强的输出信号114。在一些实施例中，语音增强系统110还可以包括在呼叫方电话104中。语音增强系统110可以至少部分基于呼叫方电话104 检测到的环境噪声的量，对语音输入信号102应用增强。因此，可以在呼叫方电话104、接收方电话108或两者中使用语音增强系统110。

虽然语音增强系统110被示为电话108的一部分，语音增强系统 110可以取而代之地实现在任意通信设备中。例如，语音增强系统110 可以实现在计算机、路由器、模拟电话适配器、录音电话机等中。语音增强系统110还可以用于公共地址(“PA”)设备(包括互联网协议PA)、无线收发器、辅助听觉设备(例如助听器)、扬声器电话、以及其他音频系统。此外，可以在向一个或更多个讲话方提供音频输出的基于处理器的系统中实现语音增强系统110。

图2示出了语音增强系统210的更详细的实施例。语音增强系统 210可以实现语音增强系统110的一些或全部特征，并且可以用硬件和／或软件实现。语音增强系统210可以实现在移动电话、蜂窝电话、智能电话或其他计算设备(包括以上提到的任一设备)中。语音增强系统 210可以自适应地跟踪语音信号的共振峰和／或其他部分，并且可以至少部分基于环境噪声的检测量和／或输入信号来调整增强处理。

语音增强系统210包括自适应语音增强模块220。自适应语音增强模块220可以包括用于对(例如，从呼叫方电话、在助听器或其他设备中接收的)语音输入信号202自适应地应用语音增强的硬件和／或软件。语音增强可以强调包括浊音和／或非浊音声音在内的语音输入信号202 中的元音声音的区别特征。

有利地，在特定实施例中，自适应语音增强模块220自适应地跟踪共振峰，以针对不同的讲话方(例如个体)或针对具有随时间改变的共振峰的相同的讲话方，增强适当的共振峰频率。自适应语音增强模块220还可以增强话音的非浊音部分，包括声道的声带以外的部分产生的特定辅音或其他声音。在一个实施例中，自适应语音增强模块220 通过在时间上使语音输入信号成形来增强非浊音话音。以下，将参照图3更详细地描述这些特征。

提供语音增强控制器222，其能够控制语音增强模块220所提供的语音增强的级别。语音增强控制器222能够向自适应语音增强模块220 提供增强级别控制信号或值，其增加或降低所应用的语音增强的级别。当包括环境噪声的麦克风输入信号204增加和降低时，控制信号可以逐块或逐采样适配。

在特定实施例中，语音增强控制器222在检测到麦克风输入信号 204中环境噪声的能量的阈值量后，适配语音增强的级别。在阈值以上，语音增强控制器222可以使语音增强的级别跟踪或实质上跟踪麦克风输入信号204中环境噪声的量。在一个实施例中，例如，在噪声阈值上提供的语音增强的级别正比于噪声的能量(或功率)与阈值之比。在备选实施例中，在不使用阈值的情况下适配语音增强的级别。语音增强控制器222所应用的语音增强适配的级别可能随增加的环境噪声以指数或线性方式增加(反之亦然)。

为了确保或试图确保语音增强控制器222针对并入语音增强系统 210的每个设备以大约相同的级别适配语音增强的级别，提供麦克风校准模块234。麦克风校准模块234可以计算并存储一个或更多个校准参数，所述校准参数调整应用于麦克风输入信号204的增益，以使麦克风的总增益对于一些或全部设备相同或大致相同。以下参照图10更详细地描述麦克风校准模块234的功能。

当接收电话108的麦克风从电话108的扬声器输出114拾取语音信号时，可能出现令人不快的现象。该扬声器反馈可能被语音增强控制器222理解为环境噪声，从而可能引起语音增强的自激活并因此引起扬声器反馈对语音增强的调制。得到的调制后的输出信号可能令收听方不快。当收听方在接收方电话108输出从呼叫方电话104接收的语音信号的同时讲话、咳嗽或以其他方式向接收方电话108中发出声音时，可能出现类似的问题。在讲话方和收听方同时讲话(或发出声音)的该双重讲话情形下，自适应语音增强模块220可以基于双重讲话来调制远程语音输入202。该调制后的输出信号可能令收听方不快。

为了应对这些现象，在所示实施例中提供语音活动性检测器212。语音活动性检测器212可以检测麦克风输入信号204中从讲话者发出的语音或其他声音，并且能够区分环境噪声和语音。当麦克风输入信号 204包括环境噪声时，语音活动性检测器212可以允许语音增强222基于当前的测量的环境噪声，来调整自适应语音增强模块220所提供的语音增强的量。然而，当语音活动性检测器212在麦克风输入信号204中检测到语音时，语音活动性检测器212可以使用环境噪声的先前测量来调整语音增强。

语音增强系统210的所示实施例包括：额外增强控制226，用于进一步调整语音增强控制器222所提供的控制的量。该额外增强控制226 向语音增强控制器222提供额外增强控制信号，其可以被用作增强级别不能低于的值。额外增强控制226可经由用户接口向用户开放。该控制 226还可以允许用户将增强级别增加至超过语音增强控制器222所确定的级别。在一个实施例中，语音增强控制器222可以将来自额外增强控制226的额外增强添加至语音增强控制器222所确定的增强级别。额外增强控制226对于希望更多语音增强处理或者希望频繁应用语音增强处理的听障人士可能特别有用。

自适应语音增强模块220可以向输出增益控制器230提供输出的语音信号。输出增益控制器230可以控制应用于语音增强模块220的输出信号的总增益的量。输出增益控制器230可以用硬件和／或软件实现。输出增益控制器230可以至少部分基于噪声输入204的级别和语音输入 202的级别来调整应用于输出信号的增益。除了任意用户设置的增益 (如电话的音量控制)，还可以应用该增益。有利地，基于麦克风输入信号的环境噪声204和／或语音输入202级别来适配音频信号的增益可以有助于收听方进一步理解语音输入信号202。

在所示实施例中还示出了自适应级别控制232，其可以进一步调整输出增益控制器230所提供的增益的量。用户接口还可以向用户开放自适应级别控制232。增加该控制32可以使控制器230的增益在传入的语音输入202级别降低时或噪声输入204曾加时增加得较多。减小该控制232可以使控制器230的增益在传入的语音输入信号202电平降低时或在噪声输入204降低时增加得较少。

在一些情况下，语音增强模块220、语音增强控制器222和／或输出增益控制器230所应用的增益可以使语音信号限幅或饱和。饱和可以导致使收听方不快的谐波失真。因此，在特定实施例中，还提供失真控制模块140。失真控制模块140可以接收输出增益控制器230的增益调整后的语音信号。失真控制模块140可以包括控制失真同时还至少部分保持或者甚至增加语音增强模块220、语音增强控制器222和／或输出增益控制器230所提供的信号能量的硬件和／或软件。即使在向失真控制模块140提供的信号中不存在限幅，在一些实施例中，失真控制模块140 也引起至少部分饱和或限幅，以进一步增加信号的响度和可理解性。

在特定实施例中，失真控制模块140通过将语音信号的一个或更多个采样映射至谐波比完全饱和的信号少的输出信号，来控制语音信号中的失真。对于未饱和的采样，该映射可以线性地或近似线性地跟踪语音信号。对于饱和的采样，映射可以是应用受控失真的非线性变换。因此，在特定实施例中，失真控制模块140可以允许语音信号以比完全饱和的信号少的失真听起来更响。因此，在特定实施例中，失真控制模块140将表示物理语音信号的数据变换为表示具有受控失真的另一物理语音信号的数据。

语音增强系统110和210的各种特征可以包括2009年9月14日递交的是为“Systems for Adaptive Voice Intelligibility Processing” 的美国专利8,204,742中描述的相同或相似组件的相应功能，其公开内容以引用方式完全并入于此。此外，语音增强系统110或210可以包括 1993年7月23日递交的题为“Public Address Intell igibility System”的美国专利5，459,813(“‘813专利”)中描述的任一特征，其公开内容以引用方式完全并入于此。例如，语音增强系统110或210 的一些实施例可以实现‘813专利中描述的固定共振峰跟踪特征，同时实现此处描述的其他特征(如非浊音话音的时间增强、语音活动性检测、麦克风校准及其组合等)中的一些或全部特征。类似地，语音增强系统110或210的其他实施例可以实现此处描述的自适应共振峰跟踪特征，而不实现此处描述的其他特征中的一些或全部特征。

III.自适应共振峰跟踪实施例

参照图3，示出了自适应语音增强模块320的实施例。自适应语音增强模块320是图2的自适应语音增强模块220的更详细的实施例。因此，自适应语音增强模块320可由语音增强系统110或210实现。相应地，自适应语音增强模块320可以用软件和／或硬件实现。有利地，自适应语音增强模块320可以自适应地跟踪浊音话音(如共振峰)，并且还可以在时间上增强非浊音话音。

在自适应语音增强模块320中，向前置滤波器310提供输入话音。该输入话音与上述语音输入信号202相对应。前置滤波器310可以是使特定的低音频率衰减的高通滤波器等。例如，在一个实施例中，前置滤波器310衰减大约750Hz以下的频率，尽管可以选择其他截止频率。通过衰减低频(如大约750Hz以下的频率)处的谱能量，前置滤波器 310可以为后续处理创建更多的净空，使更好的LPC分析和增强成为可能。类似地，在其他实施例中，取代高通滤波器或除了高通滤波器，前置滤波器310还可以包括低通滤波器，并且从而提供附加净空用于增益处理。在一些实现中，还可以省略前置滤波器310。

在所示实施例中，向LPC分析模块312提供前置滤波器310的输出。 LPC分析模块312可以应用线性预测技术来对频谱中的共振峰位置进行谱分析和识别。虽然此处描述为识别共振峰位置，更一般地，LPC分析模块312可以产生能够表示输入话音的频率或功率谱表示的系数。该谱表示可以包括与输入话音中的共振峰相对应的峰。所识别的共振峰可以与频带而不仅仅是峰自身相对应。例如，所谓位于800Hz的共振峰实际上可以包括800Hz左右的谱带。通过产生具有该谱识别的这些系数，LPC分析模块312可以在共振峰位置随时间变化时自适应地识别输入话音中的共振峰位置。因此，自适应语音增强模块320的后续组件能够自适应地增强这些共振峰。

在一个实施例中，LPC分析模块312使用预测算法来产生全极点滤波器，这是由于全极点滤波器模型可以精确地对话音中的共振峰位置进行建模。在一个实施例中，使用自相关方法来获得全极点滤波器的系统。除了其他算法之外，可用于执行该分析的一个特定的算法是 Levinson-Durbin算法。Levinson-Durbin算法产生栅格滤波器的系统，尽管还可以产生直接型系统。可以针对采样块而非针对每个采样来产生系数，以提高处理效率。

LPC分析所产生的系数往往对量化噪声敏感。系数中极小的误差可以使整个谱失真或使滤波器不稳定。为了降低量化噪声对全极点滤波器的影响，可以由映射模块314执行从LPC系数到线谱对(LSP，又称线谱频率(LSF))的映射或变换。映射模块314可以针对每个LPC系统产生系数对。有利地，在特定实施例中，该映射可以产生位于单位圆(在 Z变换域中)上的LSP，提高全极点滤波器的稳定性。备选地，或除了作为处理对噪声的系数敏感性的方式的LSP以外，还可以使用对数面积比(LAR)或其他技术来表示系数。

在特定实施例中，共振峰增强模块316接收LSP并执行附加处理，以产生增强型全极点滤波器326。增强型全极点滤波器326是可应用于输入的音频信号的表示以产生更易理解的音频信号的增强滤波器的一个示例。在一个实施例中，共振峰增强模块316以强调共振峰频率处的谱峰的方式来调整LSP。参照图4，示例曲线400被示为包括频率幅度谱 412(实线)，具有由峰414和416识别的共振峰位置。共振峰增强模块 316可以调整这些峰414、416，以产生新的谱422(由虚线近似)，具有位于相同或实质相同的共振峰位置但增益较高的峰424、426。在一个实施例中，共振峰增强模块316通过减小线谱对之间的距离来增加峰的增益，如竖条418所示。

在特定实施例中，与共振峰频率相对应的线谱对被调整为表示更靠近在一起的频率，从而增加每个峰的增益。虽然线性预测多项式具有单位圆内任意位置的复根，在一些实施例中，线谱多项式具有仅位于单位圆上的根。因此，对于LPC的直接量化，线谱对可以具有许多优越的属性。由于在一些实现中对根进行交织，如果根单调增加可以实现滤波器的稳定性。与LPC系数不同，LSP可不对量化噪声过于敏感，并且因此可以实现稳定性。两个根越近，在相应频率处滤波器可能越谐振。因此，减小与LPC谱峰相对应的两个根(一个线谱对)之间的距离可以有利地增加该共振峰位置处的滤波器增益。

在一个实施例中，共振峰增强模块316可以通过使用相位改变操作(如乘以e^jΩδ)对每个根应用调制因子δ，来减小峰之间的距离。改变量δ的值可以使根沿单位圆靠近在一起或向远处分开。因此，对于一对LSP根，通过应用正值调制因子δ，第一根可以靠近第二根，通过应用负值调制因子δ，第二根可以靠近第一根。在一些实施例中，根之间的距离可以减小特定量，以实现期望的增强，如，距离减小大约10％、或大约25％、或大约30％、或大约50％、或某一其他值。

语音增强控制器222还可以控制对根的调整。如以上参照图2描述的，语音增强模块222可以基于麦克风输入信号204噪声电平来调整所应用的语音可理解性增强的量。在一个实施例中，语音增强控制器222 向自适应语音增强控制器220输出控制信号，共振峰增强模块316可以使用该控制信号来调整应用于LSP根的共振峰增量的量。在一个实施例中，共振峰增强模块316基于控制信号来调整调制因子δ。因此，指示应应用更多增强的控制信号(例如由于更多噪声)可以使共振峰增强模块316改变调制因子δ，以使根更靠近在一起，反之亦然。

再次参照图3，共振峰增强模块316可以将调整后的LSP映射回LPC 系数(栅格或直接型)，以产生增强型全极点滤波器326。然而，在一些实现中，无需执行该映射，相反，可以实现增强型全极点滤波器，以 LSP作为系数。

为了增强输入话音，在特定实施例中，增强型全极点滤波器326 对从输入的话音信号合成的激励信号324操作。在特定实施例中，通过对输入话音应用全极点滤波器322以产生激励信号324来执行该合成。全零点滤波器322由LPC分析模块312创建，并且可以是作为LPC分析模块312所创建的全极点滤波器的逆的你滤波器。在一个实施例中，还用 LPC分析模块312所计算的LSP来实现全零点滤波器322。通过对输入话音应用全极点滤波器的逆并且接着对倒转的话音信号(激励信号324) 应用增强型全极点滤波器326，可以恢复(至少近似地)并增强原始的输入的话音信号。由于全零点滤波器322和增强型全极点滤波器326的系数可以逐块(或者甚至逐采样)改变，可以自适应地跟踪和强调输入话音中的共振峰，从而即使在有噪环境中也改进话音可理解性。因此，在特定实施例中，使用分析合成技术产生增强的话音。

图5示出了包括图3的自适应语音增强模块320的全部特征以及附加特征在内的自适应语音增强模块520的另一实施例。具体地，在所示实施例中，应用两次图3的增强型全极点滤波器326：一次应用于激励信号324(526a)；以及一次应用于输入话音(526b)。对输入话音应用增强型全极点滤波器526b可以产生谱近似为输入话音的谱的平方的信号。合并器528将该近似的谱平方信号与增强的激励信号输出相加，以输出增强的话音输出。可以提供可选的增益框510，以调整所应用的谱平方信号的量。(虽然被示为应用于谱平方信号，增益可以取而代之地应用于增强型全极点滤波器526a的输出或应用于两个滤波器526a、 526b的输出)。可以提供用户接口控制，以允许用户(如并入了自适应语音增强模块320的设备的制造商或设备的端用户)调整增益510。应用于谱平方信号的更高增益可以增加信号的粗糙度，在特别有噪的环境中这可以增加可理解性但在不那么有噪的环境中可能听起来过于刺耳。因此，提供用户控制可以使得能够调整增强的话音信号的感知到的粗糙度。在一些实施例中，还可以由语音增强控制器222基于输入的环境噪声自动控制该增益510。

在特定实施例中，可以实现比自适应语音增强模块320或520中所示的全部框更少的框。在一些实施例中，还可以向自适应语音增强模块320或520添加附加的框或滤波器。

IV.时间包络成形实施例

在一些实施例中，可以向时间包络成形器332提供图3中增强型全极点滤波器326所修改的或作为图6中合并器548输出的语音信号。时间包络成形器332可以经由时域中的时间包络成形来增强非浊音话音(包括瞬态话音)。在一个实施例中，时间包络成形器332增强中间范围频率，包括大约3kz以下(以及可选地低音频率以上)的频率。时间包络成形器332也可以增强中间范围频率以外的频率。

在特定实施例中，时间包络成形器332可以通过首先从增强型全极点滤波器326的输出信号检测包络来增强时域中的时间频率。时间包络成形器332可以使用多种方法中的任一种来检测包络。一个示例方法是最大值跟踪，其中，时间包络成形器332可以将信号划分至加窗部分并且接着从每个加窗部分选择最大或最小值。时间包络成形器332可以将最大值连接在一起(直线或曲线连接在每个值之间)，以形成包络。在一些实施例中，为了增加话音可理解性，时间包络成形器332可以将信号划分至适当数目的频带，并针对每个频带执行不同的成形。

示例窗尺寸可以包括64、128、256或512个采样，虽然还可以选择其他窗尺寸(包括不是2的幂的窗尺寸)。一般地，较大的窗尺寸可以将要增强的时间频率扩展至较低频率。此外，可以使用其他技术来检测信号包络，如，Hilbert变换相关的技术和自解调技术(例如，对信号进行平方和低通滤波)。

一旦检测到包络，时间包络成形器332就可以调整包络的形状，以选择性地锐化或平滑包络的外观。在第一阶段，时间包络成形器332 可以基于包络的特征来计算增益。在第二极短，时间包络成形器332 可以对实际信号中的采用应用增益，以达到期望的效果。在一个实施例中，期望的效果是锐化话音的瞬态部分，以强调非元音话音(如特定的辅音，如“s”和“t”)，从而增加话音可理解性。在其他应用中，使话音平滑从而使话音软化可能是有用的。

图6示出了可以实现图3的时间包络成形器332的特征的时间包络成形器632的更详细的实施例。时间包络成形器632还可以与上述自适应语音增强模块无关地用于不同应用。

时间包络成形器632接收输入信号602(例如，从滤波器326或合并器528)。接着，时间包络成形器632使用带通滤波器610等将输入信号 602细分为多个带。可以选择任意数目的带。作为一个示例，时间包络成形器632可以将输入信号602划分为4个带，包括：从大约50Hz到大约200z的第一带、从大约200Hz到大约4kz的第二带、从大约4kz 到大约10kHz的第三带、以及从大约10kHz到大约20kHz的第四带。在其他实施例中，时间包络成形器332不将信号划分为带，而取而代之地对整个信号操作。

最低带可以是使用子带通滤波器610a获得的低音或子带。该子带可以与通常在低音炮中再现的频率相对应。在以上示例中，最低带是大约50Hz至大约200Hz。该子带通滤波器610a的输出被提供至对子带中的信号应用增益的子补偿增益框612。如将于以下详细描述的，可以对其他带应用增益，以锐化或强调输入信号602的外观。然而，应用这样的增益可以增加子带610a以外的带610b中的能量，导致潜在的低音输出降低。为了补偿该降低的低音效果，子补偿增益框612可以基于应用于其他带610b的增益的量，对子带610a应用增益。子补偿增益可以具有与原始输入信号(或其包络)和锐化的输入信号的能量差相等或近似相等的值。子补偿增益可由增益框612通过对应用于其他带610b 的增加的能量或增益进行求和、平均或其他方式的合并来计算。子补偿增益还可由选择应用于带610b之一的峰增益并将该值等用于子补偿增益的增益框612计算。然而，在另一实施例中，子补偿增益是固定的增益值。向合并器630提供子补偿增益框612的输出。

每个其他带通滤波器610b的输出可以提供给包络检测器622，包络检测器622执行上述包络检测算法中的任一算法。例如，包络检测器 622可以执行最大值跟踪等。包络检测器622的输出可以提供给包络成形器624，包络成形器624可以调整包络的形状，以选择性地锐化或平滑包络的外观。每个包络成形器624向合并器630提供输出信号，合并器630合并每个包络成形器624和子补偿增益框612的输出，以提供输出信号634。

可以通过操纵每个带中包络(或者在不细分的情况下整个信号) 的斜率来实现包络成形器624所提供的锐化效果，如图7和8所示。参照图7，示例曲线700被示为时域包络701的一部分。在曲线700中，时域包络701包括两个部分：第一部分702和第二部分704。第一部分702具有正斜率，而第二部分704具有负斜率。因此，两个部分702、704形成峰708。包络上的点706、708和710表示由上述最大值包括检测器从窗或帧检测的峰值。部分702、704表示用于连接峰点706、708、710从而形成包括710的直线。虽然峰708被示为在该包络701中，包络701的其他部分(未示出)可以取而代之地具有转折点或零斜率。还可以针对包络701的这样的其他部分执行参照包络701的示例部分描述的分析。

包络701的第一部分702与横轴形成角度θ。该角度的陡度可以反映包络701部分702、704是否表示话音信号的瞬态部分，较陡的角度更多地指示瞬态。类似地，包络701的第二部分702与横轴形成角度φ。该角度也反映瞬态存在的可能性，更大的角度更多地指示瞬态。因此，增加角度θ、φ中的一个或两个可以有效地锐化或强调瞬态，并且特别地，增加φ可以导致更单调的声音(例如具有较少回响的声音)，这是由于可以降低声音的反射。

可以通过调整部分702、704所形成的直线中每一个的斜率来增加角度，以产生具有更陡峭或锐化的部分712、714的新包络。第一部分 702的斜率可以被表示为dy／dx1(如图所示)，而第二部分704的斜率可以被表示为dy／dx2(如图所示)。可以应用增益，以增加每个斜率的绝对值(例如，对于dy／dx1为正增量，对于dy／dx2为负增量)。该增益可以依赖于每个角度θ、φ的值。为了使瞬态锐化，在特定实施例中，增益值随正斜率一起增加，在负斜率中减小。提供至包络的第一部分702 的增益调整的量可以但无需与应用于第二部分704的量相同。在一个实施例中，第二部分704的增益在绝对值上大于应用于第一部分702的增益，从而使声音进一步锐化。针对峰处的采样，可以使增益平滑，以降低由于从正增益到负增益的突然转换导致的伪象。在特定实施例中，每当上述角度低于阈值时，对包络应用增益。在其他实施例中，每当角度大于阈值时，应用增益。所计算的增益(或针对多个采样和／或多个带的增益)可以构成使信号中的峰锐化的时间增强参数，从而增强音频信号所选择的辅音或其他部分。

可以执行这些特征的具有平滑的示例增益等式如下：gain= exp(gFactor*delta*(i-mBand-＞prev_maxXL／dx)*(mBand-＞mGainoffs et+Offsetdelta*(i-mBand-＞prev_maxXL))。在该示例等式中，增益是角度改变的指数函数，这是由于包络和角度是在对数尺度下计算的。量gFactoi控制起音或衰减的速率。量(i-mBand-＞prev_maxXL／dx)表示包络的斜率，而增益等式的以下部分表示从先前增益开始以当前增益结束的平滑函数： (mBand-＞mGainoffset+Offsetdelta*(i-mBand-＞prev_maxXL))。由于人类听觉系统基于对数尺度，指数函数可以有助于收听者更好的区分瞬态声音。

图8中还示出了量gFactor的起音／衰减函数，其中，在第一曲线中示出了不同级别的增加的起音斜率812，在第二曲线820中示出了不同级别的降低的衰减斜率822。可以如上所述在斜率上增加起音斜率 812，以强调与图7的更陡峭的第一部分712相对应的瞬态声音。类似地，可以如上所述在斜率上减小衰减斜率822，以进一步强调与图7的更陡峭的第二部分714相对应的瞬态声音。

V.示例语音检测过程

图9示出了语音检测过程900的实施例。噪声检测过程900可由上述语音增强系统110、210中的任一个实现。在一个实施例中，噪声检测过程900由语音活动性检测器212实现。

语音检测过程900检测输入信号(如麦克风输入信号204)中的语音。如果输入信号包括噪声而非语音，语音检测过程900允许基于当前的测量的环境噪声来调整语音增强的量。然而，当输入信号包括语音时，语音检测过程900可以使环境噪声的先前测量用于调整语音增强。使用噪声的先前测量可以有利地基于语音输入来调整语音增强，同时仍使语音增强能够适于环境噪声条件。

在过程900的框902中，语音活动性检测器212接收输入的麦克风信号。在框904，语音活动性检测器212执行麦克风信号的语音活动性分析。语音活动性检测器212可以使用多种技术中的任一种检测语音活动性。在一个实施例中，语音活动性检测器212检测噪声而非语音活动性，并且推断出非噪声活动性的时段对应于语音。语音活动性检测器 212可以使用以上技术等的任意组合来检测语音和／或噪声：信号的统计分析(使用例如标准差、方差等)、较低频带能量与较高频带能量之比、过零率、谱通量或其他频域方法、或自相关。此外，在一些实施例中，语音活动性检测器212使用2006年4月21日递交的题为“Systems and Methods for Reducing Audio Noise”的美国专利中描述的噪声检测技术中的一些或全部来检测噪声，其公开内容以引用方式完全并入于此。

如果如在判决框906处确定的信号包括语音，语音活动性检测器 212使语音增强控制器222使用先前的噪声缓冲器来控制自适应语音增强模块220的语音增强。噪声缓冲器可以包括语音活动性检测器212或语音增强控制器222所保存的麦克风输入信号204的一个或更多个块的噪声采样。在环境噪声自先前噪声采样存储在噪声缓冲器中起未显著改变的假设下，可以使用从输入信号402的先前部分保存的先前的噪声缓冲器。由于交谈中的停顿频繁发生，该假设在许多实例中是正确的。

另一方面，如果信号不包括语音，语音活动性检测器212使语音增强控制器222使用当前的噪声缓冲器来控制自适应语音增强模块220 的语音增强。当前的噪声缓冲器可以表示一个或更多个最近接收的块的噪声采样。语音活动性检测器212在框914确定是否接收到附加信号。如果接收到，过程900循环回到框904。否则，过程900结束。

因此，在特定实施例中，语音检测过程900可以减轻语音输入调制或以其他方式自激活应用于远程语音信号的语音可理解性增强的等级的非期望效果。

VI.示例麦克风校准过程

图10示出了麦克风校准过程1000的实施例。麦克风校准过程1000 可以至少部分由上述语音增强系统110、210中的任一个实现。在一个实施例中，麦克风校准过程1000至少部分由麦克风校准模块234实现。如图所示，过程的一部分可以在实验室或设计设施中实现，而过程1000 的其余部分可以在现场(如在并入了语音增强系统110或210的设备的制造商的设施处)实现。

如上所述，麦克风校准模块234可以计算并存储一个或更多个校准参数，所述一个或更多个校准参数调整应用于麦克风输入信号204 的增益，使麦克风的总体增益对于一些或全部设备相同或大约相同。相反，使麦克风增益在设备间相等的现有方法往往是不一致的，导致在不同设备中不同噪声级别激活语音增强。在当前的麦克风校准方法中，现场工程师(例如在设备制造商设施处或在别处)通过激活测试设备中的回放扬声器来产生将被电话或其他设备拾取的噪声来应用试错法。接着，现场工程师尝试校准麦克风，使得麦克风信号具有语音增强控制器222理解为到达噪声阈值的级别，从而使语音增强控制器 222触发或启用语音增强。由于每个现场工程师对为达到触发语音的阈值增强麦克风应拾取的噪声的级别具有不同的感觉，出现不一致。此外，许多麦克风具有较宽的增益范围(例如-40dB到+40dB)，并且因此可能难以在调谐麦克风时找到精确的增益数。

麦克风校准过程1000可以计算可以与当前现场工程师试错法更一致的每个麦克风的增益值。起始于实验室，在框1002，用测试设备输出噪声信号，所述测试设备可以是具有或与适当的扬声器耦合的任意计算设备。在框1004该噪声信号被记录为参考信号，并且在框1006 从标准参考信号计算平滑后的能量。该平滑后的能量(记为RefPwr) 可以是被用于现场自动麦克风校准的黄金参考值。

在现场，可以使用黄金参考值RefPwr进行自动校准。在框1008，例如由现场工程师使用测试设备以标准音量播放参考信号。以与在实验室中在框1002中播放噪声信号相同的音量来播放参考信号。在框 1010，麦克风校准模块234可以计算从测试下的麦克风接收的声音。接着，麦克风校准模块234在框1012计算记录信号的平滑后的能量，记为 CaliPwr。在框1014，麦克风校准模块234可以基于参考信号和记录信号的能量来计算麦克风偏移，例如：MicOffset=RefPwr/CaliPwr。

在框1016，麦克风校准模块234将麦克风偏移设置为麦克风的增益。当接收麦克风输入信号204时，该麦克风偏移可以作为校准增益应用于麦克风输入信号204。因此，使语音增强控制器222针对相同阈值级别触发语音增强的噪声级别在设备间相同或近似相同。

VII.术语

由本公开，此处描述的变型以外的许多其他变型将是显而易见的。例如，根据实施例，可以不同顺序执行此处描述的任一算法的特定动作、事件或功能，并且可以增加、合并或完全省略此处描述的任一算法的特定动作、事件或功能(例如，对于算法的实现，并非所有描述的动作或时间都是必须的)。此外，在特定实施例中，可以同时 (例如通过多线程处理、中断处理或者多处理器或处理器或者在其他并行架构上)而非顺序执行动作或事件。此外，可以通过能够一起工作的不同机器和／或计算系统来执行不同的任务或过程。

此处结合此处公开的实施例描述的各种说明性逻辑框、模块和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件的软件的该可交换性，以上一般地按照其功能描述了各种说明性组件、框、模块和步骤。这样的功能是被实现为硬件还是软件取决于施加于整个系统的特定的应用和设计约束。例如，交通工具管理系统110或210可由一个或更多个计算机系统或由包括一个或更多个处理器在内的计算机系统实现。对于各个特定应用，可以改变的方式实现所描述的功能，但是这样的实现决策不应理解为导致背离本公开的范围。

结合此处公开的实施例描述的各种说明性逻辑框、模块和算法步骤可以由机器实现或执行，如，被设计为执行此处描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件或其任意组合。通用处理器可以是微处理器，但备选地处理器可以是控制器、微控制器或状态机或其组合等。处理器还可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP核结合的一个或更多个微处理器或任意其他这样的配置。计算环境可以包括任意类型的计算机系统，包括但不限于基于微处理器的计算机系统、主机计算机、数字信号处理器、便携式计算设备、个人组织器、设备控制器、以及器械中的计算引擎等。

结合此处公开的实施例描述的方法、过程或算法的步骤可以执行用硬件、由处理器执行的软件模块或用两者的结合来实现。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM或任意其他形式的非瞬态计算机可读存储介质、或者现有技术中已知的物理计算机存储器中。示例存储介质可以耦合至处理器，使得处理器能够从存储介质读取并向存储介质写入信息。备选地，存储介质可以是处理器的一部分。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。备选地，处理器和存储介质可以驻留为用户终端中的分立组件。

除非另行具体说明或在此处使用的上下文中以其他方式理解，此处使用的条件式语言(如“能够”、“可能”、“可以”、“例如”等)一般意在表达：特定实施例包括而其他实施例不包括特定特征、元素和／或状态。因此，这样的条件式语言一般并非意在暗示一个或更多个实施例必须包括用于(在有无著者输入或提示的情况下)判断这些特征、元素和／或状态是否被包括在任意特定实施例中或要在任意特定实施例中执行的逻辑。术语“包括”、“包含”、“具有”等是同义的并且以开放式包含方式使用，而不排除附加元素、特征、动作、操作等。此外，术语“或”以其包含意义(而非排除意义)使用，从而当例如用于连接一系列元素时，术语“或”指列表中元素的一个、一些或全部。此外，除了具有其通常含义，此处使用的术语“每个”还指术语“每个”所应用于的元素集合的任意子集。

虽然以上详细描述已经示出、描述并指出了适用于各种实施例的新颖特征，将理解的是：可以在不背离本公开精神的前提下，做出所示意的设备或算法的形式和细节上的各种省略、替换和改变。如将意识到的，由于一些特征可以与其他特征分开使用或实现，可以不提供此处记载的全部特征和益处的形式，实现此处描述的发明的特定实施例。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 自适应语音可理解性处理器 [P] . 中国专利： CN103827965B . 2016.05.25
2. 自适应语音可理解性处理器 [P] . 中国专利： CN103827965A . 2014-05-28
3. DIGITAL SIGNAL PROCESSOR OF COMMUNICATION TERMINAL FOR ADAPTIVELY TRANSMITTING VOICE DATA TO ASSIGNED UP-LINK CHANNEL, AND METHOD FOR TRANSMITTING VOICE DATA USING THE SAME [P] . 韩国专利： KR20040073056A . 2004-08-19

机译：用于将语音数据自适应地传输到分配的上行链路信道的通信终端的数字信号处理器，以及使用相同的语音数据传输方法
4. ADAPTIVE VOICE INTELLIGIBILITY PROCESSOR [P] . 韩国专利： KR102060208B1 . 2019-12-27

机译：自适应语音智能处理器
5. Multi-band integrated speech separating microphone array processor with adaptive beamforming [P] . 美国专利： US9215527B1 . 2015-12-15

机译：具有自适应波束形成的多频段集成语音分离麦克风阵列处理器