首页> 中国专利> 用于针对合成统一语音和音频编解码器(USAC)处理音频信号和提供较高时间粒度的设备和方法

用于针对合成统一语音和音频编解码器(USAC)处理音频信号和提供较高时间粒度的设备和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供了一种用于处理音频信号的设备。该设备包括信号处理器（110；205；405）和配置器（120；208；408）。信号处理器（110；205；405）适用于接收具有音频信号的第一可配置的样本数目的第一音频信号帧。此外，信号处理器（110；205；405）适用于利用可配置上采样因子来上采样音频信号以获得所处理的音频信号。此外，信号处理器（110；205；405）适用于输出具有所处理的音频信号的第二可配置的样本数目的第二音频信号帧。配置器（120；208；408）适用于基于配置信息来配置信号处理器（110；205；405），使得当第二可配置的样本数目与第一可配置的样本数目的第一比具有第一比值时，可配置上采样因子等于第一上采样值。此外，配置器（120；208；408）适用于配置信号处理器（110；205；405），使得当第二可配置的样本数目与第一可配置的样本数目的不同的第二比具有不同的第二比值时，可配置上采样因子等于不同的第二上采样值。第一或第二比值不是整数值。

著录项

公开/公告号CN103403799A

专利类型发明专利
公开/公告日2013-11-20

原文格式PDF
申请/专利权人弗兰霍菲尔运输应用研究公司;声代有限公司;
展开▼

申请/专利号CN201180058880.2
发明设计人马库斯·穆赖特鲁斯;伯恩哈德·格里;马克思·纽恩多夫;尼古劳斯·雷特尔巴赫;纪尧姆·福奇斯;菲利普·古尔纳伊;罗什·勒菲弗;布鲁诺·贝塞特;斯特凡·维尔德;
展开▼

申请日2011-10-04
分类号G10L19/00(20130101);G10L19/02(20130101);G10L21/04(20130101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人余刚;吴孟秋
地址德国慕尼黑
入库时间 2024-02-19 21:23:12

法律信息

法律状态公告日

法律状态信息

法律状态
2016-01-13

专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/00 变更前: 变更后: 申请日:20111004

专利权人的姓名或者名称、地址的变更
2015-09-16

授权

授权
2013-12-18

实质审查的生效 IPC(主分类):G10L19/00 申请日:20111004

实质审查的生效
2013-11-20

公开

公开

说明书

技术领域

本发明涉及音频处理，具体地，涉及一种用于针对合成统一语音和音频编解码器（USAC）来处理音频信号和提供较高时间粒度的设备和方法。

背景技术

与其他音频编解码器一样，USAC表现为固定帧大小（USAC：2048 样本/帧）。尽管有在一个帧内切换成较短变换大小的有限集合的可能性，但帧大小仍限制整个系统的时间分辨率。对于传统音频编解码器，为提高整个系统的时间粒度，要增加采样率，从而导致时间上一个帧的持续时间缩短（例如，毫秒）。然而，这对于USAC编解码器并非简单可行：

USAC编解码器包括来自传统一般音频编解码器的工具（诸如AAC （高级音频编码）变换编码器、SBR（谱带复制）和MPEG环绕（MPEG= 动画专家组））加上来自传统语音编码器的工具（诸如ACELP（ACELP= 代数码激励线性预测））的组合。ACELP和变换编码器二者通常在相同环境（即，帧大小、采样率）内的相同时间运行，且可很容易被切换：通常对于清晰语音信号，使用ACELP工具；以及对于音乐、混合信号，使用变换编码器。

ACELP工具在相同时间受限于仅以相对较低的采样率工作。对于24 kb/s，使用仅17075Hz的采样率。对于较高采样率，ACELP工具性能上开始显著降低。然而，变换编码器以及SBR和MPEG环绕将从较高的采样率获益，例如，针对变换编码器的22050Hz以及针对SBR和MPEG环绕的44100Hz。然而，到目前为止，ACELP工具限制了整个系统的采样率，从而导致了尤其对于音乐信号的非最佳系统。

本发明的目的在于提供对用于处理音频信号的设备和方法的改进概念。本发明的目的由根据权利要求1所述的设备、根据权利要求15所述的方法、根据权利要求16所述的设备、根据权利要求18所述的方法以及根据权利要求19所述的计算机程序来解决。

目前的USAC RM在范围从非常低的位率（诸如8kb/s）直到以128 kb/s以上的位率的透明质量的大量操作点上提供高编码性能。为达到在这一较宽位率范围内的这种高质量，使用诸如MPEG环绕、SBR、ACELP 和传统变换编码器的工具的组合。这种工具的组合自然要求工具互操作的联合最佳化处理和放置这些工具的共享环境。

在该联合最佳化处理中发现，有些工具具有再现信号的缺陷，这些信号暴露出在中间位率范围（24kb/s-32kb/s）的高时间结构。具体地，MPEG 环绕、SBR和FD变换编码器（FD、TCX）（FD=频域；TCX=变换编码激励）等工具，即在频域操作的所有工具，可在以与时域的较短帧大小相同的较高时间粒度操作时表现较佳。

相比现有技术的HE-AACv2编码器（高效率AAC v2编码器）的状态，发现目前的USAC参考质量编码器以显著较低的采样率、诸如24kb/s和 32kb/s的位率来操作，同时使用相同的帧大小（样本中）。这意味着以毫秒计的帧的持续时间明显较长。为补偿这些缺陷，需增加时间粒度。这可通过提高采样频率或缩小（例如，使用固定帧大小的系统的）帧大小来达到。

然而，提高采样频率对于SBR和MPEG环绕提高针对时间动态信号的性能是合理的方式，这对于全部核心编码器工具将是无效的：众所周知，较高采样频率将有利于变换编码器，但同时急剧降低ACELP工具的性能。

发明内容

提供了一种用于处理音频信号的设备。该设备包括信号处理器和配置器。所述信号处理器适用于接收具有所述音频信号的第一可配置的样本数目的第一音频信号帧。此外，所述信号处理器适用于利用可配置上采样因子来上采样所述音频信号以获得所处理的音频信号。此外，所述信号处理器适用于输出具有所述所处理的音频信号的第二可配置的样本数目的第二音频信号帧。

所述配置器适用于基于配置信息来配置所述信号处理器，使得当所述第二可配置的样本数目与所述第一可配置的样本数目的第一比具有第一比值时，所述可配置上采样因子等于第一上采样值。此外，所述配置器适用于配置所述信号处理器，使得当所述第二可配置的样本数目与所述第一可配置的样本数目的不同的第二比具有不同的第二比值时，所述可配置上采样因子等于不同的第二上采样值。所述第一比值或所述第二比值不是整数值。

根据前述实施方式，信号处理器上采样音频信号来获得已处理的上采样的音频信号。在前述实施方式中，上采样因子是可配置的且可以是非整数值。可配置性和上采样因子可以是非整数值的事实增加了设备的灵活性。当该第二可配置样本数目与该第一可配置样本数目的不同的第二比具有不同的第二比值时，该可配置上采样因子具有不同的第二上采样值。因此，该设备适用于将该上采样因子和第二与第一音频信号帧的帧长度（即，样本数目）的比之间的关系列入考虑。

在一种实施方式中，所述配置器适用于配置所述信号处理器，使得当所述第二可配置的样本数目与所述第一可配置的样本数目的所述第二比大于所述第二可配置的样本数目与所述第一可配置的样本数目的所述第一比时，所述不同的第二上采样值大于所述第一上采样值。

根据一种实施方式，提出了针对USAC编解码器的新操作模式（下文称为“额外设定”），这增强了系统用于中间数据率（诸如24kb/s和32kb/s）的性能。发现针对这些操作点，目前的USAC参考编解码器的时间分辨率过低。因此，提出a）通过缩小核心编码器帧大小来提高该时间分辨率而不增加核心编码器的采样率，以及b）还增加对SBR和MPEG环绕的采样率，而不改变对于这些工具的帧大小。

所提出的额外设定大大提高了系统的灵活性，因为其允许包括ACELP 工具的系统以较高采样率操作，诸如44.1和48kHz。由于这些采样率是市场上典型要求的采样率，所以期望这将有助于USAC编解码器的接受度。

用于目前的MPEG统一语音和音频编码（USAC）工作项的新操作模式通过增加整个音频编解码器的时间粒度来增加整个编解码器的时间灵活性。若（假设第二样本数保持相同）第二比值大于第一比值，则第一可配置样本数目减少，即第一音频信号帧的帧大小缩小。这会产生较高时间粒度，并且在频域操作的且处理第一音频信号帧的全部工具可表现得更佳。然而，在该高度有效的操作模式中，也期望提高处理包括上采样音频信号的第二音频信号帧的工具性能。这些工具的这种性能提高可通过上采样音频信号的较高采样率，即通过提高用于该操作模式的上采样因子来实现。此外，存在诸如USAC中的ACELP解码器的工具，该工具不在频域操作，该工具处理第一音频信号帧，并在（原始）音频信号的采样率相对较低时，该工具的操作最佳。这些工具可从高上采样因子获益，因为这意味着（原始）音频信号的采样率比上采样音频信号的采样率相对较低。前述实施方式提供了一种设备，其适用于提供针对该环境的有效操作模式的配置模式。

新操作模式通过增加整个音频编解码器的时间粒度来提高整个编解码器的时间灵活性。

在一种实施方式中，所述配置器适用于配置所述信号处理器，使得当所述第二可配置的样本数目与所述第一可配置的样本数目的所述第一比具有所述第一比值时，所述可配置上采样因子等于所述第一比值，且其中，所述配置器适用于配置所述信号处理器，使得当所述第二可配置的样本数目与所述第一可配置的样本数目的所述第二比具有所述不同的第二比值时，所述可配置上采样因子等于所述不同的第二比值。

在一种实施方式中，所述配置器适用于配置所述信号处理器，使得当所述第一比具有所述第一比值时，所述可配置上采样因子等于2，且其中，所述配置器适用于配置所述信号处理器，使得当所述第二比具有所述不同的第二比值时，所述可配置上采样因子等于8/3。

根据又一实施方式，所述配置器适用于配置所述信号处理器，使得当所述第一比具有所述第一比值时，所述第一可配置的样本数目等于1024 且所述第二可配置的样本数目等于2048，且其中，所述配置器适用于配置所述信号处理器，使得当所述第二比具有所述不同的第二比值时，所述第一可配置的样本数目等于768且所述第二可配置的样本数目等于2048。

在一种实施方式中，提出了导入USAC编解码器的额外设定，其中，该核心编码器以较短帧大小（768代替1024样本）来操作。此外，提出了在该背景下将SBR解码器内的重新采样从2:1修改成8:3，以允许SBR和 MPEG环绕以较高采样率操作。

此外，根据一种实施方式，核心编码器的时间粒度通过将核心编码器帧大小从1024缩小成768样本来增加。通过该步骤，核心编码器的时间粒度被提高4/3，同时维持采样率为常数：这允许ACELP以适当采样频率（Fs）运行。

此外，在SBR工具处，应用比值8/3（到目前为止：比值2）的重新采样，将以3/8Fs的核心编码器帧大小768转换成以Fs的输出帧大小 2048。这允许SBR工具和MPEG环绕工具以传统高采样率（例如，44100 Hz）运行。因此，提供了用于语音和音乐信号的良好质量，因为全部工具在其最佳操作点运行。

在一种实施方式中，所述信号处理器包括：核心解码器模块，用于解码所述音频信号以获得预处理的音频信号，分析滤波器组，具有多个分析滤波器组信道，且用于将第一预处理的音频信号从时域变换为频域以获得包括多个子带信号的频域预处理的音频信号，子带生成器，用于针对所述频域预处理的音频信号产生和添加额外子带信号，以及合成滤波器组，具有多个合成滤波器组信道，且用于将所述第一预处理的音频信号从所述频域变换为所述时域以获得所述所处理的音频信号。所述配置器可适用于通过配置所述多个合成滤波器组信道的数目或所述多个分析滤波器组信道的数目来配置所述信号处理器，使得所述可配置上采样因子等于所述合成滤波器组信道的数目与所述分析滤波器组信道的数目的第三比。所述子带生成器可以是频谱带复制器，所述频谱带复制器适用于复制所述预处理的音频信号的生成器的子带信号以针对所述频域预处理的音频信号产生所述额外子带信号。所述信号处理器还可包括MPEG环绕解码器，所述 MPEG环绕解码器用于解码所述预处理的音频信号以获得包括立体声或环绕声道的预处理的音频信号。此外，所述子带生成器可适用于在针对所述频域预处理的音频信号的所述额外子带信号已被产生和添加至所述频域预处理的音频信号之后，将所述频域预处理的音频信号馈进所述MPEG 环绕解码器。

所述核心解码器模块可包括第一核心解码器和第二核心解码器，其中，所述第一核心解码器可适用于在时域中操作，且其中，所述第二核心解码器可适用于在频域中操作。所述第一核心解码器可以是ACELP解码器，且所述第二核心解码器可以是FD变换解码器或TCX变换解码器。

在一种实施方式中，用于该ACELP编解码器的超帧大小从1024缩减至768样本。这可通过将四个大小192（三个大小64的子帧）的ACELP 帧合成为一个大小768的核心编码器帧来进行（先前：将四个大小256的 ACELP帧合成为一个大小1024的核心编码器帧）。另一用于达到768样本的核心编码器帧大小的解决方案例如将是合成三个大小256（四个大小 64的子帧）的ACELP帧。

根据又一实施方式，所述配置器适用于基于指示所述音频信号的所述第一可配置的样本数目或所述所处理的音频信号的所述第二可配置的样本数目中的至少一个的所述配置信息来配置所述信号处理器。

在另一实施方式中，所述配置器适用于基于所述配置信息来配置所述信号处理器，其中，所述配置信息指示所述音频信号的所述第一可配置的样本数目和所述所处理的音频信号的所述第二可配置的样本数目，其中，所述配置信息是配置指数。

此外，提供了一种用于处理音频信号的设备。该设备包括信号处理器和配置器。所述信号处理器适用于接收具有所述音频信号的第一可配置的样本数目的第一音频信号帧。此外，所述信号处理器适用于利用可配置下采样因子来下采样所述音频信号以获得所处理的音频信号。此外，所述信号处理器适用于输出具有所述所处理的音频信号的第二可配置的样本数目的第二音频帧。

所述配置器可适用于基于配置信息来配置所述信号处理器，使得当所述第二可配置的样本数目与所述第一可配置的样本数目的第一比具有第一比值时，所述可配置下采样因子等于第一下采样值。此外，所述配置器适用于配置所述信号处理器，使得当所述第二可配置的样本数目与所述第一可配置的样本数目的不同的第二比具有不同的第二比值时，所述可配置下采样因子等于不同的第二下采样值。所述第一比值或所述第二比值不是整数值。

附图说明

随后将参照附图讨论本发明的优选实施方式，附图中：

图1示出了根据实施方式的用于处理音频信号的设备，

图2示出了根据另一实施方式的用于处理音频信号的设备，

图3示出了根据实施方式的由设备进行的上采样处理，

图4示出了根据又一实施方式的用于处理音频信号的设备，

图5a示出了根据实施方式的核心解码器模块，

图5b示出了根据图4的实施方式的具有根据图5a的核心解码器模块的用于处理音频信号的设备，

图6a示出了包括四个ACELP帧的ACELP超帧，

图6b示出了包括三个ACELP帧的ACELP超帧，

图7a示出了USAC的默认设定，

图7b示出了根据实施方式的用于USAC的额外设定，

图8a、图8b示出了根据MUSHRA方法的倾听测验的结果，以及

图9示出了根据替代实施方式的用于处理音频信号的设备。

具体实施方式

图1示出了根据实施方式的用于处理音频信号的设备。该设备包括信号处理器110和配置器120。信号处理器110适用于接收具有第一可配置数目的音频信号样本145的第一音频信号帧140。此外，信号处理器110 适用于通过可配置上采样因子来上采样该音频信号以获得所处理的音频信号。此外，信号处理器适用于输出具有第二可配置数目的处理的音频信号样本155的第二音频信号帧150。

配置器120适用于基于配置信息ci来配置信号处理器110，使得当第二可配置样本数目与第一可配置样本数目的第一比具有第一比值时，可配置上采样因子等于第一上采样值。此外，配置器120适用于配置信号处理器110，使得当第二可配置样本数目与第一可配置样本数目的不同的第二比具有不同第二比值时，可配置上采样因子等于不同的第二上采样值。第一或第二比值并非整数值。

根据图1的设备例如可被用于解码处理。

根据一种实施方式，配置器120可适用于配置信号处理器110，使得当该第二可配置样本数目与第一可配置样本数目的第二比大于该第二可配置样本数目与第一可配置样本数目的第一比时，不同的第二上采样值大于第一不同的上采样值。在又一实施方式中，配置器120适用于配置信号处理器110，使得当第二可配置样本数目与第一可配置样本数目的第一比具有第一比值时，可配置上采样因子等于第一比值，以及其中，配置器120 适用于配置信号处理器110，使得当第二可配置样本数目与第一可配置样本数目的第二比具有不同的第二比值时，可配置上采样因子等于不同的第二比值。

在另一实施方式中，配置器120适用于配置信号处理器110，使得当该第一比具有第一比值时，该可配置上采样因子等于2，以及其中，配置器120适用于配置信号处理器110，使得当该第二比具有不同的第二比值时，该可配置上采样因子等于8/3。根据又一实施方式，配置器120适用于配置信号处理器110，使得当该第一比具有第一比值时，该第一可配置样本数等于1024，以及该第二可配置样本数等于2048，且其中，配置器 120适用于配置信号处理器110，使得当该第二比具有不同的第二比值时，该第一可配置样本数等于768，以及该第二可配置样本数等于2048。

在一种实施方式中，配置器120适用于基于配置信息ci来配置信号处理器110，其中，该配置信息ci指示上采样因子、该音频信号的第一可配置样本数以及该处理的音频信号的第二可配置样本数，其中，该配置信息为配置指数。

下表示出了配置指数作为配置信息的一个实例：

指数核心编码器帧长度 sbr比输出帧长度 2 768 8:3 2048 3 1024 2:1 2048

其中，“指数”指示配置指数，其中，“核心编码器帧长度”指示该音频信号的第一可配置样本数，其中，“sbr比”指示上采样因子，以及其中， “输出帧长度”指示该处理的音频信号的第二可配置样本数。

图2示出了根据另一实施方式的设备。该设备包括信号处理器205和配置器208。该信号处理器205包括核心解码器模块210、分析滤波器组 220、子带生成器230以及合成滤波器组240。

核心解码器模块210适用于接收音频信号as1。在接收音频信号as1 之后，核心解码器模块210解码该音频信号以获得预处理的音频信号as2。随后，核心解码器模块210将在时域表示的预处理的音频信号as2馈进分析滤波器组220。

分析滤波器组220适用于将预处理的音频信号as2从时域变换为频域以获得包括多个子带信号的频域预处理的音频信号as3。分析滤波器组220 具有可配置数目的分析滤波器组信道（分析滤波器组频带）。分析滤波器组信道数目确定从该时域预处理的音频信号as2生成的子带信号数目。在一种实施方式中，分析滤波器组信道数目可通过设定可配置参数c1的值来设定。例如，分析滤波器组220可被配置为具有32或24个分析滤波器组信道。在图2的实施方式中，分析滤波器组信道数目可根据配置器208 的配置信息ci来设定。在将预处理的音频信号as2变换成频域之后，分析滤波器组220将该频域预处理的音频信号as3馈进子带生成器230。

子带生成器230适用于针对频域音频信号as3产生额外子带信号。此外，子带生成器230适用于修改预处理的频域音频信号as3以获得修改的频域音频信号as4，该信号as4包括预处理的频域音频信号as3的子带信号以及由子带生成器230产生的额外子带信号。由该子带生成器230产生的额外子带信号数目是可配置的。在一种实施方式中，子带生成器是频谱带复制器（SBR）。随后，子带生成器230将修改的频域预处理的音频信号 as4馈进合成滤波器组。

合成滤波器组240适用于将修改的频域预处理的音频信号as4从频域变换为时域来获得时域处理的音频信号as5。合成滤波器组240具有可配置数目的合成滤波器组信道（合成滤波器组频带）。合成滤波器组信道数目是可配置的。在一种实施方式中，合成滤波器组信道数目可通过设定可配置参数c2的值来设定。例如，合成滤波器组240可被配置为具有64个合成滤波器组信道。在图2的实施方式中，配置器208的配置信息ci可设定分析滤波器组信道的数目。通过将修改的频域预处理的音频信号as4变换成时域，获得处理的音频信号as5。

在一种实施方式中，修改的频域预处理的音频信号as4的子带信道数目等于合成滤波器组信道数目。在该实施方式中，配置器208适用于配置由子带生成器230产生的额外子带信道数目。配置器208可适用于配置由子带生成器230产生的额外子带信道数目，使得由配置器208配置的合成滤波器组信道c2的数目等于预处理的频域音频信号as3加上由子带生成器 230产生的额外子带信道数目。由此，合成滤波器组信道数目等于修改的预处理的频域音频信号as4的子带信号数目。

假设音频信号as1具有采样率sr1，以及假设分析滤波器组220具有 c1个分析滤波器组信道且合成滤波器组240具有c2个合成滤波器组信道，处理的音频信号as5具有采样率sr5：

sr5=(c2/c1)·sr1。

c2/c1确定上采样因子u：

u=c2/c1。

在图2的实施方式中，上采样因子u可被设定为非整数值的数。例如，上采样因子u可被设定为值8/3，通过设定分析滤波器组信道数目：c1=24 和通过设定合成滤波器组信道数目：c2=64，使得：

u=8/3=64/24。

假设子带生成器230是频谱带复制器，根据实施方式的频谱带复制器能够从原始子带生成任意数目的额外子带，其中，所产生的额外子带数目与已可用的子带数目的比无需为整数。例如，根据实施方式的频谱带复制器可进行下列步骤：

在第一步骤中，频谱带复制器通过产生额外子带数目来复制子带信号数目，其中，所产生的额外子带数目可以是已可用的子带数目的整数倍。例如，可从音频信号的24个原始子带信号产生24（或例如48）个额外子带信号（例如，子带信号总数可以是双倍或三倍）。

在第二步骤中，假设所需子带信号数目为c12且实际可用子带信号数目为c11，则可区分三种不同情况：

若c11等于c12，则可用子带信号数目c11等于所需的子带信号数目 c12。无需子带调整。

若c12小于c11，则可用子带信号数目c11大于所需的子带信号数目 c12。根据一种实施方式，可删除最高频率子带信号。例如，若有64个子带信号可用且若仅需61个子带信号，则三个具有最高频率的子带信号可被舍弃。

若c12大于c11，则可用子带信号数目c11小于所需的子带信号数目 c12。

根据一种实施方式，通过添加零信号（即，各个子带样本的振幅值等于零的信号）作为额外子带信号，可产生额外子带信号。根据另一实施方式，通过添加伪随机子带信号（即，各个子带样本的值包括伪随机数据的子带信号）作为额外子带信号，可产生额外子带信号。在另一实施方式中，通过复制最高子带信号的样本值或最高子带信号且使用它们作为额外子带信号（复制的子带信号）的样本值，可产生额外子带信号。

在根据一种实施方式的频谱带复制器中，可用基带子带可被复制且用作最高子带，使得全部子带均被填充。相同的基带子带可被复制两次或多次，从而使全部遗漏的子带均可被填充数值。

图3示出了由根据实施方式的设备进行的上采样处理。示出了时域音频信号310和一些音频信号310的样本315。音频信号在频域（例如，时频域）中被变换以获得包括三个子带信号330的频域音频信号320。（在该简化实例中，假设分析滤波器组包括三个信道。）随后，频域音频信号的子带信号330可被复制以获得三个额外子带信号335，使得频域音频信号 320包括原始三个子带信号330和所产生的三个额外子带信号335。随后，又产生两个其他额外子带信号338，例如，零信号、伪随机子带信号或复制的子带信号。随后，频域音频信号被变换回时域，从而产生具有是原始时域音频信号310的采样率的8/3倍的采样率的时域音频信号350。

图4示出了根据又一实施方式的设备。该设备包括信号处理器405和配置器408。信号处理器405包括核心解码器模块210、分析滤波器组220、子带生成器230以及合成滤波器组240，它们对应于图2的实施方式中的相应单元。此外，信号处理器405包括MPEG环绕解码器410（MPS解码器）以用于解码预处理的音频信号来获得具有立体声或环绕声道的预处理的音频信号。子带生成器230适用于在针对该频域预处理的音频信号的额外子带信号已被生成且被添加至该频域预处理的音频信号之后，将频域预处理的音频信号馈进MPEG环绕解码器410。

图5a示出了根据实施方式的核心解码器模块。该核心解码器模块包括第一核心解码器510和第二核心解码器520。第一核心解码器510适用于在时域中操作，以及其中，第二核心解码器520适用于在频域中操作。在图5a中，第一核心解码器510为ACELP解码器，以及第二核心解码器 520为FD变换解码器，例如，AAC变换解码器。在替代实施方式中，第二核心解码器520为TCX变换解码器。根据到达的音频信号部分asp是否包括语音数据或其他音频数据，到达的音频信号部分asp由ACELP解码器510或由FD变换解码器520处理。核心解码器模块的输出为该音频信号的预处理部分pp-asp。

图5b示出了根据图4的实施方式的具有根据图5a的核心解码器模块的用于处理音频信号的设备。

在一种实施方式中，针对ACELP编解码器的超帧大小从1024个样本缩小至768个样本。这可通过将四个大小192的ACELP帧（三个大小64 的子帧）组合成一个大小768的核心编码器帧来完成（先前：四个大小256 的ACELP帧被合成为一个大小1024的核心编码器帧）。图6a示出了包括四个ACELP帧610的ACELP超帧605。ACELP帧610中的每一个包括三个子帧615。

用于达到768个样本的核心编码器帧大小的另一解决方案例如将是组合三个大小256的ACELP帧（四个大小64的子帧）。图6b示出了包括三个ACELP帧630的ACELP超帧625。ACELP帧630中的每一个包括四个子帧635。

图7b概览性示出了从解码器观点所提出的额外设定且与传统USAC 设定相比较。图7a和图7b概览性示出了作为典型用在操作点为24kb/s 或32kb/s的解码器结构。

在图7a中，示出的默认设定音频信号帧的USAC RM9（USAC参考模型9）被输入QMF分析滤波器组710。QMF分析滤波器组710具有32 个信道。该QMF分析滤波器组710适用于将时域音频信号转换成频域，其中，该频域音频信号包括32个子带。随后，频域音频信号被输入上采样器720。上采样器720适用于利用上采样因子2来上采样该频域音频信号。因此，由该上采样器产生包括64个子带的频域上采样器输出信号。上采样器720为SBR（频谱带复制器）上采样器。如前文已述，频谱带复制器被用于从输入频谱带复制器的较低频子带产生较高频子带。

随后，上采样的频域音频信号被馈进MPEG环绕（MPS）解码器730。 MPS解码器730适用于将下混环绕信号解码以导出环绕信号的频域信道。例如，MPS解码器730可适用于产生频域环绕信号的两个上混频域环绕信道。在另一实施方式中，MPS解码器730可适用于产生频域环绕信号的五个上混频域环绕信道。随后，频域环绕信号的信道被馈进QMF合成滤波器组740。QMF合成滤波器组740适用于将频域环绕信号的信道变换为时域来获得环绕信号的时域信道。

由图可以看出，USAC解码器以其作为2:1系统的默认设定来操作。核心编解码器以输出采样率f_out的一半并以1024个样本/帧的粒度来操作。通过组合32个频带分析QMF滤波器组与以相同速率运行的64个频带合成QMF组，以因子2的上采样在SBR工具内部被暗示性执行。SBR工具在f_out输出大小2048的帧。

图7b示出了所提出的针对USAC的额外设定。示出了QMF分析滤波器组750、上采样器760、MPS解码器770和合成滤波器组780。

与默认设定相反，USAC编解码器以作为8/3系统的所提出的额外设定来操作。核心编码器以输出采样率f_out的八分之三来运行。在相同背景下，核心编码器帧大小被缩小3/4的因子。通过SBR工具内部组合24个频带分析QMF滤波器组与64个频带合成滤波器组，可获得2048个样本的帧长度的输出采样率f_out。

该设定允许针对核心编码器和额外工具二者的更多增加的时间粒度：然而，诸如SBR和MPEG环绕等工具可以较高采样率操作，核心编码器采样率被减少且相反，帧长度缩短。以此方式，全部组件可在其最佳环境中工作。

在一种实施方式中，被用作核心编码器的AAC编码器仍可基于1/2f_out采样率来确定缩放因子，即便AAC编码器以输出采样率f_out的八分之三来操作。

下表提供了关于用在USAC参考质量编码器中针对USAC的采样率和帧持续时间的详细数字。由表可以看出，在所提出的新设定中的帧持续时间可被缩小接近25%，这会产生针对全部非静态信号的积极效果，因为编码噪声的扩展也可相同比例减少。可获得这种减少而不增加将使ACELP 工具移出其最佳操作范围之外的核心编码器采样频率。

该表示出了如以24kb/s用在参考质量编码器中的针对默认和所提出的新设定的采样率和帧持续时间。

下文中，更详细描述了用于实施所提出的新设定的针对USAC解码器的所需修改。

对于变换编码器，通过以3/4的因子缩放变换和窗口大小，可很容易实现较短的帧大小。然而，标准模式下的FD编码器以1024和128的变换大小操作，通过新设定导入大小768和96的额外变换。对于TCX，需要大小768、384和192的额外变换。除了根据窗口系数指定新变换大小之外，变换编码器可保持不变。

关于ACELP工具，总帧大小需被调适为768个样本。实现该目标的一种方式是使帧的总体结构不变，且四个192样本的ACELP帧匹配768 样本的各个帧。调适为缩小的帧大小通过将每帧的子帧数目从4减至3来实现。ACELP子帧长度不变，维持64个样本。为允许子帧数目减少，使用略为不同的方案来编码间距信息：三个间距值分别用9、6和6位使用绝对-相对-相对方案来编码，代替标准模型中用9、6、9和6位的绝对- 相对-绝对-相对方案。然而，编码间距信息的其他方式也是可行的。ACELP 编解码器的其他元件（诸如ACELP码簿以及各量化器（LPC滤波器、增益等））维持不变。

实现768样本的总帧大小的另一方式是将三个大小256的ACELP帧组合成一个大小768的核心编码器帧。

SBR工具的功能维持不变。但除32个频带分析带QMF之外，需要 24个频带分析QMF来允许因子8/3的上采样。

下文中，将说明所提出的额外操作点对计算复杂度的影响。这首先以每个编解码器-工具为基础进行并在结束时进行总结。将复杂度与默认低采样率模式相比较以及与较高采样率模式相比较，如由USAC参考质量编码器以较高位率使用，这可与针对这些操作点的相应HE-AACv2设定相比较。

关于变换编码器，变换编码器部件的复杂度随着采样率和变换长度而缩放。所提出的核心编码器采样率大致保持不变。变换大小被缩小3/4因子。由此，计算复杂度减少接近相同的因子，假设混合基数（radix）方法用于潜在FFT。总之，基于变换的解码器复杂度预期比目前的USAC操作点略减，且与较高采样操作模式相比减少3/4的因子。

对于ACELP，ACELP工具的复杂度主要组合了下列操作：

激励的解码：该操作的复杂度与每秒子帧数目成比例，这又与核心编码器采样频率直接成比例（子帧大小以64个样本维持不变）。因此，其接近与新设定相同。

LPC滤波和其他合成操作，包括低音后滤波器：该操作的复杂度与核心编码器采样频率直接成比例，并因此接近相同。

总之，ACELP解码器的预期复杂度预期相比目前的USAC操作点维持不变，且相比较高采样操作模式减少3/4因子。

关于SBR，对SBR复杂度的主要贡献因子为QMF滤波器组。这里，复杂度随采样率和变换大小而缩放。具体地，分析滤波器组的复杂度大致减少3/4因子。

关于MPEG环绕，MPEG环绕部件的复杂度随采样率而缩放。所提出的额外操作模式对MPEG环绕工具的复杂度无直接影响。

总之，发现所提出的新操作模式的复杂度相比低采样率模式略为更复杂，但当以较高采样率模式（USAC RM9，高SR：13.4MOPS，所提出的新操作点：12.8MOPS）运行时，低于USAC解码器的复杂度。

对于所测试的操作点，复杂度评估如下：

USAC RM9，以34.15kHz操作：约4.6WMOPS；

USAC RM9，以44.1kHz操作：约5.6WMOPS；

所提出的新操作点：约5.0WMOPS。

由于预期USAC解码器在其默认配置中需要能够处理高达48kHz的采样率，预期不会由该所提出的新操作点带来缺陷。

对于存储器需求，所提出的额外操作模式要求额外MDCT窗口原型的存储，这总和为900字（32位）以下的额外ROM需求。根据总解码器 ROM需求（约为25千字），这似乎可忽略不计。

倾听测试结果显示音乐和混合测试项的显著改善，而语音项的质量未降级。该额外设定旨在作为USAC编解码器的额外操作模式。

进行根据MUSHRA方法的倾听测试来评估24kb/s单声道的所提出的新设定性能。下列条件被包括在该测试中：隐藏参考；3.5kHz低通锚定； USAC WD7参考质量（WD734.15kHz）；以高采样率操作的USAC WD7 （WD744.1kHz）；以及USAC WD7参考质量，所提出的新设定（WD7_CE44.1kHz）。

测试涵盖来自USAC测试集的12个测试项目和下列额外项目：si02：响板；丝绒（velvet）：电子音乐；以及木琴：音乐盒。

图8a和图8b示出了测试结果。22人参与倾听测试。使用学生t机率分布进行评估。

对于平均分数的评估（95%显著程度），可观察到以44.1kHz较高采样率操作的WD7针对两个项目（es01、HarryPotter）的表现显然比WD7 差。而WD7与以该技术为特征的WD7之间未观察到显著差异。

对于差异分数的评估，可观察到以44.1kHz操作的WD7针对六个项目（es01、louis_raquin、te1、WeddingSpeech、HarryPotter、 SpeechOverMusic_4）以及对全部项目求平均的表现比WD7差。表现较差的项目包括全部纯语音项和两个混合语音/音乐项。此外，可观察到以44.1 kHz操作的WD7针对四个项目（闪烁（twinkle）、拯救（salvation）、si02、丝绒）表现显著优于WD7。全部这些项目均包括音乐信号的显著部分或归类为音乐。

对于接受测试的技术，可观察到其性能针对五项（闪烁、拯救、te15、 si02、丝绒）以及此外对全部各项求平均时优于WD7。其表现较佳的全部项目包括音乐信号的显著部分或归类为音乐。未观察到降级。

通过前述实施方式，提供了对中间USAC位率的新设定。该新设定能使USAC编解码器增加其针对全部相关工具的时间粒度，诸如变换编码器、SBR和MPEG环绕，而不牺牲ACELP工具的质量。由此，可改善中间位率范围的质量，特别是针对表现为高时间结构的音乐和混合信号。此外，USAC系统以灵活性增益，因为包括ACELP工具的USAC编解码器现可被用于较宽采样率范围，诸如44.1kHz。

图9示出了用于处理音频信号的设备。该设备包括信号处理器910和配置器920。信号处理器910适用于接收具有该音频信号的第一可配置样本数目945的第一音频信号帧940。此外，信号处理器910适用于由可配置的下采样因子来下采样该音频信号以获得处理的音频信号。此外，信号处理器适用于输出具有该处理的音频信号的第二可配置样本数目955的第二音频信号帧950。

配置器920适用于基于配置信息ci2来配置信号处理器910，使得当第二可配置样本数目与第一可配置样本数目的第一比具有第一比值时，可配置下采样因子等于第一下采样值。此外，配置器920适用于配置信号处理器910，使得当第二可配置样本数目与第一可配置样本数目的不同的第二比具有不同第二比值时，可配置下采样因子等于不同的第二下采样值。第一或第二比值并非整数值。

根据图9的设备例如可被用于编码处理。

尽管已在装置背景下描述了一些方面，但明确的是，这些方面还表示对相应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤背景下描述的方面还表示对相应设备的相应块或项目或者特征的描述。

本发明的分解信号可被存储在数字存储介质上或可在诸如无线传输介质或有线传输介质（诸如因特网）的传输介质上传输。

根据具体实施要求，本发明的实施方式可以硬件或软件来实施。可使用其上存储有电可读控制信号且该信号与可编程计算机系统协作（或能够协作）的数字存储介质（例如，软盘、DVD、CD、ROM、PROM、EPROM、 EEPROM或闪存）来执行该实施，从而执行相应方法。

根据本发明的某些实施方式包括非临时性数据载体，该数据载体具有能与可编程计算机系统协作从而执行本文所述方法中的一种的电可读控制信号。

一般地，本发明的实施方式可被实施为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作地用于执行所述方法中的一种。该程序代码例如可存储在机器可读载体上。

其他实施方式包括用于执行本文所述方法之一的计算机程序，所述计算机程序存储在机器可读载体上。

因此，换句话说，本发明方法的一种实施方式是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用于执行本文所述的方法之一。

因此，本发明方法的另一实施方式是包括记录其中的用于执行本文所述方法之一的计算机程序的数据载体（或数字存储介质，或者计算机可读介质）。

因此，本发明方法的另一实施方式是表示用于执行本文所述方法之一的计算机程序的数据流或一系列信号。该数据流或一系列信号例如可被配置为经由数据通信连接（例如，经由互联网）传送。

另一实施方式包括处理装置（例如，计算机或可编程逻辑器件），该处理装置被配置为或适用于执行本文所述方法之一。

另一实施方式包括计算机，该计算机上安装有用于执行本文所述方法之一的计算机程序。

在某些实施方式中，可编程逻辑器件（例如，现场可编程门阵列）可被用于执行本文所述的方法的某些或所有功能。在某些实施方式中，现场可编程门阵列可与微处理器协作，以执行本文所述方法之一。一般地，该方法优选由任何硬件设备执行。

上述实施方式仅说明了本发明的原理。应理解，本文所述的配置和细节的修改和变更对于本领域其他技术人员而言将是显而易见的。因此，本发明意在仅由所附专利权利要求的范围来限定，而非由本文中通过实施方式的描述和说明给出的具体细节来限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于针对合成统一语音和音频编解码器(USAC)处理音频信号和提供较高时间粒度的设备和方法 [P] . 中国专利： CN103403799B . 2015.09.16
2. 用于针对合成统一语音和音频编解码器(USAC)处理音频信号和提供较高时间粒度的设备和方法 [P] . 中国专利： CN103403799A . 2013-11-20
3. Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (USAC) [P] . 美国专利： US9552822B2 . 2017-01-24

机译：用于处理音频信号并为组合的统一语音和音频编解码器（USAC）提供更高的时间粒度的设备和方法
4. Apparatus and method for processing an audio signal and providing greater temporal granularity for a combined unified speech and audio codec (usac). [P] . BR112013008463A2 . 2016-08-09

机译：用于处理音频信号并为组合的统一语音和音频编解码器（usac）提供更大的时间粒度的设备和方法。
5. Apparatus and method for processing an audio signal and for providing greater temporal granularity for a combined unified voice and audio codec (USAC) [P] . ES2530957T3 . 2015-03-09

机译：用于处理音频信号并为组合的统一语音和音频编解码器（USAC）提供更大的时间粒度的设备和方法