首页> 中国专利> 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法

用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

提供了一种用于根据包括三个或更多个下混合声道的下混合信号生成包括一个或更多个音频输出声道的音频输出信号的解码器，其中，下混合信号对三个或更多个音频对象信号进行编码。解码器包括：输入声道路由器(110)，用于接收所述三个或更多个下混合声道以及用于接收边信息；以及至少两个声道处理单元(121，122)，用于生成至少两个经处理的声道以获得一个或更多个音频输出声道。输出声道路由器(110)被配置成将所述三个或更多个下混合声道中的至少两个中的每一个馈送至所述至少两个声道处理单元(121，122)中的至少一个中，以使得所述至少两个声道处理单元中的每一个接收所述三个或更多个下混合声道中的一个或更多个，并且使得所述至少两个声道处理单元(121，122)中的每一个接收少于所述三个或更多个下混合声道的总数的下混合声道。所述至少两个声道处理单元(121，122)中的每个声道处理单元被配置成根据边信息并且根据由所述声道处理单元从输入声道路由器接收的所述三个或更多个下混合声道中的至少两个中的所述一个或更多个，生成所述至少两个经处理的声道中的一个或更多个。

著录项

公开/公告号CN104756186A

专利类型发明专利
公开/公告日2015-07-01

原文格式PDF
申请/专利权人弗兰霍菲尔运输应用研究公司;
展开▼

申请/专利号CN201380051500.1
发明设计人托尔斯滕·卡斯特纳;于尔根·赫勒;莱昂·特伦提夫;奥利弗·赫尔穆特;
展开▼

申请日2013-08-05
分类号
代理机构北京集佳知识产权代理有限公司;
代理人朱胜
地址德国慕尼黑
入库时间 2023-12-18 09:48:08

法律信息

法律状态公告日

法律状态信息

法律状态
2018-01-02

授权

授权
2016-07-20

著录事项变更 IPC(主分类):G10L19/008 变更前: 变更后: 申请日:20130805

著录事项变更
2015-07-29

实质审查的生效 IPC(主分类):G10L19/008 申请日:20130805

实质审查的生效
2015-07-01

公开

公开

说明书

技术领域

本发明涉及用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码(M-SAOC)的解码器及方法。

背景技术

在现代数字音频系统中，允许对接收器侧的所传送内容的音频对象相关修改是主要趋势。这些修改包括：在经由空间分布的扬声器进行多声道回放的情况下对音频信号的所选部分的增益修改和/或指定音频对象的空间重新布置。这可以通过将音频内容的不同部分单独地传递至不同的扬声器来实现。

换言之，在音频处理、音频传输和音频存储领域中，允许关于面向对象的音频内容回放的用户交互的期望在不断增加，并且存在以下需求：利用多声道回放的扩展可能性来单独渲染音频内容或音频内容的一部分，以提高听觉印象。由此，多声道音频内容的使用为用户带来了显著的改善。例如，可以获得三维听觉印象，三维听觉印象能够在娱乐应用中带来提高了的用户满意度。然而，因为可以通过使用多声道音频回放来提高讲话者清晰度，所以在专业环境中(例如，在电话会议应用中)多声道音频内容也有用。另外的可能的应用是向聆听者提供音乐片段以单独地调节不同部分(也称作“音频对象”)或轨道(如有声部分或不同乐器)的回放电平和/或空间位置。用户可以出于以下原因而执行这样的调节：个人品味、为了更容易地转录音乐片段的一个或更多个部分、教育目的、卡拉OK录音、排练等。

例如脉冲编码调制(PCM)数据或甚至压缩的音频格式的形式的所有数字多声道或多对象音频内容的直接离散传输要求非常高的比特率。然而，还期望以高效比特率的方式来传输和存储音频数据。因此，人们愿意接受音频品质与比特率要求之间的合理折衷以避免由多声道/多对象应用引起的过度资源负荷。

近来，在音频编码领域中，用于多声道/多对象音频信号的比特率高效传输/存储的参数化技术已经由例如运动图像专家组(MPEG)和其他组织提出。一个示例是作为面向声道的方法[MPS，BCC]的MPEG环绕声(MPS)或作为面向对象的方法[JSC，SAOC，SAOC1，SAOC2]的 MPEG空间音频对象编码(SAOC)。另外的面向对象的方法被称为“通知的源分离(informed source separation)”[ISS1，ISS2，ISS3，ISS4， ISS5，ISS6]。这些技术旨在基于声道/对象和另外的描述所传输/所存储的音频场景和/或音频场景中的音频源对象的边信息的下混合，重建期望的输出音频场景或期望的音频源对象。

以时间-频率选择性方式来进行对这样的系统中的声道/对象相关的边信息的估计和应用。因此，这样的系统使用时频变换，如离散傅里叶变换(DFT)、短时傅里叶变换(STFT)或滤波器组如正交镜像滤波器(QMF) 组等。图2中示出了使用MPEG SAOC的示例的这样的系统的基本原理。

在STFT的情况下，时间维度由时间块的数量来表示，而谱维度通过谱系数(“频率点”)的数量被捕获。在QMF的情况下，时间维度由时间隙的数量来表示，频谱维度通过子带的数量来捕获。如果通过随后的第二滤波器级的应用来提高QMF的谱分辨率，则整个滤波器组被称为混合 QMF，并且高分辨率的子带被称为混合子带。

如上面已经描述的，在SAOC中，以时间-频率选择性方式来执行一般的处理，并且在每个频带内可以被描述如下，如图2中所示：

-作为编码器处理的一部分，使用由元素d_1,1…d_N,P构成的下混合矩阵将N个输入音频对象信号s₁…s_N下混合成P个声道x₁…x_P。另外，编码器提取描述输入音频对象(边信息估计器(SIM)模块)的特征的边信息。针对MPEG SAOC，关于彼此的对象功率的关系是这样的边信息的最基本的形式。

-传输/存储下混合信号和边信息。为此，可以例如使用公知的感知音频编码器(如MPEG-1/2层II或MPEG-1/2层III(亦称mp3)、MPEG-2/4 高级音频编码(AAC)等)对下混合音频信号进行压缩。

-在接收端，解码器概念地设法使用所传输的边信息根据(经解码的) 下混合信号来恢复原始的对象信号(“对象分离”)。然后，使用由图2中的系数r_1,1…r_N,M描述的渲染矩阵，将这些近似的对象信号混合成由M个音频输出声道所表示的目标场景。在极端情况下，所期望的目标场景不仅可以是对混合之外的仅仅一个源信号的渲染(源分离情况)，而且可以是包括所传输的对象的任何其他的任意声学场景。例如，输出可以是单声道、2声道立体声或5.1多声道目标场景。

在音频编码领域中增加的带宽/可用存储空间以及持续的改进使得用户能够从稳定增加的多声道音频产品的选择中进行选择。多声道5.1音频格式已经是DVD和蓝光产品中的标准。具有甚至更多的音频传输声道的新的音频格式(如MPEG-H 3D音频)正在兴起，MPEG-H 3D音频将为终端用户提供高度的沉浸式音频体验。

目前，参数化音频对象编码方案被限定为最多两个下混合声道。这些方案可以在一定程度上仅应用于对多声道混合的一些扩展，例如对仅仅两个所选的下混合声道。因此，这些编码方案提供给用户按照他/她自己的偏好来调整音频场景的灵活性严重受限，例如，关于改变体育评论员和体育广播中的氛围的音频电平。

此外，当前的音频对象编码方案在编码器侧的混合处理中仅提供有限的可变性。混合处理受限于音频对象的时变混合，并且频变混合是不可行的。

因此，如果可以提供针对音频对象编码的改进的概念，则这将受到高度赞赏。

发明内容

本发明的目的是提供用于音频对象编码的改进了的概念。本发明的目的由根据权利要求1的解码器、由根据权利要求16的方法以及由根据权利要求17的计算机程序来实现。

提供了一种用于根据包括三个或更多个下混合声道的下混合信号来生成包括一个或更多个音频输出声道的音频输出信号的解码器，其中，下混合信号对三个或更多个音频对象信号进行编码。

解码器包括：输入声道路由器，其用于接收所述三个或更多个下混合声道以及用于接收边信息；以及至少两个声道处理单元，其用于生成至少两个经处理的声道以获得一个或更多个音频输出声道。

输入声道路由器被配置成将所述三个或更多个下混合声道中的至少两个中的每一个馈送到所述至少两个声道处理单元中的至少一个中，以使得所述至少两个声道处理单元中的每一个接收所述三个或更多个下混合声道中的一个或更多个，并且使得所述至少两个声道处理单元中的每一个接收少于所述三个或更多个下混合声道的总数的下混合声道。

所述至少两个声道处理单元中的每个声道处理单元被配置成：根据边信息并且根据由所述声道处理单元从输入声道路由器接收的所述三个或更多个下混合声道中的所述至少两个中的所述一个或更多个，生成所述至少两个经处理的声道中的一个或更多个。

混合处理中更大的灵活性使得能够最佳地利用信号对象特征。可以产生关于所接收的品质而针对解码器侧的参数化分离进行优化的下混合。

实施方式对任意数量的下混合/上混合声道的SAOC方案的参数化部分进行扩展。发明方法还使得完全灵活地对音频对象进行混合成为可能。

根据实施方式，输入声道路由器可以被配置成将所述三个或更多个下混合声道中的至少两个中的每一个馈送到所述至少两个声道处理单元中的恰好一个中。

在实施方式中，输入声道路由器可以被配置成：将所述三个或更多个下混合声道中的每一个馈送到所述至少两个声道处理单元中的至少一个中，以使得所述三个或更多个下混合声道中的每一个由所述至少两个声道处理单元中的一个或更多个接收。

根据实施方式，所述至少两个声道处理单元中的每一个可以被配置成：独立于三个或更多个下混合声道中的至少一个，生成所述至少两个经处理的声道中的所述一个或更多个。

在实施方式中，所述至少两个声道处理单元中的每一个可以或者是单声道处理单元或者是立体声处理单元；其中，所述单声道处理单元可以被配置成接收所述三个或更多个下混合声道中的恰好一个，并且所述单声道处理单元可以被配置成：根据所述三个或更多个下混合声道中的所述恰好一个并且根据所述边信息，生成所述至少两个经处理的声道中的恰好一个或恰好两个；以及其中，所述立体声处理单元可以被配置成接收所述三个或更多个下混合声道中的恰好两个，并且所述立体声处理单元可以被配置成：根据所述三个或更多个下混合声道中的所述恰好两个并且根据边信息，生成所述至少两个经处理的声道中的恰好一个或恰好两个。

所述至少两个声道处理单元中的至少一个可以被配置成接收所述三个或更多个下混合声道中的恰好一个，并且所述至少两个声道处理单元中的至少一个可以被配置成：根据所述三个或更多个下混合声道中的所述恰好一个并且根据边信息，生成所述至少两个经处理的声道中的恰好两个。

根据实施方式，所述至少两个声道处理单元中的至少一个可以被配置成接收所述三个或更多个下混合声道中的恰好两个，并且所述至少两个声道处理单元中的至少一个可以被配置成：根据所述三个或更多个下混合声道中的所述恰好两个并且根据边信息，生成所述至少两个经处理的声道中的恰好一个。

在实施方式中，输入声道路由器可以被配置成接收四个或更多个下混合声道，以及所述至少两个声道处理单元中的至少一个可以被配置成接收所述四个或更多个下混合声道中的至少三个，并且所述至少两个声道处理单元中的至少一个可以被配置成：根据所述四个或更多个下混合声道中的所述至少三个并且根据边信息，生成至少三个经处理的声道。

根据实施方式，所述至少两个声道处理单元中的至少一个可以被配置成接收所述四个或更多个下混合声道中的恰好三个，并且所述至少两个声道处理单元中的至少一个可以被配置成：根据所述四个或更多个下混合声道中的所述恰好三个并且根据边信息，生成恰好三个经处理的声道。

在实施方式中，输入声道路由器可以被配置成接收六个或更多个下混合声道，以及其中，所述至少两个声道处理单元中的至少一个可以被配置成接收所述六个或更多个下混合声道中的恰好五个，并且所述至少两个声道处理单元中的至少一个可以被配置成：根据所述六个或更多个下混合声道中的所述恰好五个并且根据边信息，生成恰好五个经处理的声道。

在实施方式中，输入声道路由器被配置成不将所述三个或更多个下混合声道中的至少一个馈送到所述至少两个声道处理单元中的任何一个中，使得所所述三个或更多个下混合声道中的所述至少一个不由所述至少两个声道处理单元中的任何一个接收。

根据实施方式，解码器还可以包括输出声道路由器，其用于对所述至少两个经处理的声道进行组合以获得所述一个或更多个音频输出声道。

在实施方式中，解码器还可以包括渲染器，其中，渲染器可以被配置成接收渲染信息，并且其中，渲染器被配置成根据所述至少两个经处理的声道并且根据渲染信息来生成所述一个或更多个音频输出声道。

根据实施方式，所述至少两个声道处理单元可以被配置成并行地生成所述至少两个经处理的声道。

根据实施方式，所述至少两个声道处理单元中的第一声道处理单元可以被配置成将所述至少两个经处理的声道中的第一经处理的声道馈送至所述至少两个声道处理单元中的第二声道处理单元中。所述第二处理单元可以被配置成根据第一经处理的声道来生成所述至少两个经处理的声道中的第二经处理的声道。

此外，提供了一种方法，所述方法用于根据包括三个或更多个下混合声道的下混合信号生成包括一个或更多个音频输出声道的音频输出信号。下混合信号对三个或更多个音频对象信号进行编码。所述方法包括：

通过输入声道路由器来接收所述三个或更多个下混合声道以及接收边信息，

将所述三个或更多个下混合声道中的至少两个中的每一个馈送到所述至少两个声道处理单元中的至少一个中，以及

通过至少两个声道处理单元生成至少两个经处理的声道，以获得一个或更多个音频输出声道。

实施了通过输入声道路由器将所述三个或更多个下混合声道中的至少两个中的每一个馈送到所述至少两个声道处理单元中的至少一个中，以使得所述至少两个声道处理单元中的每一个接收所述三个或更多个下混合声道中的一个或更多个，并且使得所述至少两个声道处理单元中的每一个接收少于三个或更多个下混合声道的总数的下混合声道。

通过以下处理来实施生成所述至少两个经处理的声道：通过所述至少两个声道处理单元中的每个声道处理单元根据边信息并且根据由所述声道处理单元从输入声道路由器接收的所述三个或更多个下混合声道中的所述至少两个中的所述一个或更多个生成所述至少两个经处理的声道中的一个或更多个。

此外，提供了一种用于当在计算机或信号处理器上被执行时实现上述方法的计算机程序。

附图说明

在下面，参照图更详细地描述了本发明的实施方式，其中：

图1是根据实施方式的用于生成音频输出信号的解码器；

图2是示出使用MPEG SAOC的示例的这样的系统的原理的SAOC 系统概要；

图3示出了根据实施方式的示出了并行组合多个SAOC单声道和立体声解码器/代码转换器实例来参数化地对多声道信号混合进行解码的原理的示意性图示，以及

图4描绘了根据实施方式的示出处理多声道信号混合的级联的 SAOC单声道和立体声解码器/代码转换器结构的原理的示意图。

具体实施方式

在描述本发明的实施方式之前，提供了现有技术的SAOC系统的更多背景。

图2示出了SAOC编码器10和SAOC解码器12的总体布置。SAOC 编码器10接收作为输入的N个对象，即，音频信号s₁至s_N。具体地，编码器10包括下混合器16，下混合器16接收音频信号s₁至s_N并且将音频信号s₁至s_N下混合成下混合信号18。可替选地，可以从外部提供下混合 (“艺术的下混合”)，并且系统估计附加的边信息以使所提供的下混合与所计算出的下混合相匹配。在图2中，示出了要成为P声道信号的下混合信号。因此，能够构思任何单声道(P＝1)、立体声(P＝2)或多声道(P ＞2)下混合信号配置。

在立体声下混合的情况下，下混合信号18的声道被表示为L0和R0；在单声道下混合的情况下，下混合信号18的声道被简单地标记为L0。为了使SAOC解码器12能够恢复单独的对象s₁至s_N，边信息估计器17向 SAOC解码器12提供包括SAOC参数的边信息。例如，在立体声下混合的情况下，SAOC参数包括对象电平差(OLD)、对象间相关(IOC)(对象间交叉相关参数)、下混合增益值(DMG)和下混合声道电平差 (DCLD)。包括SAOC参数的边信息20以及下混合信号18形成由SAOC 解码器12接收的SAOC输出数据流。

SAOC解码器12包括上混合器，上混合器接收下混合信号18和边信息20，以恢复音频信号和并且将音频信号和渲染至任意的用户选择的声道集合至上述渲染由输入至SAOC解码器12的渲染信息26来规定。

音频信号s₁至s_N可以被输入至任何编码域(如时域或频域)的编码器10中。在音频信号s₁至s_N被馈送至时域(如PCM编码)的编码器10 中的情况下，编码器10可以使用滤波器组(如混合QMF组)，以将信号传送至频域中，在频域中以特定的滤波器组分辨率用与不同的谱部分相关联的若干子带来表示音频信号。如果音频信号s₁至s_N已经是编码器10所预期的表示，则音频信号s₁至s_N不必执行谱分解。

图1示出了根据实施方式的用于根据包括三个或更多个下混合声道的下混合信号生成包括一个或更多个音频输出声道的音频输出信号的解码器。下混合信号对三个或更多个音频对象信号进行编码。

解码器包括：输入声道路由器100，用于接收三个或更多个下混合声道DMX1、DMX2、DMX3并且用于接收边信息S1；以及至少两个声道处理单元121、122，用于生成至少两个经处理的声道以获取一个或更多个音频输出声道。

输入声道路由器110被配置成将三个或更多个下混合声道DMX1、 DMX2、DMX3中的至少两个中的每一个馈送到上述至少两个声道处理单元121、122中至少一个中，以使得上述至少两个声道处理单元121、122 中的每一个接收三个或更多个下混合声道中的一个或更多个，并且使得上述至少两个声道处理单元121、122中的每一个接收比三个或更多个下混合声道DMX1、DMX2、DMX3的总数少的下混合声道。

具体地，在图1的实施方式中，三个下混合声道DMX1、DMX2、 DMX3中的每一个被馈送至恰好一个声道处理单元中。然而，在其他实施方式中，并非输入声道路由器110所接收的三个或更多个下混合声道中的所有下混合声道可以被馈送至处理单元中。然而，在任何情况下，三个或更多个下混合声道中的至少两个下混合声道中的每一个将被馈送至声道处理单元中的至少一个中。

至少两个声道处理单元121、122中的每个声道处理单元被配置成：根据边信息S1并且根据由声道处理单元121、122从输入声道路由器110 接收的三个或更多个下混合声道(DMX1，DMX2，DMX3)中的至少两个中的一个或更多个，生成至少两个经处理的声道中的一个或更多个。

在图1的示例中，声道处理单元121接收用于生成两个经处理的声道 (PCH1，PCH2)的两个下混合声道(DMX1，DMX2)。因此，处理单元121可以被视为立体声-立体声处理单元。

此外，在图1的示例中，声道处理单元122接收用于生成两个经处理的声道(PCH3，PCH4)的下混合声道DMX3。

在图1的示例中，经处理的声道PCH1、PCH2、PCH3、PCH4是由解码器生成的音频输出声道。然而，在其他实施方式中，例如通过使用渲染信息，根据经处理的声道来生成音频输出声道。

通过使用边信息来完成根据下混合声道生成经处理的声道。边信息可以例如包括指出如何对音频对象进行了下混合以获取三个或更多个下混合声道的下混合信息。此外，边信息还可以包括关于N×N大小的协方差矩阵的信息，该协方差矩阵的信息可以指出被编码的N个音频对象或N 个音频对象信号、这些N个音频对象的OLD和IOC参数。

上述至少两个处理单元121、122中的声道处理单元可以例如是实现单声道至单声道的“x-1-1”处理模式的单声道-单声道处理单元。或者，上述至少两个处理单元121、122中的声道处理单元可以例如被配置成实现单声道至立体声的“x-1-2”处理模式。或者，上述至少两个处理单元 121、122中的声道处理单元可以例如被配置成实现立体声至单声道的 “x-2-1”处理模式。或者，上述至少两个处理单元121、122中的声道处理单元可以例如是实现立体声至立体声的“x-2-2”处理模式的立体声-立体声处理单元。

在SAOC标准(参见[SAOC])中描述了单声道至单声道的“x-1-1” 处理模式、单声道至立体声的“x-1-2”处理模式、立体声至单声道的“x-2-1” 处理模式和立体声至立体声的“x-2-2”处理模式，作为SAOC标准的解码模式。

具体地，参见例如：ISO/IEC，“MPEG音频技术-部分2：空间音频对象编码(SAOC)(MPEG audio technologies–Part 2:Spatial Audio Object Coding(SAOC))”，ISO/IEC JTC1/SC29/WG11(MPEG)国际标准23003-2:2010,具体地，参见章“SAOC处理(SAOC Processing)”，更具体地，参见子章“解码模式(Decoding modes)”。

在实施方式中，至少两个声道处理单元121、122中的每一个可以是单声道处理单元或者是立体声处理单元；其中，所述单声道处理单元被配置成接收三个或更多个下混合声道中的恰好一个，并且所述单声道处理单元被配置成：根据上述三个或更多个下混合声道中的恰好一个并且根据边信息，生成上述至少两个经处理的声道中的恰好一个或恰好两个；并且其中，所述立体声处理单元被配置成接收上述三个或更多个下混合声道中的恰好两个，并且所述立体声处理单元被配置成：根据上述三个或更多个下混合声道中的恰好两个并且根据边信息，生成上述至少两个经处理的声道中的恰好一个或恰好两个。

上述至少两个声道处理单元121、122中的至少一个可以被配置成接收上述三个或更多个下混合声道中的恰好一个，并且上述至少两个声道处理单元121、122中的至少一个可以被配置成：根据上述三个或更多个下混合声道中的恰好一个并且根据边信息，生成上述至少两个经处理的声道中的恰好两个。

根据实施方式，上述至少两个声道处理单元121、122中的至少一个可以被配置成接收上述三个或更多个下混合声道中的恰好两个，并且上述至少两个声道处理单元121、122中的至少一个可以被配置成：根据上述三个或更多个下混合声道中的恰好两个并且根据边信息，生成上述至少两个经处理的声道中的恰好一个。

上述至少两个处理单元121、122中的声道处理单元可以例如实现用于根据单声道下混合声道生成五个经处理的声道的单声道下混合 (“x-1-5”)处理模式。或者，上述至少两个处理单元121、122中的声道处理单元可以例如实现用于根据两个下混合声道生成五个经处理的声道的立体声下混合(“x-2-5”)处理模式。

在SAOC标准(参见[SAOC])中描述了单声道下混合(“x-1-5”)处理模式和立体声下混合(“x-2-5”)处理模式，作为SAOC标准的代码转换模式。

具体地，参见例如：ISO/IEC，“MPEG音频技术-部分2：空间音频对象编码(SAOC)(MPEG audio technologies–Part 2:Spatial Audio Object Coding(SAOC))”；ISO/IEC JTC1/SC29/WG11(MPEG)国际标准23003-2:2010,具体地，参见章“SAOC处理(SAOC Processing)”，更具体地，参见子章“代码转换模式(Transcoding modes)”。

然而，在一些实施方式中，可以对声道处理单元121、122中的一个、一些或所有不同地进行配置。

在实施方式中，输入声道路由器110可以被配置成接收四个或更多个下混合声道，并且至少两个声道处理单元121、122中的至少一个可以被配置成接收四个或更多个下混合声道中的至少三个，并且至少两个声道处理单元121、122中的至少一个可以被配置成：根据上述四个或更多个下混合声道中的至少三个并且根据边信息，生成至少三个经处理的声道。

根据实施方式，上述至少两个声道处理单元121、122中的至少一个可以被配置成接收上述四个或更多个下混合声道中的恰好三个，并且上述至少两个声道处理单元121、122中的至少一个可以被配置成：根据上述四个或更多个下混合声道中的恰好三个并且根据边信息，生成恰好三个经处理的声道。

在实施方式中，输入声道路由器110可以被配置成接收六个或更多个下混合声道，并且其中，上述至少两个声道处理单元121、122中的至少一个可以被配置成接收上述六个或更多个下混合声道中的恰好五个，并且至少两个声道处理单元121、122中的至少一个可以被配置成：根据上述六个或更多个下混合声道中的恰好五个并且根据边信息，生成恰好五个经处理的声道。

根据实施方式，输入声道路由器可以被配置成将三个或更多个下混合声道中的至少两个中的每一个馈送到至少两个声道处理单元121、122中的恰好一个中。因此，如例如在图1的示例中，下混合声道DMX1、 DMX2、DMX3中没有一个被馈送至上述两个或更多个声道处理单元121、 122中。然而，在其他实施方式中，一个或更多个下混合声道可以被馈送至多于一个的声道处理单元中。

在实施方式中，输入声道路由器110可以被配置成将上述三个或更多个下混合声道中的每一个馈送到上述至少两个声道处理单元121、122中的至少一个中，以使得上述至少两个声道处理单元121、122中的一个或更多个接收上述三个或更多个下混合声道中的每一个。然而，在其他实施方式中，输入声道路由器110被配置成不将上述三个或更多个下混合声道中的至少一个馈送到上述至少两个声道处理单元121、122中的任意一个，以使得上述至少两个声道处理单元中的任意一个不接收上述三个或更多个下混合声道中的所述至少一个。

根据实施方式，上述至少两个声道处理单元121、122中的每一个可以被配置成：独立于上述三个或更多个下混合声道中的至少一个，生成上述至少两个经处理的声道中的所述一个或更多个。换言之，如由图1所示，声道处理单元中没有一个接收下混合声道DMX1、DMX2、DMX3中的所有下混合声道。

根据实施方式，可以通过多个SAOC解码器/代码转换器实例(或它们的一部分)的(级联和/或并行)应用来实现多声道下混合处理功能性。

图3示出了根据实施方式的示出了对多个SAOC单声道和立体声解码器/代码转换器实例进行并行组合来参数式地对多声道信号混合进行解码的示意性图示。

具体地，在图3中，并行驱动多个SAOC单声道和立体声解码器/代码转换器实例来处理多声道下混合。

例如，图3的声道处理单元121、122、123、124、125、126可以被配置成并行地生成上述至少两个经处理的声道。例如，声道处理单元121、 122、123、124、125、126可以被配置成并行地生成上述至少两个经处理的声道，以使得在上述至少两个声道处理单元中的任何其他的声道处理单元完成生成上述至少两个经处理的声道中的另一个之前，上述至少两个声道处理单元中的每一个开始生成至少两个经处理的声道中的一个。

图3的输入声道路由器110将输入声道路由至若干解码器/代码转换器。应当注意，如清楚可见的图3中所示，可以使用任何任意数量的输入声道来驱动解码器/代码转换器，并且该任何任意数量的输入声道不限于仅仅单声道或立体声信号。

根据图3的实施方式，解码器还包括输出声道路由器130，用于对上述至少两个经处理的声道进行组合以获取一个或更多个音频输出声道。来自解码器/代码转换器单元的经处理的(处理后的)信号被馈送至输出声道路由器130中。输出声道路由器130对几个输入流进行组合，并且将音频对象信号的最终估计输出至渲染器140。

在由图3所示的实施方式中，解码器还包括渲染器140。渲染器140 被配置成接收渲染信息，其中，渲染器被配置成：根据上述至少两个经处理的声道并且根据渲染信息，生成一个或更多个音频输出声道。

应当注意，参数化处理仅仅需要被应用于感兴趣的下混合声道。因此，可以降低计算复杂度。如果不需要下混合信号(例如，如果仅仅操纵前置场景，则可以绕过环绕声道)，则可以根据处理完全绕过下混合信号。在那些实施方式中，并不是由输入声道路由器110所接收的上述三个或更多个下混合声道中的所有而仅仅是这些所接收的下混合声道的子集被馈送至声道处理单元中。然而，在任何情况下，上述三个或更多个所接收的下混合声道中的至少两个下混合声道被提供给声道处理单元。

图4描绘了根据实施方式的示出用于处理多声道信号混合的级联的 SAOC单声道和立体声解码器/代码转换器结构的原理的示意图。

根据由图4所示的这样的实施方式，上述至少两个声道处理单元中的第一声道处理单元121可以被配置成将上述至少两个经处理的声道中的第一经处理的声道PCH 11馈送到上述至少两个声道处理单元中的第二声道处理单元126中。所述第二处理单元126可以被配置成：根据第一经处理的声道PCH 11，生成上述至少两个经处理的声道中的第二经处理的声道PCH 22。

几个解码器/代码转换器的组合可以是静态且预先给定的，但是还可以动态地被调整。

该方法表示操纵多声道下混合系统的完全SAOC向后兼容的扩展方法。

所示出的发明的实施方式可以应用于任意数量的下混合/上混合声道。所示出的发明的实施方式可以与任何当前的和未来的音频格式相组合。

本发明的方法的灵活性使得能够绕过未被改变的声道来降低计算复杂度、降低比特流的有效载荷/减少数据量。

如上所述，一些实施方式涉及用于编码的音频编码器、方法或计算机程序。此外，一些实施方式涉及用于如上所述进行解码的音频解码器、方法或计算机程序。此外，一些实施方式涉及经编码的信号。

虽然在装置的上下文中已经描述了一些方面，但很明显这些方面也表示对相应的方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中所描述的方面也表示对相应的块或项目或相应的装置的特征的描述。

本发明的分解信号可以存储在数字存储介质上，或者可以在传输介质 (如无线传输介质或有线传输介质(如因特网))上被传输。

根据某些实施要求，可以以硬件或以软件来实现本发明的实施方式。使用其上存储有电子的可读的控制信号的数字存储介质(例如软盘、 DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)可以执行该实施，所述数字存储介质与可编程的计算机系统协作(或能够协作)，以使得能够执行各个方法。

根据本发明的一些实施方式包括具有电子的可读的控制信号的非暂态数据载体，该电子可读的控制信号能够与可编程的计算机系统协作，以使得能够执行本文中描述的方法之一。

通常，本发明的实施方式可以被实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，该程序代码操作地用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施方式包括用于执行本文中描述的方法之一的存储在机器可读载体上的计算机程序。

换言之，因此，当计算机程序在计算机上运行时，本发明方法的实施方式是具有用于执行本文中描述的方法之一的程序代码的计算机程序。

因此，发明方法的另外的实施方式是包括其上所存储的用于执行本文中描述的方法之一的计算机程序的数据载体(或数字存储介质、或计算机可读介质)。

因此，发明方法的另外的实施方式是数据流或表示用于执行本文中描述的方法之一的计算机程序的信号序列。数据流或信号序列可以例如被配置成经由数据通信连接例如经由因特网被传送。

另外的实施方式包括处理装置，例如被配置成或适合执行本文中描述的方法之一的计算机或可编程逻辑装置。

另外的实施方式包括其上安装有用于执行本文中描述的方法之一的计算机程序的计算机。

在一些实施方式中，可编程逻辑装置(例如现场可编程门阵列)可以用来执行本文中描述的方法的一些功能或所有功能。在一些实施方式中，现场可编程门阵列可以与微处理器协作来执行本文中描述的方法之一。通常，优选地通过任意硬件装置来执行所述方法。

对于本发明的原理，上述实施方式仅仅是说明性的。应当理解，对本领域的其他技术人员而言，本文中所描述的对布置的修改和变更以及细节将是明显的。因此，意在仅仅由所附的专利的权利要求的范围而不是通过对本文中的实施方式的描述和说明所表示的特定的细节进行限制。

参考文献

[MPS]ISO/IEC 23003-1:2007，MPEG-D(MPEG视频技术)，部分1： MPEG环绕声，2007年

[BCC]C.Faller和F.Baumgarte，“双耳线索编码–部分II：方案和应用 (Binaural Cue Coding-Part II:Schemes and applications)”，关于语音和音频处理的IEEE会刊，第11卷，第6号，2003年11月

[JSC]C.Faller，“音频源的参数化联合编码(Parametric Joint-Coding of Audio Sources)”，第120届AES会议，巴黎，2006年

[SAOC1]J.Herre，S.Disch，J.Hilpert，O.Hellmuth：“从SAC到SAOC –空间音频的参数化编码的近期发展(From SAC To SAOC-Recent Developments in Parametric Coding of Spatial Audio)”，第22届区域性英国AES会议，剑桥，英国，2007年4月

[SAOC2]J.B.Resch，C.Falch，O.Hellmuth，J.Hilpert， A.L.Terentiev，J.Breebaart，J.Koppens，E.Schuijers和W. Oomen：“空间音频对象编码(SAOC)–即将出现的关于参数化基于对象的音频编码的MPEG标准(Spatial Audio Object Coding(SAOC)–The Upcoming MPEG Standard on Parametric Object Based Audio Coding)”，第124届AES会议，阿姆斯特丹，2008年

[SAOC]ISO/IEC，“MPEG音频技术–部分2：空间音频对象编码(SAOC) (MPEG audio technologies–Part 2:Spatial Audio Object Coding (SAOC))”，ISO/IEC JTC1/SC29/WG11(MPEG)国际标准23003-2 [ISS1]M.Parvaix和L.Girin：“使用源索引嵌入的欠定瞬时立体声混合的通知源分离(Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding)”，IEEE ICASSP，2010年

[ISS2]M.Parvaix，L.Girin，J.-M.Brossier：“一种用于具有单个传感器的音频信号的通知源分离的基于水印的方法(A watermarking-based method for informed source separation of audio signals with a single sensor)”，关于音频的IEEE会报,语音和语言处理，2010年

[ISS3]A.Liutkus，J.Pinel，R.Badeau，L.Girin，G.Richard：“通过声谱图编码和数据嵌入的通知源分离(Informed source separation through spectrogram coding and data embedding)”，信号处理期刊，2011 年

[ISS4]A.Ozerov，A.Liutkus，R.Badeau，G.Richard：“通知源分离：源编码满足源分离(Informed source separation:source coding meets source separation)”，关于对音频和声学的信号处理的应用的IEEE研讨会，2011年

[ISS5]Shuhua Zhang和Laurent Girin：“语音信号的通知源分离系统 (An Informed Source Separation System for Speech Signals)”， INTERSPEECH，2011年

[ISS6]L.Girin和J.Pinel：“根据压缩线性立体声混合的通知音频源分离(Informed Audio Source Separation from Compressed Linear Stereo Mixtures)”，AES第42届国际会议：语义音频，2011年

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法 [P] . 中国专利： CN104756186B . 2018.01.02
2. 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法 [P] . 中国专利： CN104756186A . 2015-07-01
3. DECODER AND METHOD FOR MULTI-INSTANCE SPATIAL-AUDIO-OBJECT-CODING EMPLOYING A PARAMETRIC CONCEPT FOR MULTICHANNEL DOWNMIX/UPMIX CASES. [P] . MX351687B . 2017-10-25

机译：用于多通道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器和方法。
4. DECODER AND METHOD FOR MULTI-INSTANCE SPATIAL-AUDIO-OBJECT-CODING EMPLOYING A PARAMETRIC CONCEPT FOR MULTICHANNEL DOWNMIX/UPMIX CASES. [P] . MX2015001514A . 2015-07-06

机译：用于多通道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器和方法。
5. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases [P] . 美国专利： US10176812B2 . 2019-01-08

机译：针对多声道下混/上混情况采用参数化概念的多实例空间音频对象编码的解码器和方法