首页> 中国专利> 高阶立体混响声(HOA)架构中于预测及非预测量化技术间切换

高阶立体混响声(HOA)架构中于预测及非预测量化技术间切换

摘要

一种包括存储器及处理器的装置可经配置以从位流提取量化模式的类型。所述处理器也可经配置以基于量化模式的所述类型,在重构建用以近似高阶立体混响声域中的多方向V‑向量的一或多个权重的第一集合的非预测向量解量化与重构建用以近似所述高阶立体混响声域中的所述多方向V‑向量的一或多个权重的第二集合的预测向量解量化之间切换。所述存储器可经配置以存储用以近似所述高阶立体混响声域中的所述多方向V‑向量的一或多个权重的所述经重构建的第一集合及用以近似所述高阶立体混响声域中的所述多方向V‑向量的一或多个权重的所述经重构建的第二集合。

著录项

  • 公开/公告号CN107004420A

    专利类型发明专利

  • 公开/公告日2017-08-01

    原文格式PDF

  • 申请/专利权人 高通股份有限公司;

    申请/专利号CN201580050823.8

  • 发明设计人 金墨永;尼尔斯·京特·彼得斯;

    申请日2015-09-21

  • 分类号

  • 代理机构北京律盟知识产权代理有限责任公司;

  • 代理人宋献涛

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 02:55:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    未缴年费专利权终止 IPC(主分类):G10L19/008 专利号:ZL2015800508238 申请日:20150921 授权公告日:20180706

    专利权的终止

  • 2018-07-06

    授权

    授权

  • 2017-08-25

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20150921

    实质审查的生效

  • 2017-08-01

    公开

    公开

说明书

本申请案请求2014年9月26日申请的名为“高阶立体混响声(HOA)音频信号的切换式V-向量量化(SWITCHED V-VECTOR QUANTIZATION OF A HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第62/056,248号及2014年9月26日申请的名为“分解式高阶立体混响声(HOA)音频信号的预测向量量化(PREDICTIVE VECTOR QUANTIZATION OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美国临时申请案第62/056,286号的优先权权益,所述申请案在此以全文引用的方式并入。

技术领域

本发明涉及音频数据,且更具体地,涉及高阶立体混响声音频数据的译码。

背景技术

高阶立体混响声(HOA)信号(常常通过多个球谐系数(SHC)或其它分层元素表示)为声场的三维表示。HOA或SHC表示可按独立于用以播放自SHC信号呈现的多信道音频信号的局部扩音器几何结构的方式来表示声场。SHC信号也可促进后向兼容性,这是因为可将SHC信号呈现为熟知且被高度采用的多信道格式(诸如,5.1音频信道格式或7.1音频信道格式)。SHC表示因此可实现声场的更好表示,其也适应后向兼容性。

发明内容

通常来说,描述了用于有效地量化用于高阶立体混响声(HOA)系数架构中的向量的技术。在一些实例中,所述技术可涉及预测性地译代码向量的基于代码向量的分解中所包含的权重值(其在无之后的术语“值”的情况下也可被称作“权重”)。在另外的实例中,所述技术可涉及选择预测向量量化模式及非预测向量量化模式中的一者以用于基于一或多个准则(例如,与根据相应模式译代码向量相关联的信噪比)来译代码向量。

在另一方面中,一种经配置以解码位流的装置包括一或多个处理器,其经配置以从位流提取量化模式的类型;及基于量化模式的类型,在重构建用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第一集合的非预测向量解量化与重构建用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量解量化之间切换。存储器可经配置以存储用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的经重构建的第一集合及用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的经重构建的第二集合。

在另一方面中,一种解码位流的方法包括:从位流提取量化模式的类型;及基于量化模式的类型,在重构建用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第一集合的非预测向量解量化与重构建用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量解量化之间切换,及从缓冲器单元检索用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的先前经重构建的集合,其中一或多个权重的先前经重构建的集合基于非预测向量解量化或预测向量解量化。

在另一方面中,一种经配置以解码位流的设备包括:用于从位流提取量化模式的类型的装置,及用于基于量化模式的类型而在重构建用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第一集合的非预测向量解量化与重构建用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量解量化之间切换的装置,及用于存储用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的经重构建的第一集合及用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的经重构建的第二集合的装置。

在另一方面中,一种经配置以产生位流的装置包括:存储器,其经配置以存储用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第一集合及用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合;电耦合到所述存储器的一或多个处理器,其经配置以在用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第一集合的非预测向量量化与用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量量化之间切换,且在包含高阶立体混响声域中的多方向V-向量的表示的位流中指定指示所述切换的量化模式的类型。

在另一方面中,一种产生位流的方法包括:在用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第一集合的非预测向量量化与用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量量化之间切换;在用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量量化期间,从缓冲器单元检索用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的先前经重构建的集合,其中一或多个权重的先前经重构建的集合是基于非预测向量解量化或预测向量解量化,及在位流中指定指示所述切换的量化模式的类型。

在另一方面中,一种经配置以产生位流的设备包括:用于在用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第一集合的非预测向量量化与用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量量化之间切换的装置;用于在用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的第二集合的预测向量量化期间自存储器检索用以近似高阶立体混响声域中的多方向V-向量的一或多个权重的先前经重构建的集合的装置,其中一或多个权重的先前经重构建的集合基于编码器的局部解码器中的非预测向量解量化或编码器的局部解码器中的预测向量解量化,及用于在位流中指定指示所述切换的量化模式的类型的装置。

在附图及以下描述中阐述所述技术的一或多个方面的细节。所述技术的其它特征、目标及优点将从所述描述及所述图式以及从权利要求书显而易见。

附图说明

图1为说明具有各种阶数及子阶数的球谐基函数的图。

图2为说明可执行本发明中所描述的技术的各种方面的系统的图。

图3为更详细地说明图2的实例中所示的音频编码装置的框图,所述音频编码装置可在基于高阶立体混响声(HoA)向量的分解架构中执行本发明中所描述的技术的各种方面。

图4为更详细地说明基于HoA向量的分解架构的图3中所示的音频编码装置24中的V-向量译码单元的图。

图5为更详细地说明包含于图4的V-向量译码单元内用于确定权重的近似单元的图。

图6为更详细地说明包含于图4的V-向量译码单元内用于排序及选择权重的排序及选择单元的图。

图7A及7B为更详细地说明包含于图4的V-向量译码单元内用于向量量化所选择的有序权重的NPVQ单元的配置的图。

图8A、8C、8E及8G为更详细地说明包含于图4的V-向量译码单元内用于向量定量所选择的有序权重的PVQ单元的配置的图。

图8B、8D、8F及8H为更详细地说明包含于图8A、8C、8E及8G中所描述的不同配置内的局部权重解码器的配置的图。

图9为更详细地说明包含于切换式预测向量量化单元560内的VQ/PVQ选择单元的框图。

图10为更详细地说明图2的音频解码装置的框图。

图11为更详细地说明图4的实例中所示的音频解码装置的V-向量重构建单元的图。

图12A为说明图4的V-向量译码单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。

图12B为说明音频编码装置在执行本发明中所描述的基于向量的合成技术的各种方面中的示范性操作的流程图。

图13A为说明图11的V-向量重构建单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。

图13B为说明音频解码装置在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。

图14为根据本发明的包含说明用于使用NPVQ单元进行权重的向量量化的权重的实例分布的多个图表的图。

图15为根据本发明的包含图14的底行图表的正象限的多个图表的图,所述多个图表更详细地说明NPVQ单元中的权重的向量量化。

图16为根据本发明的包含说明预测权重值(预测权重值也可被称作残余权重误差)的实例分布的多个图表的图,所述预测权重值用作PVQ单元中的残余权重误差的预测向量量化的部分。

图17为根据本发明的包含说明图16中的实例分布的多个图表的图,所述多个图表更详细地说明用作PVQ单元中的残余权重误差的预测向量量化的部分的对应经量化残余权重误差(即,预测权重值)。

图18及19为说明本发明的“仅PVQ模式”中的使用不同方法以获得α因数的预测向量量化技术的比较实例性能特性的表格。

图20A及20B为根据本发明的说明“仅PVQ模式”及“仅VQ模式”的比较实例性能特性的表格。

具体实施方式

如本文所使用,“A和/或B”意味着“A或B”,或“A及B”两者。如在本发明中所使用的术语“或”应理解为表示逻辑上包括或而不是逻辑上互斥或,其中(例如)当A存在时,当B存在时或在A与B两者存在的情况下满足逻辑短语(如果A或B)(与逻辑上互斥或相反,其中当A及B存在时,未满足条件叙述)。

通常来说,描述了用于有效地量化多个高阶立体混响声(HOA)系数的基于向量的分解式架构版本中所包含的向量的技术。在一些实例中,所述技术可涉及预测性地译代码向量的基于代码向量的分解中所包含的权重值(其在无之后的术语“值”的情况下也可被称作“权重”)。在另外的实例中,所述技术可涉及选择预测向量量化模式及非预测向量量化模式中的一者以用于基于一或多个准则(例如,与根据相应模式译代码向量相关联的信噪比)来译代码向量。可将并不取决于存储于编码器或解码器的存储器中的来自先前时间区段(例如,帧)的过去经量化向量的向量的向量量化(VQ)描述为无记忆的。然而,当过去经量化向量自先前时间区段(例如,帧)存储于编码器或解码器的存储器中时,当前时间区段(例如,帧)中的当前经量化向量可经预测且可被称作预测向量量化(PVQ)且描述为基于存储器的。在本发明中,关于基于高阶立体混响声(HoA)的分解架构更详细地描述各种VQ及PVQ配置。当基于仅使用过去区段(帧或子帧)预测的经向量量化的权重执行预测向量量化而不能够从非预测向量量化单元(例如,如图4中的NPVQ单元520)存取过去经向量量化的权重向量中的任一者时,PVQ配置可被称作仅PVQ模式。“仅VQ模式”可表示在没有通过非预测向量量化单元(例如,参见图4,NPVQ单元520)或预测向量量化单元(例如,参见图4,PVQ单元540)产生的先前经向量量化的权重向量(来自过去帧或过去子帧)的情况下执行向量量化。

另外,也描述了在基于HoA向量的架构内的VQ配置与PVQ配置之间的切换。这种切换可被称作SPVQ或切换式预测向量量化。此外,在基于HoA向量的分解架构内可存在纯量量化与仅VQ模式、仅PVQ模式或启用SPVQ的模式之间的切换。

现今环绕声的演进已先于使用基于HOA的信号表示声场的近来发展而使许多输出格式可用于娱乐。这种消费型环绕声格式的实例大部分为“信道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含流行的5.1格式(其包含以下六个信道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效果(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,诸如7.1.4格式及22.2格式(例如,用于供超高清晰度电视标准使用)。非消费型格式可涵括任何数目的扬声器(成对称及非对称几何结构),其常常称为“环绕阵列”。此类阵列的一实例包含定位于截顶二十面体的拐角上的坐标处的32个扩音器。

到未来MPEG编码器的输入视情况为以下三种可能格式中的一者:(i)传统的基于信道的音频(如上文所论述),其有意经由处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球谐基函数的系数(也被称为“球谐系数”或SHC、“高阶立体混响声”或HOA及“HOA系数”)来表示声场。在名为MPEG-H 3D音频标准(其名为“信息技术——异构环境中的高效译码和媒体传送——第三部分:3D音频(Information Technology-High efficiency coding and media delivery in heterogeneous environments-Part 3:3D Audio”)的文献(日期为2014-07-25(2014年7月25日),ISO/IEC JTC1/SC 29、ISO/IEC 23008-3、ISO/IEC JTC 1/SC 29/WG 11(文件名:ISO_IEC_23008-3_(E)_(DIS of 3DA).doc))中更详细地描述MPEG编码器。

在市场中存在基于各种“环绕声”信道的格式。其范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)希望一次制作内容(例如,电影)的声迹且不费力混音每一扬声器配置的声迹。近来,标准开发组织(Standards Developing Organizations)一直在考虑如下方式:提供到标准化位流中的编码以及可适应播放位置(涉及呈现器)处的扬声器几何形状(及数目)以及声学条件并与其无关的后续解码。

为向内容创建者提供这种灵活性,可使用分层元素集合表示声场。所述分层元素集合可指代其中元素经排序而使得基本低阶元素集合提供模型化声场的完整表示的元素集合。当将所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。

分层元素集合的一实例为球谐系数(SHC)的集合。以下表达式表明使用SHC对声场的描述或表示:

所述表达式展示在时间t在声场的任何点处的压力pi可独特地通过SHC来表示。此处,c为音速(~343m/s),为参考点(或观测点),jn(·)为n阶球面贝塞尔函数,且为n阶及m子阶的球面谐波基函数。可认识到,方括号中的项为可通过各种时间-频率变换近似的信号的频域表示(即,),所述变换诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合及多分辨率基函数的系数的其它集合。

图1为说明从零阶(n=0)到四阶(n=4)的球谐基函数的图。如可见,对于每一阶,存在m子阶的扩展,出于易于说明的目的,在图1的实例中展示所述子阶但未明确陈述。

可通过各种麦克风阵列配置来以物理方式获取(例如,记录)SHC或替代地,可从声场的基于信道或基于对象的描述导出SHC。SHC表示基于场景的音频,其中SHC可输入至音频编码器以获得经编码SHC,所述经编码SHC可促成更有效的发射或存储。举例来说,可使用涉及(1+4)2(25,且因此为四阶)系数的四阶表示。

如上文所陈述,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M.的“基于球谐的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004至1025页)中。SHC也可被称作高阶立体混响声(HOA)系数。

为了说明可如何从基于对象的描述导出SHC,考虑以下方程式(1)。可将对应于个别音频对象的声场的系数表达为:

其中i为为具有n阶的球面汉克函数(第二种类),且为对象的位置。知道随频率变化的对象源能量g(ω)(例如,使用时间-频率分析技术,诸如,对PCM串流执行快速傅立叶变换)允许吾人将每一PCM对象及对应位置转换成SHC另外,可展示(因为上述为线性及正交分解)每一对象的系数为加成性的。以此方式,许多PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。在一个实例中,所述系数含有关于声场的信息(随3D坐标变化的压力),且以上情形表示在观测点附近从个别对象到整个声场的表示的变换。下文在基于对象及基于SHC的音频译码的上下文中描述剩余诸图。

图2为说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所示,系统10包含内容创建者装置12及内容消费者装置14。虽然在内容创建者装置12及内容消费者装置14的上下文中加以描述,但可在声场的SHC(其也可被称作HOA系数)或任何其它分层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建者装置12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能手机或台式计算机(提供几个实例)。同样地,内容消费者装置14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能手机、机顶盒,或台式计算机(提供几个实例)。

内容创建者装置12可由影片工作室或可产生多信道音频内容以供内容消费者装置(诸如,内容消费者装置14)的操作者消耗的其它实体来操作。在一些实例中,内容创建者装置12可由将希望压缩HOA系数11的个别用户操作。常常,内容创建者产生音频内容连同视频内容。内容消费者装置14可同样由个体操作。内容消费者装置14可包含音频播放系统16,其可指能够呈现HOA系数11以供作为多信道音频内容播放的任何形式的音频播放系统。

如图2中所示,内容创建者装置12包含音频编辑系统18。内容创建者装置12可获得呈各种格式(包含直接作为HOA系数)的实况记录7及音频对象9,内容创建者装置12可使用音频编辑系统18对实况记录7及音频对象9进行编辑。三维曲面麦克风阵列5可捕获实况记录7。三维曲面麦克风阵列5可为球体,具有置放于所述球体上的麦克风的均匀分布。内容创建者装置12可在编辑处理程序期间自音频对象9及实况记录7产生HOA系数11且混合来自音频对象9及实况记录7的HOA系数11。音频编辑系统18可接着呈现来自混合HOA系数11的扬声器馈入,收听经呈现的扬声器馈入以试图识别需要进一步编辑的声场的各种方面。

内容创建者装置12可接着编辑HOA系数11(可能经由操纵可供以上文所描述的方式导出源HOA系数的音频对象9间接地编辑)。内容创建者装置12可采用音频编辑系统18产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。在一些上下文中,内容创建者装置12可仅利用实况内容且在其它上下文中,内容创建者装置12可利用记录的内容。

当编辑处理程序完成时,内容创建者装置12可基于HOA系数11产生位流21。即,内容创建者装置12包含音频编码装置20,所述音频编码装置20表示经配置以根据本发明中所描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供发射,作为一实例,跨越发射信道(其可为有线或无线信道、数据存储装置或其类似者)。位流21可表示HOA系数11的经编码版本,且可包含主要位流及另一边带位流(其可称为边带信道信息)。

虽然在图2中经展示为直接发射到内容消费者装置14,但内容创建者装置12可将位流21输出到定位于内容创建者装置12与内容消费者装置14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可能请求所述位流的内容消费者装置14。所述中间装置可包括文件伺服器、网页伺服器、台式计算机、膝上型计算机、平板计算机、移动电话、智能手机,或能够存储位流21以供音频解码器稍后检索的任何其它装置。所述中间装置可驻留于能够将位流21(且可能结合发射对应视频数据位流)流式发射到请求位流21的用户(诸如,内容消费者装置14)的内容递送网路中。

替代地,内容创建者装置12可将位流21存储到存储媒体,诸如光盘、数字视频光盘、高清晰度视频光盘或其它存储媒体,其中的大部分能够由计算机读取且因此可被称作计算机可读存储媒体或非临时性计算机可读存储媒体。在此上下文中,发射信道可指借以发射存储到所述媒体的内容的那些信道(且可包含零售商店及其它基于商店的递送机构)。有可能的是内容创建者装置12及消费者装置14为开通装置,以使得内容可在一个时间点记录且在稍后时间点播放。在任何情况下,本发明的技术因此在这方面不应限于图2的实例。

如图2的实例中进一步所示,内容消费者装置14包含音频播放系统16。音频播放系统16可表示能够播放多信道音频数据的任何音频播放系统。音频播放系统16可包含数个不同视频呈现器22。呈现器22可各自提供不同形式的呈现,其中不同形式的呈现可包含执行基于向量的振幅移动(VBAP)的各种方式中的一或多者和/或执行声场合成的各种方式中的一或多者。

音频播放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以对来自位流21的HOA系数11′进行解码的设备,其中HOA系数11′可类似于HOA系数11,但归因于经由发射信道的有损操作(例如,量化)和/或发射而有所不同。音频播放系统16可随后解码位流21以获得HOA系数11′且呈现HOA系数11′以输出扩音器馈入25。扩音器馈入25可驱动一或多个扩音器3。

为了选择适当呈现器或在一些情况下产生适当呈现器,音频播放系统16可获得指示扩音器3的数目和/或扩音器3的空间几何结构的扩音器信息13。在一些情况下,音频播放系统16可使用参考麦克风且以动态地确定扩音器信息13的方式驱动扩音器3而获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频播放系统16可提示用户与音频播放系统16经接口连接且输入扩音器信息13。

音频播放系统16可随后基于扩音器信息13选择音频呈现器22中的一者。在一些情况下,在音频呈现器22中无一者处于到扩音器信息13中所指定的扩音器几何结构的某一阈值类似性度量(就扩音器几何结构来说)内时,音频播放系统16可基于扩音器信息13产生音频呈现器22中的一者。音频播放系统16可在一些情况下基于扩音器信息13产生音频呈现器22中的一者,而不首先尝试选择音频呈现器22中的现有一者。扩音器3(其也可被称作“扬声器3”)中的一或多者可随后播放呈现的扩音器馈入25。扩音器3可经配置以基于如下文更详细描述的高阶立体混响声域中的V-向量的表示来输出扬声器馈入。

图3为更详细地说明可执行本发明中所描述的技术的各种方面的图2的实例中所展示的音频编码装置20的一实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27及基于方向的分解单元28。

内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11是否表示从实况记录7还是从音频对象9产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的实况记录7产生还是从人造音频对象9产生。在一些情况下,当HOA系数11从实况记录7产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当HOA系数11从合成音频对象9产生时,内容分析单元26将HOA系数11传递到基于方向的分解单元28。基于方向的合成单元28可表示经配置以执行HOA系数11的基于方向的合成以产生基于方向的位流21的单元。

如图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、心理声学音频译码器单元40、位流产生单元42、声场分析单元44、系数缩减单元46、背景(BG)选择单元48、空间-时间内插单元50及V-向量译码单元52。

线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基函数的给定阶数、子阶数相关联的系数的区块或讯帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2

LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单元。虽然关于SVD加以描述,但可关于提供线性不相关的能量密集输出的集合的任何类似变换或分解执行本发明中所描述的所述技术。分解可将HOA系数11减小成与HOA系数不同的主分量或基波分量且可并不表示HOA系数11的子集的选择。又,在本发明中对“集合”的提及意在表示非零集合(除非特定地相反陈述),且并不意在表示包含所谓的“空集合”的集合的经典数学定义。

替代变换可包括常常被称作“PCA”的主分量分析。取决于上下文,PCA可由如果干不同名称表示,诸如离散卡忽南-拉维变换、哈特林变换、恰当正交分解(POD)和本征值分解(EVD),仅举几例。有利于压缩音频数据的基本目标的这种操作的特性为多信道音频数据的“能量压缩”及“去相关”。

在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其又可被称作“SVD”),LIT单元30可将HOA系数11变换成经变换的HOA系数的两个或两个以上集合。经变换HOA系数的“集合”可包含经变换HOA系数的向量。在图3的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,诸如HOA系数11)的因子分解:

X=USV*

U可表示y乘y实数或复数单式矩阵,其中U的y行被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单式矩阵,其中V*的z行被称为多信道音频数据的右奇异向量。

在一些实例中,以上提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可认为是V矩阵的转置。下文中为易于说明的目的,假定HOA系数11包括实数,结果为经由SVD而非V*矩阵输出V矩阵。此外,虽然在本发明中表示为V矩阵,但在适当时,对V矩阵的提及应被理解为是指V矩阵的转置。虽然假定为V矩阵,但所述技术可按类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,在这方面,所述技术不应限于仅提供应用SVD以产生V矩阵,而可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。

以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:M×(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本)及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为XPS(k),而V[k]矩阵中的个别向量也可被称为v(k)。

U、S及V矩阵的分析可揭示:所述矩阵携有或表示上文通过X表示的基础声场的空间及时间特性。U(长度为M个样本)中的N个向量中的每一者可表示随时间(对于由M个样本表示的时间段)而变化的经正规化的单独音频信号,其彼此正交且已与任何空间特性(其也可称为方向信息)解耦。表示空间形状及位置的空间特性可改为通过V矩阵中的个别第i向量v(i)(k)(每一者具有长度(N+1)2)表示。向量v(i)(k)中的每一者的个别元素可表示HOA系数,其描述相关联音频对象的形状(包含宽度)及位置。

U矩阵及V矩阵两者中的向量经正规化而使得其均方根能量等于单位。U中的音频信号的能量因此通过S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有能量的音频信号。SVD使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各种方面。此外,通过US[k]及V[k]的向量乘法合成基础HOA[k]系数X以重构建解码器处的HOA[k]系数的模型可产生如通过编码器执行以确定US[k]及V[k]的术语“基于向量的分解”,其遍及此文件使用。

尽管描述为直接相对于HOA系数11执行,但LIT单元30可将分解应用于HOA系数11的导出项。举例来说,LIT单元30可相对于自HOA系数11导出的功率谱密度矩阵应用SVD。通过相对于HOA系数的功率谱密度(PSD)而非系数自身执行SVD,LIT单元30可在处理器循环及存储空间中的一或多者的方面潜在地减小执行SVD的计算复杂度,同时实现相同的源音频编码效率,如同SVD是直接应用于HOA系数。

参数计算单元32表示经配置以计算各种参数的单元,所述参数诸如相关性参数(R)、方向性质参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别所述参数。参数计算单元32也可确定用于先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、r[k-1]及e[k-1]。参数计算单元32可将参数37及先前参数39输出到重排序单元34。

由参数计算单元32计算的参数可由重排序单元34用以对音频对象重排序以表示其自然评估或随时间推移的连续性。重排序单元34可将来自转向方向的第一US[k]向量33的参数37中的每一者与第二US[k-1]向量33的参数39的每一者进行比较。重排序单元34可基于当前参数37及先前参数39对US[k]矩阵33和V[k]矩阵35内的各种向量重排序(作为一个实例,使用Hungarian演算法)以将经重排序的US[k]矩阵33′(其可数学表示为)及经重排序的V[k]矩阵35′(其可数学表示为)输出到前景声音选择单元36(“前景选择单元36”)及能量补偿单元38。前景选择单元36也可被称作优势声音选择单元36。

声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便潜在地实现目标位率41的单元。声场分析单元44可基于所述分析和/或所接收的目标位率41确定心理声学译码器实例化的总数(其可为环境或背景信道的总数(BGTOT)及前景信道或换句话说优势信道的数目的函数。心理声学译码器实例化的总数可表示为numHOATransportChannels。

再次为了潜在地实现目标位率41,声场分析单元44也可确定前景信道的总数目(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHOAorder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHOAorder+1)2),及待发送的额外BG>

背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)以及待发送的额外BG>BG等于一时,背景选择单元48可选择用于具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的HOA系数11作为额外BG>BG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA信道47”,其中环境HOA系数47中的每一者对应于待由心理声学音频译码器单元40编码的单独环境HOA信道47。

前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或相异分量的经重排序的US[k]矩阵33′及经重排序的V[k]矩阵35′的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,...,nFG49、FG1,...,nfG[k]49或)输出到心理声学音频译码器单元40,其中nFG信号49可具有维度D:M×nFG且每一者表示单声道-音频对象。前景选择单元36也可将对应于声场的前景分量的经重排序的V[k]矩阵35′(或v(1..nFG)(k)35′)输出到空间-时间内插单元50,其中对应于前景分量的经重排序的V[k]矩阵35′的子集可表示为前景V[k]矩阵51k(其可在数学上表示为),其具有维度D:(N+1)2×nFG。

能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿归因于通过背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可相对于经重排序的US[k]矩阵33′、经重排序的V[k]矩阵35′、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于能量分析执行能量补偿以产生经能量补偿的环境HOA系数47′。能量补偿单元38可将经能量补偿的环境HOA系数47′输出到心理声学音频译码器单元40。

空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及前一帧(因此为k-1记号)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重组合以恢复经重排序的前景HOA系数。空间-时间内插单元50可接着将经重排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49′。空间-时间内插单元50也可输出用以产生经内插的前景V[k]向量的前景V[k]向量51k,以使得音频解码装置(诸如,音频解码装置24)可产生经内插的前景V[k]向量且借此恢复前景V[k]向量51k。将用以产生经内插的前景V[k]向量的前景V[k]向量51k表示为剩余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以创建经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化的版本。空间-时间内插单元50可将经内插的nFG信号49′输出到心理声学音频译码器单元40且将经内插的前景V[k]向量51k输出到系数缩减单元46。

系数缩减单元46可表示经配置以基于背景信道信息43相对于剩余前景V[k]向量53执行系数缩减以将经减少的前景V[k]向量55输出到V-向量译码单元52的单元。经减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]x>BG)提供极少方向信息,且因此可自前景V-向量移除(经由可被称作“系数缩减”的过程)。在此实例中,可提供较大灵活性以使得不仅自集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA信道(其可通过变量TotalOfAddAmbHOAChan表示)。

V-向量译码单元52可表示经配置以执行量化或其它形式的译码以压缩经减少的前景V[k]向量55以产生经译码的前景V[k]向量57的单元。V-向量译码单元52可将经译码的前景V[k]向量57输出到位流产生单元42。在操作中,V-向量译码单元52可表示经配置以压缩或以其它方式译码声场的空间分量(即,在此实例中为经减少的前景V[k]向量55中的一或多者)的单元。V-向量译码单元52可执行如通过表示为“NbitsQ”的量化模式语法元素指示的以下13种量化模式中的任一者:

V-向量译码单元52可相对于减少的前景V[k]向量55中的每一者执行多种形式的量化以获得减少的前景V[k]向量55的多个经译码版本。V-向量译码单元52可选择减少的前景V[k]向量55的经译码版本中的一者作为经译码前景V[k]向量57。

通过查看与量化模式的类型相关联的在上文表示为NbitsQ的语法元素,应注意,V-向量译码单元52可(换句话说)选择非预测的经向量量化的V-向量(例如,NbitsQ值为4)、预测的经向量量化的V-向量(NbitsQ值未明确展示,但参见下一段落)、未经霍夫曼译码的纯量量化的V-向量(例如,NbitsQ值为5)及霍夫曼译码的纯量量化的V-向量(例如,NbitsQ值为所示的6、7、8及16)中的一者以基于本发明中所论述的准则的任何组合而用作切换式经量化V-向量的输出。

可将以上具有13种量化模式的量化模式表的经修改版本与可针对一般向量量化模式(例如,NbitsQ等于4)识别向量量化为预测向量量化模式抑或非预测向量量化模式的额外语法元素(例如,pvq/vq选择语法元素)成对。举例来说,pvq/vq选择语法元素等于1,意味着结合等于4的NbitsQ,可存在预测向量量化模式,否则,如果pvq/vq选择位语法元素等于1且NbitsQ等于4,则向量量化模式将为非预测的。

在一些实例中,V-向量译码单元52可自包含一向量量化模式及一或多个纯量量化模式的量化模式集合中选择一量化模式,且基于(或根据)所述所选择的模式将输入V-向量量化。V-向量译码单元52可接着将以下各者中的所选择者提供至位流产生单元42以用作经译码前景V[k]向量57:未经预测的经向量量化的V-向量(例如,就权重值或指示权重值的位来说)、经预测的经向量量化的V-向量(例如,就残余权重误差值或指示其的位来说)、未经霍夫曼译码的经纯量量化的V-向量,及经霍夫曼译码的经纯量量化的V-向量。

在替代实例中,V-向量译码单元52可执行以下14种类型的量化模式中的任一者,如通过表示为“NbitsQ”的量化模式语法元素指示:

在正上方的实例量化模式表中,V-向量译码单元52可包含用于预测向量量化(例如,NbitsQ等于3)及非预测向量量化(例如,NbitsQ等于4)的单独量化模式。

图4为说明经配置以执行本发明中所描述的技术的各种方面的V-向量译码单元52A的图。V-向量译码单元52A可表示包含于图3的实例中所示的音频译码装置20内的V-向量译码单元52的一项实例。在图4的实例中,V-向量译码单元52A包含纯量量化单元550、切换式预测向量量化单元560及向量量化/纯量量化(VQ/SQ)选择单元564。纯量量化单元550可表示经配置以执行上文所列的各种纯量量化模式中的一或多者(即,如在上表中通过此实例中介于5与16之间的NbitsQ值所识别)的单元。

纯量量化单元550可根据相对于单输入V-向量55(i)的模式中的每一者执行纯量量化。单输入V-向量55(i)可指减少的前景V[k]向量55中的一者(或换句话说,第i者)。基于目标位率41,纯量量化单元550可选择输入V-向量55(i)的经纯量量化版本中的一者,将输入V-向量55(i)的经纯量量化版本输出到也包含于V-向量译码单元52中的向量量化/纯量量化(VQ/SQ)选择单元564。输入V-向量55(i)的经纯量量化版本表示为SQ向量551(i)。

纯量量化单元550也可确定识别由于输入V-向量55(i)的纯量量化所导致的误差的误差(表示为ERRORSQ)。纯量量化单元550可根据以下方程式(1)确定ERRORSQ

其中VFG表示输入V-向量55(i)且表示SQ向量551(i)。纯量量化单元550可将ERRORSQ输出到VQ/SQ选择单元564作为ERRORSQ>

如下文更详细地描述,切换式预测向量量化单元560可表示经配置以在一或多个权重的第一集合与一或多个权重的第二集合的非预测向量量化之间交换的单元。如图4的实例中进一步所示,切换式预测向量量化单元560可包含近似单元502、排序及选择单元504、非预测向量量化(NPVQ)单元520、缓冲器单元530、预测向量量化单元540及向量量化/预测向量量化单元(VQ/PVQ)选择单元562。近似单元502可表示经配置以基于自一或多个方位角-仰角码簿(AECB)63变换的一或多个音量代码向量571而产生输入V-向量55(i)的近似。应注意,缓冲器单元530为物理存储器的部分。

即,近似单元502可将输入V-向量55(i)近似为一或多个权重与一或多个音量代码向量571的组合。权重集合在数学上可由变量ω表示。代码向量在数学上可由变量Ω表示。因此,音量代码向量571在图4的实例中展示为“Ω571”。输入V-向量55(i)在数学上可由变量VFG表示。在一项实例中,音量代码向量571可使用各种输入V-向量(类似于输入V-向量55(i))的统计分析导出,所述各种输入V-向量是经由将上文所描述的处理程序应用于大量样本音频声场(如通过HOA系数描述)以在近似任何给定输入V-向量时通常产生最少量的误差而产生。

在不同实例中,音量代码向量571可通过将空间域中的表格中的方位角与仰角的集合(或,方位角及仰角位置的集合)变换至高阶立体混响声域而产生,如图5中进一步描述。表中的方位角及仰角位置也可通过图2中说明的麦克风阵列5中的麦克风位置的几何结构确定。因此,图3的编码装置可进一步集成到包括麦克风阵列5的装置中,所述麦克风阵列经配置以用按不同方位角及仰角定位的麦克风捕获音频信号。

在输入V-向量55(i)及代码向量的集合可为固定的条件下,近似单元502可尝试使用以下方程式(2A)及2(B)解答权重503(ω):

在以上实例方程式(2A)、(2B)中,Ωj表示代码向量{Ωj}的集合中的第j个代码向量,ωj表示权重{ωj}的集合中的第j个权重。根据方程式(1),近似单元502可将第j个权重乘以J音量代码向量571的集合的第j个代码向量且合计J相乘的结果以近似输入V-向量55(i),从而产生代码向量的加权总和。

在一个配置(封闭形式的配置)中,近似单元502可基于以下方程式(3)解答权重ω:

其中表示代码向量({Ωk})的集合中的第k个向量的转置,且ωk表示权重{ωk}的集合中的第j个权重。

在一些实例中,在封闭形式的配置中,代码向量可为正规正交向量的集合。举例来说,如果存在(N+1)2个代码向量,其中N=4th阶数,则25个代码向量可为正交的且进一步经正规化以使得所述代码向量为正规正交的。在代码向量({Ωj})的集合正规正交的这些实例中,以下表达式可适用:

在方程式(4)适用的这些实例中,方程式(3)的右侧可如下简化:

其中ωk对应于代码向量的加权总和中的第k权重。作为一实例,代码向量的加权总和可指多个音量代码向量中的每一者乘以来自当前时间区段的多个权重中的每一者的求和。

在代码向量集合并未严格地正规正交或严格地正交的实例中,J权重的集合可基于以下方程式(5B):

其中ωk对应于代码向量的加权总和中的第k权重。

在额外实例中,代码向量可为以下各者中的一或多者:方向向量的集合、正交方向向量的集合、正规正交方向向量的集合、伪正规正交方向向量的集合、伪正交方向向量的集合、方向基底向量的集合、正交向量的集合、伪正交向量的集合、球谐基底向量的集合、经正规化的向量的集合,及基底向量的集合。在代码向量包含方向向量的实例中,方向向量中的每一者可具有对应于2D或3D空间中的方向或方向辐射图案的方向性。

在不同配置(最佳匹配拟合配置)中,近似单元502可经配置以实施匹配演算法以识别权重ωk。近似单元502可使用最小化代码向量的加权总和(例如,使用方程式(5A或5B))与输入V-向量55(i)之间的误差的迭代方法选择音量代码向量571的每一者的权重的不同集合。可使用不同误差准则,诸如,L1标准变体(例如,绝对差异值)或L2标准(平方差的平方根)。

在以上实例中,权重503包含对应于32个不同音量代码向量的32个不同权重503。然而,近似单元502可利用具有不同数目的AE向量501(参见图5)的AECB 63中的不同一者,从而产生不同数目的音量代码向量571。以上参考的MPEG-H 3D音频标准在附件F中提供大量不同向量码簿。AECB 63可例如对应于表F.2至F.11中所表示的向量码簿。对于以上实例,其中J=32,32个音量代码向量571可表示表F.6中所定义的方位角-仰角(AE)向量501的经变换版本。如下文更详细地描述,近似单元502可根据以上参考的MPEG-H 3D音频标准的部分F.1.5变换AE向量501(参见图5)。

在一些实例中,近似单元502可在AECB 63的不同者之间进行选择以译码不同的输入V-向量55(i)。另外,当相同输入V-向量55(i)随时间变化时,近似单元502可在当译码相同输入V-向量55(i)时在AECB 63的不同者之间进行切换。

在一些实例中,当输入V-向量55(i)指定具有单一方向的声源的单一方向(例如,描述蜂鸣声的声场中的方向)时,近似单元502可利用对应于表F.11(具有900个代码向量)的AECB 63中的一者。当输入V-向量55(i)对应于多方向声源(即,跨越多个方向的声源)或含有自不同多个角方向到达的多个声源时,近似单元502可利用32个AE向量501。在这方面,输入V-向量55(i)可包含单方向V-向量55(i)或多方向V-向量55(i)。

当近似单方向输入V-向量55(i)时,近似单元502可选择自900个AE向量(使用方位角及仰角定义)变换的900个音量代码向量571中的单一者,其最佳地表示单方向输入V-向量55(i)(例如,依据AE向量501中的每一者与输入V-向量55(i)之间的误差)。近似单元502可在使用AE向量501中的单一所选择向量时确定权重值为-1或1。替代地,近似单元502可存取权重码簿(WCB)65A中的一者。近似单元502可存取的WCB 65A中的一者可包含类似于F.12的权重。

近似单元502可利用权重值与音量代码向量的各种其它组合。然而,为易于论述的目的,遍及本发明使用J=32的实例以就32个AE向量501(参见图5)来论述技术。近似单元502可将32个权重503(其为一或多个权重的一项实例)输出到排序及选择单元504。

图5为更详细地说明包含于图4的V-向量译码单元52A内用于确定权重的近似单元502的实例的图。图5的近似单元502A可表示图4的实例中所示的近似单元502的一项实例。近似单元502A可包含代码向量转换单元570及权重确定单元572。

代码向量转换单元570可表示经配置以自AECB 63中的一者(表示为AECB 63A)接收AE向量501且将来自表格中的空间域中的方位角及仰角(诸如,表F.6中的方位角及仰角)的32个AE向量501转换(或换句话说,变换)至具有HOA域中的音量的向量的单元,如图5的下半部中所示。32个AE向量的方位角及仰角可基于用以捕获实况记录7的三维曲面麦克风阵列5中的麦克风的几何位置。如上文关于图2所述,三维曲面麦克风阵列5可为球体,具有置放于所述球体上的麦克风的均匀分布。三维曲面麦克风阵列中的每一麦克风位置可通过方位角仰角描述。代码向量转换单元570可将32个音量代码向量571输出到权重确定单元572。

代码向量转换单元570可相对于方向将N1阶的模式矩阵应用于32个AE向量501。以上参考的MPEG-H>2=(N2+1)2。模式矩阵可经定义为其中且O1=(N1+1)2。可表示N阶及M子阶的球面基函数。换句话说,音量代码向量571的音量代码向量中的每一者可定义于HOA域中且是基于在通过方位角及仰角的集合定义的多个角方向中的一者上定向的球谐基函数的线性组合。方位角及仰角可通过麦克风阵列5中的麦克风的几何位置预定义或获得,诸如图2中所说明。

尽管描述为针对32个AE向量501的每一应用执行此转换,但代码向量转换单元570可在任何给定编码处理程序期间而非在逐个应用的基础上仅执行此转换一次且将所述32个AE音量代码向量571存储到码簿。此外,近似单元502在一些实施中可并未包含代码向量转换单元570且可存储32个音量代码向量571,其中所述32个音量代码向量571已预定。在一些实例中,近似单元502可将32个音量代码向量571存储为音量向量(VV)CB(VVCB)612。又,32个音量代码向量571展示于图5的下半部中。32个音量代码向量571可表示为Ω0,...,31

权重确定单元572可表示经配置以确定当前时间区段(例如,第i音频帧)的32个权重503(或另一数目的多个权重503)的单元,所述权重对应于高阶立体混响声域中定义的32个音量AE向量501且指示输入V-向量55(i)。权重确定单元572可使用上文先前所描述的封闭形式的配置或最佳拟合匹配配置来确定32个权重503。因此,J(例如,J=32)权重503(表示为ω0,...,31)可通过将输入V-向量55(i)乘以J音量代码向量571的转置来确定。

返回至图4,排序及选择单元504表示经配置以排序32个权重503及选择权重503的非零子集的单元。作为一项实例,排序及选择单元504可以升序对32个权重503进行排序。替代地,作为另一实例,排序及选择单元504可以降序对32个权重503进行排序。排序及选择单元504可基于最高值至最低值或最低值至最高值对32个权重503进行排序,其中在排序时可或可不考虑所述值的量值。一旦权重503经排序,则排序及选择单元504可选择有序的32个权重503的非零子集,所述32个权重产生将代码向量的加权总和与权重的全集合紧密匹配的代码向量的加权总和。因此,可不选择相对小(即,较接近零值)的权重的非零集合。

图6为更详细地说明包含于图4的V-向量译码单元52A内用于排序及选择权重的排序及选择单元504A的实例的图。图6的排序及选择单元504A表示图4的排序及选择单元504的一顶实例。

如图6中所示,排序及选择单元504A可包含可(例如)以降序对32个权重503进行排序的排序单元506。可自最大至最小量值(忽略正负号)记录个别权重ω0,...,ω31。因此,用记录的索引509说明所得的记录的32个有序权重507ω12,ω14,...,ω5

由于32个权重503的原始权重值处于对应于32个音量代码向量571的相应阶数,故可不指定索引信息。然而,由于排序单元506已重布置32个有序权重507中的权重,故排序单元506可确定(例如,产生)32个索引509,其指示32个有序权重507中的每一者相对应的音量代码向量571中的一者。排序单元506将32个有序权重507及32个索引509输出到选择单元508。

选择单元508可表示经配置以选择有序权重507的非零集合及32个索引509的单元。有序权重507可表示为ω′。选择单元508可经配置以选择32个有序权重507及32索引509的预定数目(Y)或替代地动态确定数目(Y)。作为一项实例,权重的数目的动态确定可基于目标位率41。

Y可表示J个有序权重507的任何数目,包含有序权重507的任何非零子集。为易于说明的目的,选择单元508可经配置以选择8个(例如,Y=8)权重。尽管在下文描述为选择8个权重,但选择单元508可选择任何Y个J权重。

在一些实例中,选择单元508可选择32个有序权重507的顶部(当以降序排序时)8个权重及32个索引509的对应8个索引。8个索引511可表示指示32个代码向量中的哪些代码向量对应于8个权重值中的每一者的数据。权重的选择可通过以下方程式(5)表达:

可使用权重值的子集以及其对应音量代代码向量以形成代码向量的加权总和(作为一项实例,其又可指多个音量代码向量中的每一者乘以来自当前时间区段的多个权重中的每一者的总和),其估计或仍近似V-向量,如以下表达式中所示:

其中表示权重的集合中的第j权重,且表示估计的V-向量。估计的V-向量可通过非预测向量量化单元520译码,其中权重的集合可经向量量化,且代码向量{Ωj}的集合可用以计算代码向量的加权总和。当并非选自J个(例如32个)权重的全集合中的有序权重相对小(即,较接近零值)时,代码向量的加权总和仍将代码向量的加权总与权重的全集合紧密匹配。因此,估计的V-向量可近似V-向量。

尽管为了易于可读性而未明确绘制,但权重确定单元572及选择单元504的组合可为近似器单元的部分且最佳拟合匹配配置可用以选择可并不一定排序的8个权重且计算代码向量的加权总和,所述代码向量仍将代码向量的加权总和与权重的全集合(例如J=32)紧密匹配。虽然在近似器单元中不一定存在有序单元,但近似器单元的输出将输出上文所描述的估计的V-向量。类似地,排序及选择单元504也可为近似器单元的部分,且在此情况中也使用8个权重输出估计的V-向量,其可使用32个权重的全集合近似V-向量。

选择单元508可将8个索引511作为8个VvecIdx语法元素511输出到V-向量译码单元52A的VQ/SQ选择单元564,如图4中所描绘。选择单元508也可将8个有序权重505输出到切换式预测向量量化单元560的NPVQ单元520及PVQ单元540两者。在这方面,有序权重505可表示输出到NPVQ单元520的第一权重集合及输出到PVQ单元540的第二权重集合。

再次返回至图4的实例,NPVQ单元520可接收8个有序权重505(其也可被称作“选择的有序权重505”)。NPVQ单元520可表示经配置以相对于8个有序权重505执行非预测向量量化的单元。向量量化可指一组值通过其联合地而非独立地经量化的处理程序。向量量化可利用待量化的所述群值中的统计相依性。

换句话说,向量量化(其也被称作区块量化或图案匹配量化)可将来自多维向量空间中的值编码为来自低维的离散子空间的值的有限集合。NPVQ单元520可将值的有限集合存储到对音频编码装置20及音频解码装置24两者共同的表格且索引值集合中的每一者。所述指标可有效地量化值的每一集合。在图4的实例中,所述指标可表示识别8个有序权重505的近似的8-位码(或视表格的条目的数目而定的任何其它数目的位码)。向量量化可因此将8个有序权重505作为索引量化至表格或其它数据结构中,从而潜在地减少大量位以将8个有序权重505表示为8位索引。

向量量化可经训练以减少误差且更好地表示数据集合(例如,此实例中的8个有序权重505)。可存在复杂度变化的不同类型的训练。训练大体上尝试将量化值指派至数据集合的较密集区域以尝试更好地表示数据集合。可将意味着近似8个有序权重505的权重值的训练的结果存储到权重码簿(WCB)65。可导出WCB 65A中的不同者以用于量化不同数目的权重。出于说明的目的,论述具有8个权重值的WCB 65A的向量量化码簿。然而,具有不同数目的权重值的WCB 65A中的不同者可适用。

为进一步减少8个权重值的动态范围且借此促进待用于取代8个权重值的权重值的更较选择,可在训练期间仅考虑量值。可忽略值的正负号的一项实例为存在高相对对称性(意味着正值及负值的分布在分布及数目上的类似在某种程度上高于阈值)。因此,NPVQ单元520可相对于8个有序权重505的量值执行非预测向量量化且单独地指示正负号信息(例如,借助于用于权重505的每一者的SgnVal语法元素)。

图7A及7B为更详细地说明包含于图4的V-向量译码单元内用于向量量化所选择的有序权重的NPVQ单元的不同实例的图。图7A的NPVQ单元520A可表示图4中所示的NPVQ单元520的一项实例。NPVQ单元520A可包含权重向量比较单元510、权重向量选择单元512及正负号确定单元514。

权重向量比较单元510A可表示经配置以接收8个有序权重505且执行与权重码簿(WCB)65A的条目的比较的单元。如上所述,可存在大量不同WCB 65A。权重向量比较单元510A可基于任何数目的不同准则(包含目标位率41)在不同WCB 65A之间进行选择。

在图7A的实例中,WCB 65A可表示定义于上文参考的MPEG-H 3D音频标准的表格F.13中的权重码簿。WCB 65A可包含256个条目(展示为0至255)。256个条目中的每一者可包含具有待用作8个有序权重505的可能近似的8个量化值的权重向量。

权重的绝对值可相对于上文参考的MPEG-H 3D音频标准的表格F.13的预定义权重值而经向量量化且用相关联的列数目索引传信。在图7的实例中,WCB65A的每一列包含以降序存储的其中所述列以第一下标数字表示(例如,列1的表示为)。在WCB 65A中的权重向量无正负号(意味着未给定正负号信息)的条件下,权重向量经表示为权重向量的绝对值(例如,列1的表示为)。

权重向量比较单元510A可迭代WCB 65A的每一条目以确定由量化权重所产生的误差。权重向量比较单元510A可包含量值单元650(“mag单元650”),其确定有序权重505中的每一者的所述绝对值或换句话说量值。有序权重505的量值可表示为权重向量比较单元510A可根据以下方程式(8)计算WCB 65A的第x列的误差:

其中NPEx表示WCB>

根据以下方程式(9)单独地译码8个有序权重505的数字正负号:

其中sk表示8个有序权重505的第k个权重的正负号位。基于所述正负号位,正负号确定单元514A可输出8个SgnVal语法元素515A,其可表示指示对应8个有序权重505中的每一者的正负号的一或多个位。

权重向量选择单元512可表示经配置以选择WCB65A的条目中的一者以取代8个有序权重505使用的单元。权重向量选择单元512可基于256个误差513选择条目。在一些实例中,权重向量选择单元512可选择具有256个误差513中的最低(或换句话说,最小)者的WCB 65A的条目。权重向量选择单元512可输出具有最低误差的索引,其也识别所述条目。权重向量选择单元512可输出所述索引作为“WeightIdx”语法元素519A。

可使用权重值的子集以及其对应音量代码向量以形成产生经量化V-向量的代码向量的加权总和,如以下方程式中所示:

其中sj表示正负号位的子集({sj})中的第j个正负号位,表示无正负号权重的子集中的第j个权重,且可表示输入V-向量55(i)的非预测的经向量量化版本。表达式(10)的右侧可表示代码向量的加权总和,其包含设置的正负号位({sj})、权重的集合及代码向量({Ωj})的集合。

NPVQ单元520A可将SgnVal 515A及WeightIdx 519A输出到NPVQ/PVQ选择单元562。NPVQ单元520A也可基于WeightIdx 519A存取WCB 65A以确定所选择的权重600。NPVQ单元520A可将所选择的权重600输出到NPVQ/PVQ选择单元562及缓冲器单元530。

缓冲器单元530可表示经配置以缓冲所选择的权重600的单元。缓冲器单元530可包含经配置以延迟所选择的权重600达一或多个帧的延迟单元528(表示为“Z-1528”)。经缓冲的权重可表示来自过去时间区段的一或多个经重构建的权重。过去时间区段可指代帧或其它压缩或时间单元。经重构建的权重也可表示为先前权重或表示为先前经重构建的权重。经重构建的权重531可包括经重构建的权重531的绝对值。过去时间区段的经重构建的权重表示为先前经重构建的权重525A至525G。如图7A的实例中所示,缓冲器单元530也可缓冲来自PVQ单元540的经重构建的权重602。

参考图7B的实例,NPVQ单元520B可表示图4中所示的NPVQ单元520的另一实例。NPVQ单元520B可基本上类似于图7A的NPVQ单元520A,不同之处在于WCB 65A中的有序权重向量是有正负号的值。WCB 65A的正负号版本在图7B的实例中表示为WCB 65A′。另外,缓冲器单元530可缓冲所选择的具有正负号值的权重600′。通过缓冲器单元530存储的先前经重构建的权重600′可表示为先前经重构建的权重525A′至525G′。

在WCB 65A′的权重向量是带正负号的值的条件下,不需要正负号确定单元514A,这是因为正负号值及权重值通过WCB 65A′的所选择的带正负号的权重向量联合地量化。换句话说,WeightIdx 519A可联合地识别正负号值及经量化的权重值两者。因此,在此实例中,图7B的权重向量比较单元510并不包含量值单元650且因此表示为权重向量比较单元510B。

再次返回至图4的实例,PVQ单元540可表示经配置以相对于Y(例如,8个)有序权重505执行预测向量量化的单元。尽管如上所述,在使用包含选择器单元而非排序单元或权重未经排序的其它可适用描述的替代的近似器单元时,也可使用Y个非有序权重。因此,PVQ单元540可相对于Y(例如,8个)有序或非有序权重而非相对于8个权重(其也可为有序或非有序的)自身执行一种形式的向量量化,如同在非预测形式的向量量化中一样。为了易于阅读,以下的实例常常描述有序权重,但所属领域的一般技术人员可认识到,也可在不严格要求权重必须经重排序的情况下执行所描述的技术。也应注意,NPVQ单元520A及NPVQ单元520B中的权重向量选择单元或权重比较单元并不取决于存储于编码器或解码器的存储器中的来自先前时间区段(例如,帧)的过去经量化向量,以产生通过WeightIdx 519A或WeightIdx 519B表示的经向量量化的权重向量。因此,NPVQ单元可描述为无记忆的。

图8A至8H为更详细地说明包含于图4的V-向量译码单元52A内用于向量定量所选择的有序权重的PVQ单元的图。

图8A至8B中所示或包含在其它处的PVQ单元中的任一者可经配置以具有存储器,在图8A至8H中,其经表示为QW缓冲器单元530,所述缓冲器单元经配置以存储来自过去时间区段的用以近似高阶立体混响声域中的多方向V-向量的经重构建的多个权重。延迟缓冲器528延迟经重构建的多个权重的写入。此延迟可为整个音频帧或子帧的延迟。也应注意,经重构建的多个权重(例如,如通过标记531指示)可以不同形式存储(例如,具有多个权重的绝对值或作为多个权重的绝对值差异或作为多个权重的差异等)。另外,可存在与多个权重的量化相关联的权重索引或权重误差索引(也可表示为权重索引)。这些权重索引可经向量量化且一或多个权重索引可写入至位流中以使得解码器装置也能够重构建所述权重并也使用解码器装置处的经重构建的权重以近似多方向V-向量。

如图8A的实例中所示,PVQ单元540A可表示图4中所示的PVQ单元540的一项实例。PVQ单元540A可包含正负号确定单元514、残余误差单元516A、残余向量比较单元518、残余向量选择单元522及局部权重解码器单元524A(其中局部权重解码器单元524A在图8B的实例中更详细地展示)。

PVQ单元540的正负号确定单元514A可基本上类似于NPVQ单元520的正负号确定单元514。正负号确定单元514A可输出指示8个有序权重505的数值正负号的8个SgnVal语法元素515A。

残余误差单元516A可表示经配置以确定残余权重误差527A(其也可被称为“残余权重误差527A的集合”的单元。在一些实例中,残余误差单元516A可根据以下方程式确定8个残余权重误差527A:

其中ri,j表示第i个音频帧的残余权重误差527A的第j个残余权重误差,|wi,j|为第i个音频帧的对应第j个权重值wi,j的量值(或绝对值),为第i个音频帧的对应第j个经重构建的权重值的量值(或绝对值),且αj表示8个权重因数523的第j个权重因数。残余误差单元516A可包含量值单元650,其确定8个有序权重505的绝对值或换句话说量值。8个有序权重505的绝对值可替代地被称为权重量值或称为权重的量值。

8个有序权重505(ωi,j)对应于来自用于第i个音频帧的权重值的有序子集的第j个权重值。在一些实例中,权重的有序子集(即,图8A的实例中的8个有序权重505)可对应于输入V-向量55(i)的基于代码向量的分解中的权重值的子集,所述权重值基于权重值的量值排序(或,自最大量值至最小量值排序)。因此,在有序权重可通过量值分类的条件下,有序权重505在本文中也可被称作“分类权重505”。

方程式(11)中的项可被替代地称为经量化的先前权重量值或称为经量化的先前权重的量值。8个经重构建的先前权重525可被替代地称为加权的经重构建的权重值量值或经重建的权重值的加权量值。8个经重构建的先前权重525对应于来自第(i-1)个或任何其它时间上在前的音频帧(以译码次序)的经重构建的权重值的有序子集的第j个经重构建的权重值。在一些实例中,可基于对应于经重构建的权重值的经量化的预测权重值产生经重构建的权重值的有序子集(或集合)。

在一些实例中,在方程式(11)中αj=1。在其它实例中,αj≠1。当不等于1时,可基于以下方程式确定8个权重因数523(αj):

其中I对应于用以确定αj的音频帧的数目。如下文更详细描述,在一些实例中,可基于来自多个不同音频帧的多个不同权重值确定加权因数。

残余误差单元516A可以此方式基于当前时间区段(例如,第i个音频帧)的8个有序权重505及来自过去音频帧的先前经重构建的权重525(例如,来自第(i-1)个音频帧的经重构建的权重525A)来确定8个残余权重误差527A(其也可被称为“残余权重误差527A”)。8个残余权重误差527A可表示8个有序权重与8个经重构建的先前权重525中的一者之间的差异。残余误差单元516A可使用8个经重构建的权重525A而非先前权重(ωi-1,j),这是由于经重构建的先前权重525在音频解码装置24处可用,而8个有序权重505可能不可用。残余误差单元516可将根据方程式(11)确定的8个残余权重误差527A输出到残余向量比较单元518。

残余向量比较单元518可表示经配置以将8个残余权重误差527A与残余权重误差码簿(RWC)65B(其也可被称为“残余码簿65B”)的条目中的一或多者进行比较的单元。在一些实例中,可存在大量不同RCB 65B。权重向量比较单元518可基于任何数目的不同准则(包含图4的目标位率41)在不同RCB 65B之间进行选择。换句话说,残余向量比较单元518可基于多个分类权重505确定多个残余权重误差527A。

在一些实例中,向量量化残余向量中的每一者的分量的数目可取决于经选择以表示输入V-向量55(i)的权重的数目(其可通过变量Y表示)。通常来说,对于具有Y-分量候选量化向量的码簿,残余向量比较单元518可同时将Y个权重向量量化以产生单一经量化的向量。量化码簿中的条目的数目可取决于用以将权重值向量量化的目标位率41。

在一些实例中,残余向量比较单元518可迭代所有条目(例如,图8A的实例中所示的256个条目)且确定每一条目的近似误差(AE)。256个条目中的每一者可包含具有待用做8个残余权重误差527A的可能近似的8个近似值的残余向量。在图8A的实例中,RCB 65B的每一列包含其中所述列以第一下标数字表示(例如,列1的表示为)。

残余向量比较单元518可迭代RCB 65B的每一条目以确定由近似残余权重误差527所产生的误差。残余向量比较单元518可根据以下方程式(13)计算RCB 65B的第x列的误差:

其中AEx表示RCB>

残余向量选择单元522可表示经配置以选择RCB 65B的条目中的一者以取代或换句话说代替8个残余权重误差527使用的单元。残余向量选择单元522可基于256个误差529选择条目。在一些实例中,残余向量选择单元522可选择具有256个误差529中的最低(或换句话说,最小)一者的RCB 65B的条目。残余向量选择单元522可输出具有最低误差的索引,其也识别所述条目。残余向量选择单元522可输出所述索引作为“WeightErrorIdx”语法元素519B。WeightErrorIdx语法元素519B可表示指示将选择来自RCB 65B的Y-分量向量中的哪一者来产生Y残余权重误差的经解量化版本的索引值。

在这方面,残余向量比较单元及残余向量选择单元522可表示向量量化(VQ)单元590A。VQ单元590A可有效地向量量化残余权重误差527A以确定残余权重误差527A的表示。残余权重误差527A的表示可包含WeightErrorIdx 519B。

可使用权重值的子集以及其对应音量代码向量571以形成产生经量化的V-向量的音量代码向量的加权总和,如以下方程式中所示:

表达式(14)的右侧可表示代码向量的加权总和,其包含设置的正负号位({sj})、第i个音频帧的残差的集合、权重因数({αj})的集合、表示过去时间区段的第(i-1)个音频帧的权重的集合,及代码向量({Ωj})的集合。PVQ单元540A可将SgnVal>

如图8B的实例中所示,局部权重解码器单元524A包含权重重构建单元526A及延迟单元528。权重重构建单元526A表示经配置以基于8个权重因数523({αj})、表示的所选择的残余向量620A及表示的8个先前经重构建的权重525来重构建8个有序权重505的单元。权重重构建单元526A可根据以下方程式重构建8个权重值505中的第j个权重值以产生8个经重构建的权重值531中的第j个权重值:

经重构建的权重在以上方程式(15)中可经表示为

用与经量化权重的标号相同的记号表示经重构建的权重可暗示经重构建的权重与上文所论述的经量化权重相同。然而,所述记号可区分自其理解每一值的透视图。经量化权重可指代通过编码器经由量化获得的权重。经重构建的权重可指代通过解码器经由解量化获得的权重。

尽管此类记号可暗示透视图的区别,但应理解,在一些实例中,经重构建的权重可不同于经量化权重,但在其它实例中,经重建的权重可与经量化权重相同。举例来说,当经重构建的权重是带正负号的值但经量化权重是无正负号的值时,经重构建的权重可不同。在经重构建的权重及经量化权重是带正负号的值的实例中,经重构建的权重可与经量化权重相同。

在图8B的实例中,权重重构建单元526A可通过与RCB 65B经接口连接获得所选择的残余权重向量620A。尽管展示为包含于PVQ单元640A内,但局部权重解码器单元524A可包含RCB 65B。当局部权重解码器单元524A用于音频解码装置内时,RCB 65B可包含于局部权重解码器单元524A内。尽管展示为局部地存储于PVQ单元640A内,但RCB 65B可驻留于在PVQ单元640A的外的存储器或局部权重解码器单元524A中且可经由共同存储器存取处理程序存取。

权重重构建单元526A可向量解量化WeightErrorIdx 519B(其可表示权重索引)以确定所选择的残余向量620A(其可表示多个残余权重误差)。权重重构建单元526可向基于RCB 65B向量解量化WeightErrorIdx 519B以确定所选择的残余向量620A。RCB 65B可表示残余权重误差码簿的一项实例。

权重重构建单元526A可基于所选择的残余向量620A重构建多个权重602。权重重构建单元526从缓冲器单元530(其在一些实例中可表示存储器的至少一部分)检索来自过去时间区段(其中过去区段在时间上先于当前时间区段出现)的经重构建的多个权重525的集合中的一者。当前时间区段可表示当前音频帧。在一些实例中,过去时间区段可表示前一帧。在其它实例中,过去时间区段可表示在时间上早于前一帧的一帧。如上文关于方程式(15)所描述,权重重构建单元526A可基于通过所选择的残余权重向量620A表示的多个残余权重误差与来自过去时间区段的经重构建的多个权重525中的一者来重构建当前时间区段的多个权重531。

权重重构建单元526A可将可在数学上表示为的8个经重构建的权重602(其又可表示经重构建的多个权重)输出到量值单元650。量值单元650可确定经重构建的权重602的量值或换句话说绝对值。量值单元650可将经重构建的权重602的量值输出到可以上文关于图7A及7B所描述的方式操作的缓冲器单元530,以缓冲先前经重构建的权重525。局部权重解码器单元524A可将经重构建的权重602输出到NPVQ/PVQ选择单元562。

图8C为说明图4中所示的PVQ单元540的另一实例的框图。图8C的PVQ单元540B类似于PVQ单元540A,不同的处在于PVQ单元540B相对于有序权重505及残余权重误差527A两者的绝对值操作。残余权重误差527A的绝对值可经表示为残余权重误差527B。

在残余权重误差527B是无正负号的值的条件下,PVQ单元540B包含向量量化单元590B,其相对于RBC 65B′以与上文关于VQ单元590A类似的方式执行向量量化。RBC 65B′包含RBC 65B的残余权重向量的绝对值。此外,PVQ单元540B包含确定残余权重误差527A的正负号信息515B的正负号确定单元514B。

PVQ单元540B包含局部权重解码器单元524B,其基于RCB 65B′的所选择的残余向量620B重构建权重602,如图8C中更详细地展示。参考图8D,局部权重解码器单元524B基于正负号信息515A及515B、权重因数523、先前经重构建的权重525A中的一者及所选择的残余权重误差620B来重构建权重602。

图8E为说明图4中所示的PVQ单元540的另一实例的框图。图8E的PVQ单元540C类似于PVQ单元540B,不同的处在于PVQ单元540C相对于有序权重505的带正负号的值及残余权重误差527A的绝对值操作。此外,残余权重误差527A的绝对值可经表示为残余权重误差527B。

在残余权重误差527B为无正负号的值而有序权重505为带正负号的值的条件下,PVQ单元540C包含向量量化单元590C,其相对于RBC 65B′以类似于上文关于VQ单元590A所描述的方式类似的方式执行向量量化。RBC 65B′包含RBC 65B的残余权重向量的绝对值。此外,PVQ 540B包含确定残余权重误差527A的正负号信息515B的正负号确定单元514C。

PVQ单元540B包含局部权重解码器单元524C,其基于RCB 65B′的所选择的残余向量620B重构建权重602,如图8F中更详细地展示。参考图8F,局部权重解码器单元524C基于正负号信息515B、权重因数523、经重构建的权重525A′中的一者(其中撇号(′)可表示无正负号的值)及所选择的残余权重误差620B来重构建权重602。

图8G为说明图4中所示的PVQ单元540的另一实例的框图。图8G的PVQ单元540D类似于PVQ单元540C,不同的处在于PVQ单元540D相对于有序权重505的带正负号的值及残余权重误差527A的绝对值操作。

在残余权重误差527B为带正负号的值且有序权重505为带正负号的值的条件下,PVQ单元540D包含向量量化单元590A,其以类似于上文关于PVQ单元540A的VQ单元590A所描述的方式类似的方式执行向量量化。此外,PVQ单元540D并不包含正负号确定单元514A,是因为正负号信息并不单独地自残余权重误差527A及有序权重505的值量化。

PVQ单元540D包含局部权重解码器单元524D,其基于RCB 65B的所选择的残余向量620A重构建权重602,如图8F中更详细地展示。参考图8H,局部权重解码器单元524D基于权重因数523、先前经重构建的权重525A′中的一者(其中撇号(′)可表示无正负号的值)及所选择的残余权重误差620B来重构建权重602。

返回至图4的实例,切换式预测向量量化单元560可在这方面基于如上文所描述的不同量化码簿向量量化权重值。NPVQ单元520可根据非预测向量量化模式基于第一向量量化码簿(例如WCB 65A)执行向量量化。PVQ单元540可根据预测向量量化模式基于第二向量量化码簿(例如,RCB 65B)执行向量量化。

WCB 65A及RCB 65B中的每一者可实施为条目的阵列,其中所述条目中的每一者包含量化码簿索引及对应的量化向量。每一码簿含有256个条目(即,识别256个8分量量化向量的256个索引)。量化码簿中的索引的每一者可对应于8分量量化向量中的相应者。用于每一码簿中的8分量量化向量可不同。

向量量化残余向量中的每一者中的分量的数目可取决于经选择以表示单一输入V-向量55(i)的权重的数目(其中权重的数目在本发明中可通过变量Y表示)。量化码簿中的条目的数目可取决于用以向量量化权重值的相应向量量化模式的位率。

VQ/PVQ选择单元562可表示经配置以在输入V-向量55(i)的NPVQ版本(其可被称为NPVQ向量)与输入V-向量55(i)的PVQ版本(其可被称为PVQ向量)之间进行选择的单元。NPVQ向量可通过语法元素SgnVal 515、WeightIdx 519A及VvecIdx 511表示。NPVQ单元520也可将经重构建的权重600提供至NPVQ/PVQ选择单元562。PVQ向量可通过语法元素SgnVal 515、WeightIdx 519A及VvecIdx 511表示。PVQ单元540也可将经重构建的权重602提供至NPVQ/PVQ选择单元562。

应注意,已用缓冲器单元530将图4、8B、8D、8F及8H中的PVQ单元绘制为具有来自NPVQ单元的经重构建的权重525及来自局部权重解码器单元(524A、524B、524C或524D)的输入。此类配置表示当来自先前时间区段(例如,帧)的存储于音频编码装置(图3)或音频解码装置(图4)的存储器中的过去经量化向量、当前时间区段(例如,帧)中的当前经向量量化的向量(通过经重构建的权重602表示)可在预测码簿(例如,所述预测码簿存储经向量量化的预测权重值或残余权重误差)的使用下基于先前经量化向量预测时的基于存储器的系统。先前经量化向量是来自NPVQ单元的经重构建的权重525或来自局部权重解码器单元(524A、524B、524C或524D)的经重构建的权重525。然而,当基于仅使用来自PVQ单元540的过去区段(帧或子帧)预测的经向量量化的权重向量执行预测向量量化而不能够自NPVQ单元520存取过去经向量量化的权重向量中的任一者时,可存在被称作仅PVQ模式的PVQ配置。因此,在无来自NPVQ单元的任何经重构建的权重525的情况下,仅PVQ模式可通过先前绘制的图式(图4、8B、8D、8F及8H)说明。仅PVQ模式中进入缓冲器单元530中的唯一输入来自局部权重解码器单元(524A、524B、524C或524D)。

图9为更详细地说明包含于切换式预测向量量化单元560内的VQ/PVQ单元的框图。VQ/PVQ选择单元562包含NPVQ重构建单元532、NPVQ误差确定单元534、PVQ重构建单元536、PVQ误差确定单元538及选择单元542。

NPVQ重构建单元532表示经配置以基于指示{sj}的集合的SgnVal语法元素515A、可连同SgnVal语法元素515A指示的经重建的权重600、可一起指示{Ωj}的VvecIdx语法元素511及音量代码向量571来重构建输入V-向量55(i)的单元。NPVQ重构建单元532可根据以上方程式(10)产生输入V-向量的经量化版本(其被称为NPVQ向量533),所述式出于便利性的目的协调地再生(但其呈调整形式以将经量化向量表示为),NPVQ重构建单元532可将NPVQ向量533输出到NPVQ误差确定单元534。

NPVQ误差确定单元534可表示经配置以确定由量化输入V-向量55(i)而产生的量化误差的单元。NPVQ误差确定单元534可根据以下方程式(16)确定NPVQ量化误差:

其中ERRORNPVQ表示NPVQ误差作为输入V-向量55(i)(表示为VFG)与NPVQ向量533(表示为)之间的差的绝对值。应注意,在关于图8A至8H说明的不同配置中,例如,方程式(16)中不需要绝对值。NPVQ误差确定单元534可将误差535输出到选择单元542。

PVQ重构建单元536表示经配置以基于指示{sj}的集合的SgnVal语法元素515、可连同SgnVal语法元素515A/515B指示配置根据其而使用(如图8A至8H中所说明)的(或)的经重建的权重602来重构建输入V-向量55(i)的单元。VvecIdx语法元素511及音量代码向量571可一起指示{Ωj}。PVQ重构建单元536可根据以上方程式(14)产生输入V-向量的经量化版本(其被称为PVQ向量537),所述式出于便利性的目的(而非必须明确地重说明或重申贯穿图8A至8H的各种配置)协调地再生(但其呈调整形式以将经量化向量表示为),说明了具有8个权重及残余权重误差的绝对值及过去经重构建的权重的绝对值的实例,PVQ重构建单元536可将NPVQ向量533输出到PVQ误差确定单元538。

PVQ误差确定单元538可表示经配置以确定由量化输入V-向量55(i)而产生的量化误差的单元。PVQ误差确定单元538可根据以下方程式(16)确定PVQ量化误差:

其中ERRORPVQ表示PVQ误差539作为输入V-向量55(i)(表示为VFG)与PVQ向量537(表示为)之间的差的绝对值。应注意,在关于图8A至8H说明的不同配置中,例如,方程式(17)中不需要绝对值。PVQ误差确定单元538可将PVQ误差539输出到选择单元542。

在一些实例中,NPVQ误差确定单元534及PVQ误差确定单元538可使误差(535及539)分别基于ERRORNPVQ及ERRORPVQ。即,误差(535及539)可表达为信噪比(SNR)或无论如何误差通常表示为分别至少部分地利用ERRORNPVQ及ERRORPVQ。如上所述,模式位D可经传信以指示是否选择NPVQ或PVQ。SNR可包含此位,其可降低SNR,如下文更详细描述。在现有语法元素经扩展以单独传信NPVQ及PVQ的情形下(例如,如上文关于NbitsQ语法元素所论述),SNR可改良。

选择单元542可基于目标位率41、误差(535及539)或目标位率41及误差(535及539)两者在NPVQ向量533与PVQ向量537之间进行选择。选择单元562可选择用于较高目标位率41的NPVQ向量533且选择用于较低相对目标位率41的PVQ向量537。选择单元542可输出NPVQ向量533或PVQ向量537中的选定者作为VQ向量543(i)。选择单元542也可输出误差(535及539)中的对应一者作为VQ误差541(其可表示为ERRORVQ)。选择单元542可进一步输出用于VQ向量543(i)的SgnVal语法元素515、WeightIdx语法元素519A及CodebkIdx语法元素521。

在NPVQ向量533或PVQ向量537之间进行选择的选择单元542可有效地执行用以重构建一或多个权重的第一集合(且借此确定一或多个权重的经重构建的第一集合)的非预测向量解量化与用以重构建一或多个权重的第二集合(且借此确定一或多个权重的经重构建的第二集合)的预测向量解量化之间的切换。一或多个权重的经重构建的第一集合及一或多个权重的经重构建的第二集合可各自表示一或多个权重的经重构建集合。当如下文更详细论述选择VQ时,选择单元542可将CodebkIdx语法元素521输出到图3中所示的位流产生单元42。位流产生单元42可接着以指示位流21中的切换的CodebkIdx语法元素521的形式指定量化模式,其可包含V-向量的表示。

返回至图4的实例,VQ/PVQ选择单元562可将VQ向量543、VQ误差541、SgnVal语法元素515、WeightIdx语法元素519A及CodebkIdx语法元素521输出到VQ/SQ选择单元564。VQ/SQ选择单元564可表示经配置以在VQ向量543(i)与SQ输入V-向量551(i)之间进行选择的单元。类似于VQ/PVQ选择单元562,VQ/SQ选择单元564可使选择至少部分地基于目标位率41、相对于VQ输入V-向量543(i)及SQ输入V-向量551(i)中的每一者计算的误差量测(例如,误差量测541及553)或目标位率41及误差量测的组合。VQ/SQ选择单元564可输出VQ输入V-向量543(i)及SQ输入V-向量551(i)中的选定者作为经量化V-向量57(i),其可表示经译码前景V[k]向量57中的第i个向量。可针对减少的前景V[k]向量55中的每一者重复前述操作,从而迭代所有经减少的前景V[k]向量55。

VQ/PVQ选择单元562也可将选择信息565输出到缓冲器单元530。VQ/PVQ选择单元562可输出选择信息565以指示经量化V-向量57(i)是经非预测向量量化、经预测向量量化抑或经纯量量化。VQ/PVQ选择单元562可输出选择信息565以使得缓冲器单元530可移除、删除或标示可丢弃的那些先前经重构建的权重525以供删除。

换句话说,缓冲器单元530可标示、标记数据或将数据与先前经重构建的权重525A至525G(“经重建的权重525”)中的每一者相关联。缓冲器单元530可关联指示先前经重构建的权重525中的每一者是NPVQ抑或PVQ的数据。缓冲器单元530可以此方式关联数据以便识别并未由VQ/SQ选择单元564选择的先前经重构建的权重525中的一或多者。基于选择信息565,缓冲器单元530可移除在位流21中将不以经向量量化的形式指定的那些先前经重构建的权重525。缓冲器单元530可移除在位流21中并未以经向量量化的形式指定的那些者,因为在位流21中并未以经向量量化的形式指定的先前经重构建的权重525对于局部权重解码器单元524来说不可用于确定经重构建的权重602。

返回至图3的实例,V-向量译码单元52可向指示位流产生单元42提供指示选择哪一量化码簿以用于量化对应于经减少的前景V[k]向量55中的一或多者的权重的数据,以使得位流产生单元42可包含所得位流中的此类数据。在一些实例中,V-向量译码单元52可针对待译码的HOA系数的每一帧选择一量化码簿来使用。在这些实例中,V-向量译码单元52可将指示选择哪一量化码簿以用于量化每一帧中的权重的数据提供至位流产生单元42。在一些实例中,指示选择哪一量化码簿的数据可为对应于所选择的码簿的码簿索引和/或识别值。

音频编码装置20内包含的心理声学音频译码器单元40可表示心理声学音频译码器的多个个例,其每一者用于编码经能量补偿的环境HOA系数47′及经内插的nFG信号49′中的每一者的不同音频对象或HOA信道以产生经编码的环境HOA系数59及经编码的nFG信号61。心理声学音频译码器单元40可将经编码的环境HOA系数59及经编码的nFG信号61输出到位流产生单元42。

音频编码装置20内包含的位流产生单元42表示将数据格式化以符合已知格式(其可指代为解码装置已知的格式)而借此产生基于向量的位流21的单元。换句话说,位流21可表示以上文所描述的方式编码的经编码音频数据。在一些实例中,位流产生单元42可表示多工器,其可接收经译码的前景V[k]向量57(其也可被称为经量化的前景V[k]向量57)、经编码的环境HOA系数59、经编码的nFG信号61及背景信道信息43。位流产生单元42可接着基于经译码的前景V[k]向量57、经编码的环境HOA系数59、经编码的nFG信号61及背景信道信息43产生位流21。以此方式,位流产生单元42可借此指定位流21中的向量57以获得位流21。位流21可包含主要或主位流及一或多个边带信道位流。

对于NPVQ,当选择NPVQ时,位流产生单元42可指定NPVQ的权重索引作为位流21中的WeightErrorIdx 519B。位流产生单元42也可在位流21中指定多个V-向量索引(作为VVecIdx语法元素511),其指示用以量化输入V-向量55中的每一者的音量代码向量571。

尽管在图3的实例中未展示,但音频编码装置20也可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成抑或基于向量的合成编码而切换自音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为侦测到HOA系数11是自合成音频对象产生的结果)抑或执行基于向量的合成(作为侦测到HOA系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应位流的切换或当前编码。

此外,虽然图3的实例中未展示,但V-向量译码单元52可将权重值信息提供至重排序单元34。在一些实例中,权重值信息可包含由V-向量译码单元52计算的权重值中的一或多者。在另外的实例中,权重值信息可包含指示V-向量译码单元52选择哪些权重以用于量化和/或译码的信息。在额外实例中,权重值信息可包含指示V-向量译码单元52不选择哪些权重以用于量化和/或译码的信息。除上文所提及的信息项目的外或代替上文所提及的信息项目,权重值信息也可包含上文所提及的信息项目以及其它项目中的任一者的任何组合。

在一些实例中,重排序单元34可基于权重值信息(例如,基于权重值)对向量进行重排序。在V-向量译码单元52选择权重值的子集以进行量化和/或译码的实例中,重排序单元34在一些实例中可基于选择权重值中的哪些权重值以用于量化或译码(其可通过权重值信息指示)而对向量进行重排序。

图10为更详细地说明图2的音频解码装置24的框图。如图4的实例中所示,音频解码装置24可包含提取单元72、基于方向性的重构建单元90及基于向量的重构建单元92。

提取单元72可表示经配置以接收位流21及提取HOA系数11的各种经编码版本(例如,基于方向性的经编码版本或基于向量的经编码版本)的单元。提取单元72可确定上文所述的指示HOA系数11是经由各种基于方向的版本抑或基于向量的版本编码的语法元素。当执行基于方向性的编码时,提取单元72可提取HOA系数11及与经编码版本相关联的语法元素(在图3的实例中)的基于方向性的版本,从而将基于方向性的信息91传递至基于方向性的重构建单元90。基于方向性的重构建单元90可表示经配置以基于所述基于方向性的信息91重构建呈HOA系数11′的形式的HOA系数的单元。

当语法元素指示HOA系数11是使用基于向量的合成编码时,提取单元72可操作以便提取语法元素及值以供基于向量的重构建单元92使用以重构建HOA系数11。基于向量的重构建单元92可表示经配置以自经编码的前景V[k]向量57重构建V-向量的单元。基于向量的重构建单元92可以与量化单元52的方式互逆的方式操作。基于向量的重构建单元92可包含V-向量重构建单元74、空间-时间内插单元76、心理声学解码单元80、前景制订单元78、HOA系数制订单元82及淡化单元770。

提取单元72可提取高阶立体混响声域中的经译码前景V[k]向量(其可仅包含索引或包含索引及模式位)、经编码的环境HOA系数59及经编码的nFG信号61。提取单元72可将经译码前景V[k]向量57传递至V-向量重构建单元74,且将经编码的环境HOA系数59以及经编码的nFG信号61提供至心理声学解码单元80。

为提取经译码的前景V[k]向量57(其也可被称为“经量化V-向量57”或称为“V-向量55的表示”)、经编码的环境HOA系数59及经编码的nFG 61,提取单元72可获得包含表示为CodedVVecLength的语法元素的HOADecoderConfig集合(container)。提取单元72可剖析来自HOADecoderConfig集合的CodedVVecLength。提取单元72可经配置以在上文所描述的配置模式中的任一者中基于CodedVVecLength语法元素操作。

在一些实例中,提取单元72可根据呈现于以上参考的MPEG-H 3D音频标准的章节12.4.1.9.1中的伪码中的切换陈述以及呈现于如鉴于随附语义所理解的用于VVectorData的以下语法表中的语法操作:

VVectorData(VecSigChannelIds(i))

此结构含有用于基于向量的信号合成的经译码V-向量数据。

VVec(k)[i] 此为用于第i信道的第k个HOAframe()的V-向量。

VVecLength 此变量指示待读出的向量元素的数目。

VVecCoeffId 此向量含有经发射的V-向量系数的索引。

VecVal 介于0与255之间的整数值。

aVal 在解码VVectorData期间使用的临时变量。

huffVal 待进行霍夫曼解码的霍夫曼码字。

sgnVal 此为在解码期间使用的经译码正负号值。

intAddVal 此为在解码期间使用的额外整数值。

NumVecIndices用以将经向量量化的V-向量解量化的向量的数目。

WeightIdx WeightValCdbk中用以将经向量量化的V-向量解量化的索引。

WeightErrorIdx WeightValPredictiveCdbk中用以基于先前关于以上各种PVQ单元(例如,单元540A至540D)描述及说明的技术将经向量量化的V-向量解量化的索引。

nbitsW 用于读取WeightIdx以解码经向量量化的V-向量的栏位大小。

WeightValCdbk含有正实数值加权系数的向量的码簿。如果NumVecIndices经设置为1,则使用具有16个条目的WeightValCdbk,否则,使用具有256个条目的WeightValCdbk。

WeightValPredictiveCdbk含有正实数值加权残余系数的向量的码簿。如果NumVecIndices经设置为1,则使用具有16个条目的WeightValCdbk,否则,使用具有256个条目的WeightValCdbk。

VvecIdx 用以将经向量量化的V-向量解量化的VecDict的索引。

nbitsIdx 用于读取个别VvecIdxs以解码经向量量化的V-向量的栏位大小。

WeightVal 用以解码经向量量化的V-向量的实数值加权系数。

AbsoluteWeightVal WeightVal的绝对值。

虽然关于以上语法表(及基于等于3的nbitQ说明的替代语法表)描述及明确说明语法元素AbsoluteWeightVal、WeightValPredicitiveCdbk及WeightErrorIdx,但可(例如)使用不同名称反映诸如关于图8A至8H及其它图中的其它方面论述的其它配置。此外,在并未使用绝对值的此类配置中,以上语法可相应地具有不同形式。因此,虽然关于权重值的绝对值描述了下文相对于以上语法表及以下替代语法的某些文字,但在下文描述所说明的语法表的元素的描述也可适用于(例如)关于图8A至8H及其它图的其它方面所论述的配置。

提取单元72可剖析位流21以获得第i个V-向量的VVectorData(其也展示为VVectorData(i))。经量化的V-向量57(i)可至少部分地对应于VVectorData(i)。在提取VVectorData之前,提取单元72可从位流21提取量化模式,如上所述,作为一项实例,所述量化模式可对应于经量化向量57中的第k个音频帧及第i个经量化向量的NbitsQ语法元素(在以上语法表中经表示为NbitsQ(k)[i])。抽取单元72可基于NbitsQ语法元素通过确定NbitsQ(k)[i]是否等于4来首先确定是否执行向量量化。

当NbitsQ[k](i)等于4时,提取单元72将NumVvecIndices语法元素设置为等于用于经量化向量57的第k个音频帧及第i个经量化向量的CodebkIdx语法元素(表示为CodebkIdx(k)[i])。在这方面,V-向量索引的数目可等于码簿索引的数目。

提取单元72可接着确定CodebkIdx(k)[i]语法元素是否等于零。当CodebkIdx(k)[i]语法元素等于零时,单一V-向量索引经指定且用以存取表F.11。提取单元72可从位流21提取单一10位VvecIdx语法元素及1位SgnVal语法元素两者。提取单元72可将VvecIdx[0]语法元素设置为经剖析的VvecIdx语法元素。提取单元72也可基于SgnVal语法元素(即,在以上示范性语法表中等于((SgnVal*2)-1))来设置WeightVal[0]语法元素。提取单元72可基于SgnVal语法元素有效地将WeightVal[0]设置为-1或1的值。提取单元72也可将AbsoluteWeightVal[k][0]设置为1的值(在WeightVal[0]语法元素可仅为-1或1的值的条件下,其实际上为WeightVal[0]语法元素的绝对值)。

当CodebkIdx(k)[i]语法元素并不等于0时,提取单元72可确定CodebkIdx(k)[i]语法元素是否等于1。当CodebkIdx(k)[i]语法元素等于1时,提取单元72可从位流21提取8位WeightErrorIdx语法元素。提取单元72也可将nbitsIdx语法元素设置为HOA系数的数目(其通过“NumOfHoaCoeffs”语法元素表示且等于阶数(N)加1的平方(N+1)2)的基数为2的对数(log2)的数学顶值函数(顶值)的值。

提取单元72接下来可迭代V-向量索引的数目。对于V-向量索引中的每一者,提取单元72可提取VvecIdx语法元素及SgnVal语法元素。实际上,提取单元72可提取8个VvecIdx语法元素511中的一者及8个SgnVal语法元素515中的一者。虽然本文关于8个VvecIdx语法元素511及8个SgnVal语法元素515描述,但可从位流21提取任何数目个(至多J个)VvecIdx语法元素511及语法元素515。在每次迭代中,提取单元72可将VvecIdx[]阵列中的第j个元素设置为VvecIdx语法元素加1的值。尽管展示为通过提取单元72执行,但V-向量重构建单元74可确定WeightVal[]阵列及AbsoluteWeightVal[][]阵列。因此,提取单元72在每次迭代中可将SgnVal[]阵列设置为SgnVal。

当CodebkIdx(k)[i]语法元素不等于1时,提取单元72可确定CodebkIdx(k)[i]语法元素是否等于2。当CodebkIdx(k)[i]语法元素等于2时,提取单元72可从位流21提取8位WeightIdx语法元素519B。在这方面,在此实例中,提取单元72可从位流21提取被称作“WeightErrorIdx”的权重索引519B。提取单元72也可将nbitsIdx语法元素设置为HOA系数的数目(其通过“NumOfHoaCoeffs”语法元素表示且等于阶数(N)加1的平方(N+1)2)的基数为2的对数(log2)的数学顶值函数(顶值)的值。

提取单元72接下来可迭代V-向量索引的数目。对于V-向量索引中的每一者,提取单元72提取VvecIdx语法元素及SgnVal语法元素。提取单元72可提取8个VvecIdx语法元素511中的一者及8个SgnVal语法元素515中的一者。虽然本文关于8个VvecIdx语法元素511及8个SgnVal语法元素515描述,但可从位流21提取任何数目个(至多J个)VvecIdx语法元素511及语法元素515。

在每一迭代中,提取单元72可将VvecIdx[]阵列中的第j个元素设置为VvecIdx语法元素加1的值。以此方式,提取单元72可从位流21提取多个V-向量索引511,其在此实例中可通过8个VvecIdx语法元素511表示。尽管展示为通过提取单元72执行,但V-向量重构建单元74可确定WeightVal[]阵列及AbsoluteWeightVal[][]阵列。因此,提取单元72在每次迭代中可将SgnVal[]阵列设置为SgnVal。

提取单元72也可自V-向量索引的数目迭代HOA系数的总数,从而将AbsoluteWeightVal[][]阵列设置为0。此外,V-向量重构建单元74可取而代之执行此操作。将剩余AbsoluteWeightVal[][]阵列条目设置为零以用于预测的目的。提取单元72接着可继续考虑是否将执行纯量量化(即,在以上语法表的实例中,当NbitsQ(k)[i]等于5时)且考虑是否将执行使用霍夫曼译码的纯量量化(即,在以上语法表的实例中,当NbitsQ(k)[i]等于或大于6时)。在以上参考的2014年5月29日申请的名为“INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD”的国际专利申请公开案第WO 2014/194099号中可获得关于纯量量化的更多信息。提取单元72可以此方式将表示经量化向量57的语法元素提供至V-向量重构建单元74。

在其中存在上文所论述的14种量化模式的替代实例中,当值为3的NbitsQ语法元素可指示预测向量量化时,将执行包含对于“NbitsQ(k)[i]==3”的『如果』叙述的VVectorData(i)的不同语法表。在此替代案中,值等于4的NbitsQ语法元素可指示将执行非预测向量量化。此以下语法表表示此替代实例。

图11为更详细地说明图4的实例中所示的音频解码装置的V-向量重构建单元的图。V-向量重构建单元74可包含选择单元764、切换式预测向量解量化单元760及纯量解量化单元750。

选择单元764可表示经配置以选择是否执行非预测向量解量化、预测向量解量化或是否将基于选择位相对于经量化V-向量57(i)执行纯量解量化的单元。在一项实例中,选择位可表示NbitsQ语法元素。在另一实例中,选择位可表示NbitsQ语法元素及模式位,如上文所论述。在一些实例中,选择位可表示除NbitsQ语法元素的外的CodebkIdx语法元素。因此,选择位在图11的实例中展示为CodebkIdx 521及NbitsQ语法元素763。当经量化的V-向量57(i)可包含CodebkIdx语法元素521作为表示经量化的V-向量57(i)的语法元素中的一者时,CodebkIdx语法元素521展示于表示经量化V-向量57(i)的箭头内。

当NbitsQ语法元素等于4时,选择单元764可确定执行向量量化。选择单元764接下来确定CodebkIdx 521语法元素的值以确定是否执行非预测或预测向量量化。当CodebkIdx 521等于0或1时,选择单元764确定经量化的V-向量57(i)已经非预测向量量化。当经量化的V-向量57(i)经确定为经非预测向量量化时,选择单元764将VvecIdx语法元素511、SgnVal语法元素515、WeightIdx语法元素519A转发到切换式预测向量解量化单元760的非预测向量解量化(NPVD)单元720。

当CodebkIdx 521等于2时,选择单元764确定经量化的V-向量57(i)已经预测向量量化。当经量化的V-向量57(i)经确定为经预测向量量化时,选择单元764将VvecIdx语法元素511、SgnVal语法元素515、WeightIdx语法元素519B转发到切换式预测向量解量化单元760的预测向量解量化(PVD)单元740。语法元素511、515及519B的任何组合可表示指示权重值的数据。

当NbitsQ语法元素763等于5或6时,选择单元764确定执行纯量量化或使用霍夫曼译码的纯量量化。选择单元764接着可将经量化的V-向量57(i)转发到纯量解量化单元750。

切换式预测向量量化单元760可表示经配置以执行NPVD或PVD中的一或两者的单元。切换式预测向量解量化单元760可针对整个位流的每一帧或针对整个位流的帧的仅某一子集执行非预测向量解量化。帧可表示时间区段的一项实例。时间区段的另一实例可表示子帧。切换式预测向量解量化单元760可针对整个位流的每一帧或针对整个位流的帧的仅某一子集执行预测向量解量化。

在一些情况下,切换式预测向量解量化单元760可针对任何给定位流在逐个帧基础上在非预测向量解量化(NPVD)与预测向量解量化(PVD)之间进行切换。即,切换式预测向量解量化单元760可在用以重构建一或多个权重的第一集合的NPVD与用以重构建一或多个权重的第二集合的PVD之间进行切换。当在逐个帧(或逐个子帧)的基础上操作时,切换式预测向量解量化单元760可相对于L数目个帧执行NPVD接着相对于下P个音频帧执行PVD。换句话说,在逐个帧(或逐个子帧)的基础上操作并不一定暗示每一帧(或子帧)发生切换,而是暗示对于位流21中的至少一个帧,存在NPVD与PVD之间的切换。

切换式预测向量解量化单元760可接收通过提取单元72从位流提取的CodebkIdx语法元素521。在一些实例中,CodebkIdx语法元素521可指示量化模式,是因为CodebkIdx语法元素521区分两种或两种以上向量量化模式。在这方面,切换式预测向量解量化单元760可表示经配置以基于通过CodebkIdx语法元素521表示的量化模式在用以重构建一或多个权重的第一集合的非预测向量解量化与用以重构建一或多个权重的第二集合的预测向量解量化之间切换的单元。

如图11的实例中所示,切换式预测向量解量化单元760可包含经配置以执行非预测向量解量化的非预测向量解量化(NPVD)单元720。切换式预测向量解量化单元760也可包含经配置以执行预测向量解量化的预测向量解量化(PVD)单元740。切换式预测向量解量化单元760也可包含缓冲器单元530,其基本上类似于上文相对于切换式预测向量量化单元560所描述的缓冲器单元530。

应注意,在本发明中所描述的基于HoA向量的架构内的VQ配置与PVQ配置之间的切换可包含与图10及11相关联的描述,且应容易理解,先前所描述的仅PVQ模式及仅VQ模式适用于NPVD单元720及PVD单元740,即,在仅PVQ模式中,PVD单元740并不基于先前自NPVD单元720解码的过去权重向量来重构建权重。类似地,在仅VQ模式中,NPVD单元720将并未自PVD单元740重构建的经经重建权重提供至切换式预测向量解量化单元760中的缓冲器单元530。

此外,大体经描述的切换式预测向量量化可被称为启用SPVQ模式。此外,在基于HoA向量的分解架构内可存在纯量量化与VQ模式、PVQ模式或启用SPVQ的模式之间的切换。如上文所描述,可存在不同类型的量化模式,所述量化模式在先前所描述的编码器处指定至位流中,且接着在解码器装置处从位流提取。可存在如上文所描述的能够具有PVQ模式或NPVQ模式且来回切换的不同方式。作为一实例,向量量化模式可经传信且额外nvq/pvq选择语法元素可用于指定位流中的量化模式的类型。替代nvq/pvq选择语法元素的值可为实施启用SPVQ模式的操作的方式。同样,向量量化将在VQ与PVQ量化之间进行切换。

替代地,不同实施可为:PVQ量化模式(例如,NbitsQ==3)在一或多个帧期间指定于位流中。一旦先前所描述的编码器希望切换至VQ量化模式(例如,Nbits Q===4),则不同类型的向量量化可指定于位流中且接着在解码器装置处从位流提取。因此,存在其中PVQ模式与NPVQ模式之间的切换可用于实施启用QPVQ模式的操作的不同方式。

NPVD单元720可以与上文关于NPVQ单元520所描述的方式互逆的方式执行向量解量化。即,NPVD单元720可接收VvecIdx语法元素511、SgnVal语法元素515及WeightIdx语法元素519A。NPVD单元720可基于CodebkIdx语法元素521识别AECB 63中的一者且执行上述的转换以产生32个音量代码向量571。如上文所描述,代码向量可经存储作为音量代码向量码簿(VCVCB)。32个音量代码向量571可表示为Ω。

NPVD单元720接下来可以以上VVectorData(i)语法表中所示的方式重构建WeightVal[]阵列。NPVD单元720可确定至少部分地作为SgnVal的函数的权重、CodebkIdx语法元素521A及WeightIdx语法元素519A。NPVD单元720可基于CodebkIdx语法元素521检索WCB 65A中的一者。NPVD单元720接下来可基于WeightIdx语法元素519A获得来自WCB 65A的经量化权重,其在以上方程式中表示为NPVD单元720接着可根据以下方程式重构建权重:

WeightVal[j]=((SgnVal*2)-1)*WeightValCdbk[CodebkIdx(k)[i]][WeightIdx][j](18)

在重构建作为((SgnVal*2)-1)乘以来自WCB 65A的经量化权重的函数的权重后,NPVD单元720可基于以下方程式重构建V-向量55(i):

其中表示经重构建的V-向量向量55(i),表示第i个经重构建的权重,Ωi表示对应的第i个代码向量,且I表示VVecIdx语法元素511的数目。NPVD单元720可输出经重构建的V-向量55(i)。

为了易于可读性及便利性,本发明的剩余部分可使用术语AbsoluteWeightVal、WeightValPredicitiveCdbk及WeightErrorIdx或关于绝对值的变量的数学记号;然而,可(例如)使用不同名称反映诸如关于图8A至8H及其它图中的其它方面论述的其它配置。此外,在并未使用绝对值的此类配置中,术语、变量及标记可相应地具有不同形式或名称。因此,尽管关于权重值的绝对值描述以下某一描述,但权重值也可适用于例如关于图8A至8H及其它图的其它方面论述的其它配置。

PVD单元740可以与上文关于PVQ单元540所描述的方式互逆的方式执行预测向量解量化。即,PVD单元740可将VvecIdx语法元素511、SgnVal语法元素515、WeightErrorIdx语法元素519B及CodebkIdx语法元素521接收至切换式预测向量解量化单元760。PVD单元740可自通过CodebkIdx语法元素521B识别的AECB 63检索AE向量且执行上述的转换以产生32个音量代码向量571。如上文所描述,代码向量可经存储到VCVCB。当存储到VCVCB时,PVD单元740可基于多个V-向量索引检索音量代码向量。32个音量代码向量571可表示为Ω。

PVD单元740接下来可以以上VVectorData(i)语法表中所示的方式重构建WeightVal[]阵列。PVD单元740可确定至少部分地作为SgnVal的函数的权重、CodebkIdx语法元素521B、WeightErrorIdx语法值519B、经表示为alphaVvec语法元素的权重因数523及经重构建的先前权重525。PVD单元740可包含权重解码器单元524,其可类似于且可能基本上类似于图8A至8H的实例中所示的局部权重解码器单元524A至524D。为了易于说明的目的,以下描述假定局部权重解码器单元524A表示图8A及8B的实例中所示的局部权重解码器单元524A。当关于示范性局部权重解码器单元524A描述时,所述技术可相对于图8C至8H的实例中所示的示范性局部权重解码器单元524B至524D中的任一者执行。

局部权重解码器单元524A可基于语法元素519B自RCB 65B获得残余,其在以上方程式中经表示为局部权重解码器单元524A可根据以下方程式重构建多个权重:

其中WeightVal[j]表示第k个音频帧中的经量化向量57中的第i个经量化向量的第j个经重构建的权重531(其中此记号中的i指代帧而非k),SgnVal表示第j个正负号值sj,WeightValPredictiveCodbk[CodebkIdx(k)[i]][WeightErrorIdx][j]表示第k个音频帧中的经量化向量57中的第i个经量化向量的第j个残余权重误差620A(其中此记号中的i指代帧而非k),alphaVvec[j]表示第j个权重因数523(αj),且AbsoluteWeightVal[k-1][j]表示经重构建的先前权重525中的第j个权重(其中此记号中的i指代帧而非k)。

在这方面,局部权重解码器单元524可对权重索引519B解量化以获得多个残余权重误差并基于多个残余权重误差620A及来自过去时间区段的经重构建的多个权重525中的一者重构建当前时间区段的多个权重531。关于图8B更详细地描述以上重构建。关于图8D、8F及8H更详细地描述替代重构建。

在重构建当前时间区段(例如,第i个音频帧)的权重531后,PVD单元740可基于以下方程式重构建V-向量55(i):

其中表示经重构建的V-向量55(i)。为重构建V-向量55(i),PVD单元740可检索音量代码向量571中的第j个向量,其在以上方程式(21)中经表示为Ωj。PVD单元740可基于通过VVecIdx语法元素511表示的多个V-向量索引检索第j个音量代码向量571中的每一者。

如上所述,V-向量55(i)可表示多方向V-向量55(i),其表示多方向声源。因此,PVD单元740可基于J多个音量代码向量571及来自当前时间区段的经重构建的多个权重531重构建多方向V-向量55(i)。NPVD单元720可输出经重构建的V-向量55(i)。

纯量解量化单元750可以与上文所描述的方式互逆的方式操作以获得经重构建的V-向量55(i)。纯量解量化单元750可在首先(意味着在执行解量化解量化之前)将霍夫曼解码应用于经量化V-向量57(i)的情况下或在并未首先将霍夫曼解码应用于经量化V-向量57(i)的情况下执行纯量解量化。纯量解量化单元750可输出经重构建的V-向量55(i)。

V-向量重构建单元74可以此方式经由提取单元72确定指示来自位流21的权重(例如,进入上文所描述的码簿的索引)的一或多个位,且基于所述权重及一或多个对应音量代码向量重构建经减少的前景V[k]向量55k。在一些实例中,权重可包含对应于用以重构建经减少的前景V[k]向量55k(其也可被称为经重构建的V-向量55)的代码向量集合中的所有代码向量的权重值。在这些实例中,V-向量重构建单元74可基于音量代码向量的整个集合或子集重构建经减少的前景V[k]向量55k作为音量代码向量的加权总和。

心理声学解码单元80可以与图3的实例中所示的心理声学音频译码器单元40互逆的方式操作以便解码经编码的环境HOA系数59及经编码的nFG信号61且借此产生经能量补偿的环境HOA系数47′及经内插的nFG信号49′(其也可被称作经内插的nFG音频对象49′)。心理声学解码单元80可将经能量补偿的环境HOA系数47′传递至淡化单元770且将nFG信号49′传递至前景制订单元78。

空间-时间内插单元76可以与上文关于空间-时间内插单元50所描述的方式类似的方式操作。空间-时间内插单元76可接收减少的前景V[k]向量55k且关于前景V[k]向量55k及减少的前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量55k″。空间-时间内插单元76可将经内插的前景V[k]向量55k″转发到淡化单元770。

提取单元72也可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元770可接着确定SHCBG>BG>k″的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可关于环境HOA系数47′及经内插的前景V[k]向量55k″的元素中的每一者相反地操作。

前景制订单元78可表示经配置以关于经调整的前景V[k]向量55k″′及经内插的nFG信号49′执行矩阵乘法以产生前景HOA系数665的单元。在这方面,前景制订单元78可组合音频对象49′(所述方式为借以表示经内插的nFG信号49′的另一种方式)与向量55k″′以重构建HOA系数11′的前景(或换句话说,优势)方面。前景制订单元78可执行经内插的nFG信号49′乘以经调整的前景V[k]向量55k″′的矩阵乘法。

HOA系数制订单元82可表示经配置以将前景HOA系数665组合至经调整的环境HOA系数47″以便获得HOA系数11′的单元。撇号记号反映HOA系数11′可类似于HOA系数11(或换句话说,其表示)但不与其相同。HOA系数11与11′之间的差可起因于归因于有损发射媒体上的发射、量化或其它有损操作产生的损失。

图12A为说明图5的V向量译码单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。V-向量译码单元52的NPVQ单元520可执行关于输入V-向量55(i)的非预测向量量化(NPVQ)(810)。NPVQ单元520可确定由执行关于输入V-向量55(i)的NPVQ而产生的误差(其中所述误差可表示为ERRORNPVQ)(812)。

V-向量译码单元52的PVQ单元540可以上文关于输入V-向量55(i)所描述的方式执行经预测向量量化(PVQ)(814)。PVQ单元540可确定由执行关于输入V-向量55(i)的PVQ而产生的误差(其中所述误差可表示为ERRORPVQ)(816)。当ERRORNPVQ大于ERRORPVQ(“是”818)时,V-向量译码单元52的VQ/PVQ选择单元562可选择PVQ输入V-向量,其可指代与V-向量55(i)的PVQ版本相关联的上述语法元素(820)。当ERRORVQ并不大于ERRORPVQ(“否”818)时,VQ/PVQ选择单元562可选择NPVQ输入V-向量,其可指代与V-向量55(i)的NPVQ版本相关联的上述语法元素(822)。

VQ/PVQ选择单元562可将NPVQ输入V-向量及PVQ输入V-向量中的选定者作为VQ输入V-向量输出到VQ/SQ选择单元564。与VQ输入V-向量相关联的误差可表示为ERRORVQ且等于针对NPVQ输入V-向量及PVQ输入V-向量中的选定者确定的误差。

V-向量译码单元52的纯量量化单元550也可执行关于输入V-向量55(i)的纯量量化(824)。纯量量化单元550可确定由执行关于输入V-向量55(i)的SQ而产生的误差(其中所述误差可表示为ERRORSQ)(826)。纯量量化单元550可将SQ输入V-向量551(i)输出到VQ/SQ选择单元564。

当ERRORVQ大于ERRORSQ(“是”818)时,VQ/SQ选择564可选择SQ输入V-向量551(i)(830)。当ERRORVQ并不大于ERRORSQ(“否”828)时,VQ/SQ选择单元564可选择VQ输入V-向量。VQ/SQ选择单元564可输出SQ输入V-向量551(i)及VQ输入V-向量中的选定者作为经量化V-向量57(i)。

在这方面,V-向量译码单元52可在一或多个权重的第一集合的非预测向量量化与一或多个权重的第二集合的预测向量量化之间进行切换。

图12B为说明音频编码装置(诸如,图3的实例中所示的音频编码装置20)在执行本发明中所描述的预测向量量化技术的各种方面中的示范性操作的流程图。表示图3中所示的音频编码装置20的V-向量译码单元52的V-向量译码单元52A(图4)的近似单元502可确定当前时间区段的对应于音量代码向量571的权重503(200)。

如上文更详细描述,PVQ单元540可基于权重503(或在一些实例中为有序权重505)及过去时间区段的经重构建的权重525中的一者确定残余权重误差(202)。PVQ单元540可对残余权重误差进行向量量化以确定权重索引,所述权重索引可通过WeightErrorIdx语法元素519B表示(204)。在选择PVQ时,PVQ单元540可将WeightErrorIdx语法元素519B提供至位流产生单元42。位流产生单元42可以上文展示于语法表中的方式指定位流21中的WeightErrorIdx语法元素519B。

图13A为说明图11的V-向量重构建单元在执行本发明中所描述的技术的各种方面中的示范性操作的流程图。V-向量重构建单元74的选择764可获得上文所描述的指示是否将执行非预测向量解量化(NPVD)、预测向量解量化(PVD)或纯量解量化(SD)的选择位及经量化V-向量57(i)。

当选择位指示将执行NPVD(“是”852)时,选择单元764将经量化V-向量57(i)转发到NPVD单元720。NPVD单元720执行关于经量化V-向量57(i)的NPVD以重构建输入V-向量55(i)(854)。

当选择位指示并不将执行NPVD(“否”852)而是将执行PVD(“是”856)时,选择单元764将经量化V-向量57(i)转发到PVD单元740。PVD单元740执行关于经量化V-向量57(i)的PVD以重构建输入V-向量55(i)(858)。

当选择位指示并不将执行NPVD及PVD(“否”852及“否”856)时,选择单元764将经量化V-向量57(i)转发到纯量解量化单元750。纯量解量化单元750执行关于经量化V-向量57(i)的SD以重构建输入V-向量55(i)(860)。

图13B为说明音频解码装置(诸如,图10中所示的音频解码装置24)在执行本发明中所描述的预测向量量化技术的各种方面中的示范性操作的流程图。如上文所描述,图4中所示的音频解码装置24的提取单元72可从位流21提取表示权重索引的WeightErrorIdx语法元素519B(212)。

图11中所示的V-向量重构建单元74的PVD单元740可从缓冲器单元530检索来自过去时间区段的多个经重构建的权重525中的一者(214)。PVD单元740的局部权重解码器单元524可对WeightErrorIdx语法元素519B进行向量解量化以通过上文关于图8B、8D、8F或8H所描述的方式确定残余权重误差620A(216)。PVD单元740的局部权重解码器单元524可接着基于残余权重误差620及来自过去时间区段的经重构建的权重525中的一者重构建当前时间区段的权重531(218)。

图14为根据本发明的包含说明用于使用NPVQ单元进行权重的向量量化的权重的实例分布的多个图表的图。

在图14的实例分布中,每一V-向量(其可被称为输入V-向量55(i))通过8个权重值(即,Y=8)表示。换句话说,尽管在输入V-向量55(i)的完全分解中存在超过8个权重值和/或代码向量,但自所有权重值中选择具有最大量值的8个权重值以表示输入V-向量55(i)。接着对8个最大量值权重值进行向量量化。

在此实例中,使用8分量量化向量(即,Y-分量量化向量,其中Y=8)执行向量量化。换句话说,在此实例中,每一输入V-向量55(i)的权重值经共同分组为8个权重值的群组且使用单一量化向量及权重索引对其进行向量量化。

图14中的顶列中的四个图表中的每一者说明表示输入V-向量55的样本分布的多个群组的8个权重值中的每一者中的8个权重值中的两者。记号dim1表示输入V-向量55(i)的权重值(即,)的有序集合中的第一权重值,dim2表示V-向量55(i)的权重值(即,)的集合中的第二权重值,等。

在一些实例中,权重值的量值及正负号可经单独量化。举例来说,在图14中所示的实例(其中V-向量中的每一者通过8个权重值表示)中,可执行8维向量量化以对权重值的量值进行向量量化。在此实例中,可针对每一维度产生正负号位以指示相应维度的正负号。

在dim0至dim7中的每一者可具有单独正负号位的条件下,可存在8个正负号位,两个正负号位用于顶列图表中的每一者。每一dim1至dim8的正负号位可有效地识别顶列图表中的每一者的象限。举例来说,左边的第一顶列图表的象限展示为象限900A至900D。设置为1的正负号位可指示正(或零)值,而设置为0的正负号位可指示负值。象限900A可通过dim1的设置为1的正负号位及dim0的设置为1的正负号位指定。象限900B可通过dim1的设置为1的正负号位及dim2的设置为0的正负号位指定。象限900C可通过dim1的设置为0的正负号位及dim2的设置为0的正负号位指定。象限900D可通过dim1的设置为0的正负号位及dim2的设置为1的正负号位指定。

在给定通过正负号位识别的象限中的权重值分布的对称性的情况下,图14的顶列图表的权重分布可经缩减至底行中的四个图表。当动态范围经缩减至单一象限时,相较于联合地量化量值及正负号位,通过独立地量化量值及正负号位,V-向量重构建单元74可减少所分配的大量位。

图15为根据本发明的包含图14的底行图表的正象限的多个图表的图,所述多个图表更详细地说明NPVQ单元中的权重的向量量化。在图15的图表中,较浅的灰度值表示经量化的权重值,而较深的灰度值表示原始权重值。

图16为根据本发明的包含说明预测权权重值(预测权重值也可被称作残余权重误差)的实例分布的多个图表的图,所述预测权重值用作PVQ单元中的残余权重误差的预测向量量化的部分。第j个索引及第i个音频帧的残余权重误差可基于以下方程式产生:

其中ri,j对应于来自第i个音频帧的权重值的有序子集的第j个残余权重误差,对应于来自第i个音频帧的权重值的有序子集的第j个权重值,对应于来自第(i-1)个音频帧的权重值的有序子集的第j个权重值,且αj对应于来自音频帧的权重值的有序子集的第j个权重值的加权因数。在一些实例中,用于正上方的方程式中的索引可指代在对如上文所论述的权重值进行重排序及重索引后出现的索引,即,j∈Ys。在图16的实例中,αj=1。

残余权重误差也可被称为预测权重值。预测权重值可指代用以预测当前时间帧的权重值(且因这是其的预测)的值。在这方面,预测的权重值可表示基于预测权重值及来自过去时间帧的经重构建的权重值预测的权重值。

图16中的每一输入向量55(i)通过8个预测权重值表示(即,在此实例中M=8)。图16的顶列中的图表中的每一者说明表示V-向量的样本分布的多个群组的8个预测权重值中的每一者中的8个预测权重值中的两者。记号dim1表示输入向量55(i)的预测权重值的有序集合中的第一预测权重值,dim2表示输入向量55(i)的权重值的有序集合中的第二预测权重值,等。

在一些实例中,权重值的量值及正负号可经单独量化。举例来说,在图14中所示的实例(其中V-向量中的每一者通过8个权重值表示)中,可执行8维向量量化以对权重值的量值进行向量量化。在此实例中,可针对每一维度产生正负号位以指示相应维度的正负号。

类似于非预测向量量化,在dim0至dim7中的每一者可具有单独正负号位的条件下,可存在8个正负号位,两个正负号位用于顶列图表中的每一者。每一dim1至dim8的正负号位可有效地识别顶列图表中的每一者的象限。在给定通过正负号位识别的象限中的权重值分布的对称性的情况下,图14的顶列图表的权重分布可经缩减至底行中的四个图表。当动态范围经缩减至单一象限时,相较于联合地量化量值及正负号位,通过独立地量化量值及正负号位,V-向量重构建单元74可减少所分配的大量位。

换句话说,预测可在绝对权重值域中发生,且用于权重值中的每一者的正负号信息可独立于预测权重值发射。

举例来说,第j个索引及第i个音频帧的预测权重值可基于以下方程式产生:

其中ri,j对应于来自第i个音频帧的权重值的有序子集的第j个残余值,对应于来自第i个音频帧的权重值的有序子集的第j个权重值,对应于来自第(i-1)个音频帧的权重值的有序子集的第j个权重值,αj对应于来自音频帧的权重值的有序子集的第j个权重值的加权因数,且运算子|x|对应于x的量值或绝对值。在一些实例中,用于方程式(23)中的索引可指代在对如上文所论述的权重值进行重排序及重索引后出现的索引,即,j∈Ys。在图16的实例中,αj=1。

在一些实例中,预测权重值的量值及正负号可经单独量化。举例来说,在图16中所示的实例(其中输入V-向量55(i)通过8个权重值表示)中,可执行8维向量量化以对预测权重值的量值进行向量量化。在此实例中,可针对每一维度产生正负号位以指示相应维度的正负号(且借此识别象限)。

图17为包含说明图16中的实例分布以及对应经量化的预测权重值的实例分布的多个图表的图。在图17的图表中,较浅的灰度值表示经量化的权重值,而较深的灰度值表示原始权重值。

图18及19为说明本发明的“仅PVQ模式”中的使用不同方法以获得α因数的预测向量量化技术的比较实例性能特性的表格。图18为说明本发明的处于“仅PVQ模式”中的预测向量量化技术的实例性能特性的表格。PVQ模式可表示基于仅使用来自PVQ单元540的过去帧(或子帧)预测的经向量量化的权重向量执行预测向量量化而不能够自NPVQ单元520存取过去经向量量化的权重向量中的任一者。“仅VQ模式”可表示在无来自NPVQ单元520或PVQ单元540的先前(来自过去帧或子帧)经向量量化的权重向量的情况下执行向量量化。启用SPVQ的模式可表示在仅VQ模式与使用本发明中在上文所描述的使PVQ单元540能够自NPVQ单元520存取过去经向量量化的权重向量的技术之间的彼切换。确切地说,图18说明图17中所说明的预测向量量化(其中αj=1)及仅PVQ模式的性能特性。“位”行定义用以表示每一权重值的位的数目。随着位的数目增加,如以分贝(dB)指定的信噪比(SNR)增加。SNR增加可允许V-向量译码单元52为相对大的目标位率41选择较多位且为相对小的目标位率41选择较少位。

在上文关于图14至17所描述的实例中,αj=1。然而,在其它实例中,αj可不等于1。在一些实例中,可基于误差度量选择αj。举例来说,可选择αj成为最小化一系列音频帧内的总和或平方误差总和(SSE)的值。

举例来说,以下方程式可用以导出最小化误差度量的α值:

方程式(27)可用于获得针对I个音频帧内的权重值的给定集合最小化方程式(24)中所示的误差度量的αj。表达式(28)说明可自图14中所示的权重值的样本分布获得的实例值。

图19说明其中αj基于方程式(19)定义的仅PVQ模式的性能特性。在比较图18及19的仅PVQ模式配置中,基于方程式(19)定义αj(图19)可提供比图18更好的性能。此外,“位”行定义用以表示每一权重值的位的数目。随着位的数目增加,如以分贝(dB)指定的信噪比(SNR)增加。SNR增加可允许V-向量译码单元52为相对大的目标位率41选择较多位且为相对小的目标位率41选择较少位。

图20A及20B为根据本发明的说明“仅PVQ模式”及“仅VQ模式”的比较实例性能特性的表格。图20A及20B中所示的表格含有位行及信噪比(SNR)行。在图20A及20B的实例中,“位”行可指示用以表示每一输入V-向量的经量化的权重值(例如,经量化的预测或非预测权重值)的位的数目。

在图20A的实例中,假定模式位并未在选择位中单独传信(即,假定CodebkIdx语法元素并不需要包含可表示模式位的额外位来单独识别预测向量量化模式),为权重值的位长度中的每一者提供SNR值,实情为,表示量化模式的NbitsQ语法元素可通过(作为一项实例)指定如关于替代语法表所描述的先前保留的为3的值(或任何其它保留值)来单独指示预测向量量化。用以表示图20B中的输入V-向量的经量化的权重值的位的数目可包含模式位,所述模式位指示是否执行预测或非预测向量量化以量化输入V-向量。在用以表示经量化的权重值的位包含模式位的条件下,并未指定1个位的SNR,因为需要两个或两个以上位,即,一个位用于每一权重且一个位用于模式位。

图20A及20B的实例中的位可指示量化码簿中的多个量化向量中的哪一者对应于经量化的权重值。因此,在一些实例中,位行可取决于经选择以表示V-向量的权重值的数目(即,Y)或取决于用以执行向量量化的量化码簿中的向量的大小。

SNR行指示与使用切换式预测量化模式以对应位率量化权重值的样本分布相关联的SNR。如图20A及20B中所示,用于位率为1的SNR行并不适用(N/A),因为位率为1将顾及模式位或指示量化向量的位而非所述两者。因此,相较于单独使用非预测或预测向量量化模式中的任一者,切换式预测向量量化模式将额外负荷的额外位添加至量化码字。

下表说明根据本发明的“仅PVQ模式”、“仅VQ模式”及“启用SPVQ的模式”的比较实例性能特性。下文所示的表格含有位行、向量量化(VQ)行(仅VQ模式)、预测向量量化(PVQ)行(仅PVQ模式)及切换式预测向量量化(SPVQ)行(启用SPVQ的模式)。可存在用于仅VQ模式、仅PVQ模式及仅SPVQ模式(切换)的专用NbitsQ语法元素值以执行不同类型的量化向量量化模式,性能(以dB为单元)于下表中捕获。

VQPVQSPVQ118.4217.8020.26220.0218.9721.58321.4219.9022.72422.7120.9223.84523.9421.8224.90625.1322.7725.97726.3223.6827.03827.4724.6428.08928.6925.6929.221030.0026.8730.47

在上文所示的此替代表格中,启用SPVQ的模式超过用于经量化权重值的每一位长度下的仅VQ模式(例如,非预测VQ)。

在实例表格中,“位”行可指示用以表示每一输入V-向量的经量化的权重值(例如,经量化的预测或非预测权重值)的位的数目。用以表示用于启用SPVQ的模式的经量化的权重值的位的数目可包含模式位,而用以表示用于其它模式的经量化的权重值的位的数目可不包含模式位。VQ行、PVQ行及SPVQ行指示与根据其相应向量量化模式以对应位率执行向量量化相关联的SNR。

启用SPVQ的模式提供在较低位表示下的较好表示(其可用于通过目标位率41指定的相对低的位率,所述位率允许每个经量化的权重值4个或更少的位)。仅VQ模式(其表示执行NPVQ而不启用SPVQ,意味着不允许切换至PVQ)提供在较高位率下的较好性能(其可用于通过目标位率41指定的相对高的位率,所述位率允许每个经量化的权重值5个或更多的位)。

尽管仅PVQ模式(其表示执行PVQ而不启用SPVQ,意味着不允许切换至NPVQ)并不提供在位分配层级中的任一者下的较好性能,但使用PVQ作为启用SPVQ的模式的部分可提供比仅单独使用VQ模式低的位率下的改良的性能。此外,当模式位不用于支持传信预测向量量化的专用NbitsQ语法元素值(诸如,为3的值)时,可将用于实例表格中所示的SPVQ的各种SNR量测向上移位。

在这方面,音频编码装置20可根据以下步骤操作。

步骤1.对于方向向量的给定集合,音频编码装置20可计算每一方向向量的加权值。

步骤2.音频编码装置20可选择N-最大值加权值{w_i},,及对应方向向量{o_i}。音频编码装置20可将索引{i}发射到解码器。在计算最大值中,音频编码装置20可使用绝对值(通过忽略正负号信息)。

步骤3.音频编码装置20可量化N-最大值加权值{w_i}以产生{w∧_i}。音频编码装置20可将{w∧_i}的量化索引发射到音频解码装置24。

步骤4.音频解码装置24可将经量化的V-向量合成为sum_i(w∧_i*o_i)。

在一些实例中,本发明的技术可提供性能的显著改良。举例来说,与使用纯量量化继的以霍夫曼译码相比,可获得近似85%的位率减少。举例来说,在一些实例中,纯量量化继的以霍夫曼译码可需要16.26kbps(每秒千位)的位率,而本发明的技术在一些实例中可能够以2.75kbsp的位率进行译码。

考虑使用来自码簿的X个代码向量(及X个对应权重)译码V-向量的实例。在一些实例中,位流产生单元42可产生位流21以使得通过3种类别的参数来表示每一V-向量:(1)X数目个索引,每一索引指向代码向量的码簿(例如,经正规化的方向向量的码簿)中的一特定向量;(2)与上述索引相配的对应(X)数目个权重;及(3)用于上述(X)数目个权重中的每一者的正负号位。在一些状况下,可使用又一向量量化(VQ)将X数目个权重进一步量化。

在此实例中用于确定权重的分解码簿可选自候选码簿的集合。举例来说,码簿可为8个不同码簿中的一者。这些码簿中的每一者可具有不同长度。因此,例如,不仅用以确定6阶HOA内容的权重的大小为49的码簿可给出使用8个不同大小的码簿中的任一者的选项,而且本发明的技术也可给出使用8个不同大小的码簿中的任一者的选项。

用于进行权重的VQ的量化码簿在一些实例中也可具有与用以确定权重的可能的分解码簿的数目相同的对应数目个可能的码簿。因此,在一些实例中,可能存在用于确定权重的可变量目个不同的码簿,及用于量化权重的可变量目个码簿。

在一些实例中,用以估计V-向量的权重的数目(即,经选择用于进行量化的权重的数目)可为可变的。举例来说,可设置阈值误差准则,且经选择用于量化的权重的数目(X)可取决于达到误差临限制,其中误差阈值描述于上文。

在一些实例中,可在位流中传信上文所提及的概念中的一或多者。考虑以下实例:用以译码V-向量的权重的最大数目经设置为128个权重,且使用8个不同的量化码簿来量化权重。在此实例中,位流产生单元42可产生位流21以使得位流21中的存取帧单元指示可基于逐个帧使用的索引的最大数目。在此实例中,索引的最大数目为自0至128的数目,因此上文所提及的数据可消耗存取帧单元中的7个位。

在上文所提及的实例中,在逐个帧的基础上,位流产生单元42可产生位流21以包含指示以下情形的数据:(1)使用8个不同码簿中的哪一者来进行VQ(对于每个V-向量);及(2)用以译码每一V-向量的索引的实际数目(X)。在此实例中,指示使用8个不同码簿中的哪一者来进行VQ的数据可消耗3个位。指示用以译码每一V-向量的索引的实际数目(X)的数据可通过存取帧单元中所指定的索引的最大数目给定。在此实例中,此数目可从0个位至7个位变化。

在一些实例中,位流产生单元42可产生位流21以包含以下各者:(1)指示选择及发射哪些方向向量的索引(根据所计算的加权值);及(2)用于每一所选择的方向向量的加权值。在一些实例中,本发明可提供用于对经正规化的球谐代码向量的码簿使用分解而进行V-向量的量化的技术,即,音量代码向量为正规正交的。

在一些实例中,PVQ单元540可包含码簿训练阶段,其可产生RCB 65B中的候选量化向量。在码簿训练阶段期间,可用以下方程式替换用于产生图8A至8H的实例中所示的预测权重值的方程式:

ri,j=|ωi,j|-αji-1,j|

其中ri,j对应于来自第i个音频帧的权重值的有序子集的第j个权重值的预测权重值,其中ωi,j对应于来自第i个音频帧的权重值的有序子集的第j个权重值,ωi-1,j对应于来自第(i-1)个音频帧的权重值的有序子集的第j个权重值,αj对应于来自权重值的有序子集的第j个权重值的加权因数。换句话说,预测向量量化单元540可使用以上再生的方程式以在训练阶段期间产生RCB>

在另外的实例中,预测向量量化单元540可包含编码阶段。在编码阶段中,音频编码装置20和/或预测向量量化单元540可使用图8中所示的用于预测权重值620的方程式。举例来说,在编码阶段中,音频编码装置20和/或预测向量量化单元540可通过利用RCB 65B将差(即,预测权重值)量化为预测向量量化单元540可将用于的对应索引发射到解码器。

在另外的实例中,音频编码装置20(例如,借助于预测向量量化单元540)及音频解码装置24可实施解码阶段。在解码阶段中,音频编码装置20及音频解码装置24可使用发射的索引重构建经量化的预测权重值音频编码装置20(例如,此外借助于预测向量量化单元540)及音频解码装置24可基于以下方程式重构建|ωi,j|的经量化版本:音频编码装置20及音频解码装置24可使用经重构建的作为下一时间区段(例如,帧或子帧)中的因此,可为前一时间区段(例如,帧或子帧)的的经量化版本。

在这些及其它情况下,音频编码装置20和/或预测向量量化单元540经配置以基于对应于代码向量的一或多个加权总和中所包含的权重的多个权重值确定多个预测权重值,所述代码向量表示多个高阶立体混响声(HOA)系数的基于向量的合成版本中所包含的一或多个向量。在一些实例中,预测权重值可替代地被称为(例如)残余、预测残余、残余权重值、权重值差、误差值、残余权重误差或预测误差。

可关于任何数目个不同上下文及音频生态系统执行前述技术中的任一者。一实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频主体、游戏音频译码/呈现引擎,及递送系统。

电影工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可诸如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可诸如通过使用DAW输出基于信道的音频内容(例如,呈2.0及5.1)。在任一状况下,译码引擎可基于一或多个编码解码器(例如,AAC、AC3、Dolby True HD、Delby Digital Plus及DTS Master Audio)接收并编码基于信道的音频内容以供由递送系统输出。游戏音频工作室可诸如通过使用DAW输出一或多个游戏音频主体。游戏音频译码/呈现引擎可译码音频主体及或将音频主体呈现为基于信道的音频内容以供由递送系统输出。可执行所述技术的另一实例上下文包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上捕获、HOA音频格式、装置上呈现、消费型音频、TV及附件,及汽车音频系统。

广播记录音频对象、专业音频系统及消费型装置上捕获皆可使用HOA音频格式译码其输出。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上呈现、消费型音频、TV及附件及汽车音频系统播放所述单一表示。换句话说,可在通用音频播放系统(即,与需要诸如5.1、7.1等的特定配置的情形相反)(诸如,音频播放系统16)处播放音频内容的单一表示。

可执行所述技术的上下文的其它实例包含音频生态系统,其可包含获取元件及播放元件。获取元件可包含有线和/或无线获取装置(例如,Eigen麦克风)、装置上环绕声捕获及移动装置(例如,智能手机及平板计算机)。在一些实例中,有线和/或无线获取装置可经由有线和/或无线通信信道耦合到移动装置。

根据本发明的一或多个技术,移动装置可用以获取声场。举例来说,移动装置可经由有线和/或无线获取装置和/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由播放元件中的一或多者播放。举例来说,移动装置的用户可记录实况事件(例如,集会、会议、戏剧、音乐会等)(获取其声场)且将记录译码为HOA系数。

移动装置也可利用播放元件中的一或多者来播放HOA经译码声场。举例来说,移动装置可解码HOA经译码声场,且将使得播放元件中的一或多者重创建声场的信号输出到播放元件中的一或多者。作为一项实例,移动装置可利用无线和/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可利用衔接解决方案将信号输出到一或多个衔接台和/或一或多个衔接的扬声器(例如,智能汽车和/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机呈现将信号输出到一组头戴式耳机(例如)以创建实际的双耳声音。

在一些实例中,特定移动装置可获取3D声场并且在稍后时间播放相同或类似的3D声场。在一些实例中,移动装置可获取3D声场,将所述3D声场编码为HOA,且将经编码3D声场发射到一或多个其它装置(例如,其它移动装置和/或其它非移动装置)以用于播放。

可执行所述技术的又一上下文包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、呈现引擎及递送系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含HOA外挂程序和/或可经配置以与一或多个游戏音频系统一起操作(例如,工作)的工具。在一些实例中,游戏工作室可输出支持HOA的新主体格式。在任何状况下,游戏工作室可将经译码音频内容输出到呈现引擎,所述呈现引擎可呈现声场以供由递送系统播放。

也可关于示范性音频获取装置执行所述技术。举例来说,可关于Eigen麦克风(或诸如与麦克风阵列5相关联的其它类型的麦克风阵列)执行所述技术,所述Eigen麦克风可包含共同经配置以记录3D声场的多个麦克风。在一些实例中,Eigen麦克风的所述多个麦克风可位于具有近似4cm的半径的基本上球面球的表面上。在一些实例中,音频编码装置20可集成到Eigen麦克风中以便直接从麦克风输出位流21。

另一示范性音频获取上下文可包含可经配置以接收来自一或多个麦克风(诸如,一或多个Eigen麦克风)的信号的制作车。制作车也可包含音频编码器,诸如图3的音频编码装置20。

在一些情况下,移动装置也可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以关于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置也可包含音频编码器,诸如图3的音频编码装置20。

加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接至参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话,等等)的3D声场。

也可关于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,Eigen麦克风可附接至上述的移动装置以形成附件增强型移动装置。以此方式,与仅使用与附件增强型移动装置成一体式的声音捕获组件的情形相比较,附件增强型移动装置可捕获3D声场的较高质量版本。

下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频播放装置。根据本发明的一或多个技术,扬声器和/或声棒可布置于任何任意配置中,同时仍播放3D声场。此外,在一些实例中,头戴式耳机播放装置可经由有线或无线连接耦合到音频解码装置24。根据本发明的一或多个技术,基于解码位流(其基于使用高阶立体混响声的向量分解架构)的声场的表示可用于呈现扬声器、声棒及头戴式耳机播放装置的任何组合上的声场。

数个不同实例音频播放环境也可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器播放环境、2.0(例如,立体声)扬声器播放环境、具有全高前扩音器的9.1扬声器播放环境、22.2扬声器播放环境、16.0扬声器播放环境、汽车扬声器播放环境,及具有耳挂式耳机播放环境的移动装置。

根据本发明的一或多个技术,基于解码位流(其基于使用高阶立体混响声的向量分解架构)的声场的表示可用于呈现前述播放环境中的任一者上的声场。另外,本发明的技术使得呈现器能够基于解码位流(其基于使用高阶立体混响声的向量分解架构)的声场的表示以用于在除上文所描述的播放环境的外的播放环境上播放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器播放环境的恰当置放(例如,如果不可能置放右环绕扬声器),则本发明的技术使得呈现器能够通过其它6个扬声器而进行补偿,使得可在6.1扬声器播放环境上实现播放。

此外,用户可在佩戴头戴式耳机时观看运动比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个Eigen麦克风置放于棒球场中和/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数发射到解码器,所述解码器可基于HOA系数重构建3D声场且将经重构建的3D声场输出到呈现器,所述呈现器可获得关于播放环境的类型(例如,头戴式耳机)的指示,且将经重构建的3D声场呈现成使得头戴式耳机输出运动比赛的3D声场的表示的信号。

在上文所描述的各种情况中的每一者中,应理解,音频编码装置20可执行一方法或另外包括用以执行音频编码装置20经配置以执行的方法的每一步骤的装置。举例来说,音频编码装置20的局部权重解码器单元524A至524B可执行基于存储器的向量量化技术中的各种方面。作为另一实例,音频编码装置20的切换式预测向量量化单元560也可执行本发明中所描述的技术的切换式向量量化方面的各种方面。

在一些情况下,装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非临时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例集合中的每一者中的技术的各种方面可提供非临时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在执行时使得一或多个处理器执行音频编码装置20已经配置以执行的方法。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,则所述功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体进行发射,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于诸如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行一方法或另外包括用以执行音频解码装置24经配置以执行的方法的每一步骤的装置。举例来说,音频解码装置24的局部权重解码器单元524A至524B可执行基于存储器的向量量化技术中的各种方面。作为另一实例,音频解码装置24的切换式预测向量量化单元760也可执行本发明中所描述的技术的切换式向量量化方面的各种方面。

在一些情况下,装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非临时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例集合中的每一者中的技术的各种方面可提供非临时性计算机可读存储媒体,其具有存储于其上的指令,所述指令在执行时使得一或多个处理器执行音频解码装置24已经配置以执行的方法。

借助于实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储装置或其它磁性存储装置、快闪存储器或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它临时性媒体,而取而代之,是针对非临时性有形存储媒体。如本文所使用,磁盘及光盘包含光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及Blu-ray光盘,其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各者的组合也应包括括于计算机可读媒体的范围内。

可通过诸如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路的一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供于经配置用于编码及解码的专用硬件和/或软件模块内,或合并到组合式编码解码器中。此外,所述技术可充分实施于一或多个电路或逻辑元件中。

本发明的技术可在广泛多种的装置或设备中实施,所述装置或设备包含无线手机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面,但未必要求由不同硬件单元来实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合于编码解码器硬件单元中或由互操作性硬件单元的集合提供,所述硬件单元包含如上文所描述的一或多个处理器。

已描述所述技术的各种方面。所述技术的这些及其它方面在以下权利要求书的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号