首页> 中国专利> 基于空间感知熵判决的空间参数选取方法及其装置

基于空间感知熵判决的空间参数选取方法及其装置

摘要

本发明提出了基于空间感知熵判决的空间参数选取方法及其装置,通过比较相邻频带空间参数临界感知阈值大小进行空间参数的预选取,并以实际信号的空间感知熵及其波动度的大小对预选取结果进行修正,实现低复杂度高效的空间参数选取。本发明能够优化空间参数选取,实现高效的空间音频编码。

著录项

  • 公开/公告号CN101499280A

    专利类型发明专利

  • 公开/公告日2009-08-05

    原文格式PDF

  • 申请/专利权人 武汉大学;

    申请/专利号CN200910061028.5

  • 申请日2009-03-09

  • 分类号G10L19/00;G10L19/02;

  • 代理机构武汉天力专利事务所;

  • 代理人严彦

  • 地址 430072 湖北省武汉市武昌珞珈山

  • 入库时间 2023-12-17 22:27:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-27

    未缴年费专利权终止 IPC(主分类):G10L19/00 授权公告日:20111102 终止日期:20150309 申请日:20090309

    专利权的终止

  • 2011-11-02

    授权

    授权

  • 2009-09-30

    实质审查的生效

    实质审查的生效

  • 2009-08-05

    公开

    公开

说明书

技术领域

本发明涉及空间音频编码领域,尤其是涉及基于空间感知熵判决的空间参数选取方法及其装置。

背景技术

声音的主观属性,如强度、音调、音色等属于单耳属性;声音的空间属性,如对声音的定位(方向和距离)以及对环境的声学空间特性感知等属于双耳属性。人类通过双耳听音可获得的空间信息主要是指声源的空间位置,包括距离、水平偏向角和高度角等线索。空间心理声学研究结果表明,声源产生的直达声波经头部等的绕射后到达双耳,产生双耳时间差(Interaural Time Difference,以下简称ITD)和双耳声强差(Interaural Level Difference,以下简称ILD)。听觉系统利用ITD和ILD可以定位声源的水平方位。另一空间参数耳间相关度(Interaural Correlation,以下简称IC)表示左右耳入声相似度,用以确定声源的声场宽度。

在信息论中,香农熵被用来作为信息的量度。1988年,Johnston在香农熵的基础上提出感知熵(Perceptual Entropy,以下简称PE),作为可感知音频信号信息的量度,也就是说,在无可感知失真的前提下最少需要多少比特才能表示一个音频序列。现有主流的感知音频编码系统将PE作为一项重要的心理声学指标,如MP3和AAC编码器。空间信息即人耳感知声场效果的空间参数,存在感知上的冗余,有待熵值的指导将其去除。然而它的意义已经超出了感知熵的范畴,亟需一个全新的熵来表述可感知的空间信息量,用于指导空间信息的编码。

空间感知熵SPE(Spatial Perceptual Entropy,以下简称SPE),代表一个多声道音频信号中可以被感知到的空间信息量的大小。空间感知熵的提出在利用参数进行声源定位的基础上,解决了估算空间参数所蕴含的感知信息量大小的问题。它以空间感知信息度量模型为基础,结合输入信号本身特性,定量描述多声道音频信号中可被人耳辨识的空间信息,成为指导空间音频编码的又一有效工具。

然而当前对空间参数选取方法的研究通常以经典的双工理论为指导,即由于ITD和ILD分别在低频和高频时起主要作用。编码系统实际应用中,在频率小于1kHz的频段提取ITD,而在频率大于1.5kHz的频段提取ILD。这种单一的空间参数选取方法,将各空间参数割裂开来提取,既忽略了空间参数在全频带内的临界感知特性,又没有依据实际信号中空间参数空间信息量的差异,选取携带空间信息较大的空间参数进行音频编码,存在空间参数间的主观冗余,限制了多声道音频编码效率的进一步提高。

发明内容

本发明提出了基于空间感知熵判决的空间参数选取方法及其装置,目的在于指导空间音频编码,有效去除空间参数选取方法中存在的主观冗余。

本发明提供了一种基于空间感知熵判决的空间参数选取方法,包括以下步骤:

步骤1,进行空间参数预选取,包括以下三个步骤,

步骤1.1,依据每个空间参数在各频带内临界感知阈值的波动情况,进行单个空间参数的独立频带分组;

步骤1.2,在单个空间参数的独立频带分组基础上进行所有空间参数的联合频带分组,对每个空间参数在联合频带分组内是否选取分别进行预判决;

步骤1.3,综合对所有空间参数的预判决结果得到空间参数预选取方案;

步骤2,对每帧输入信号进行时频变换和频带划分,提取各空间参数,计算各空间参数的空间感知熵及其熵波动度;

步骤3,将步骤2中每个空间参数的空间感知熵分别与其对应的阈值进行比较,根据比较结果针对每帧输入信号进行空间参数选取方案调整,

若空间感知熵大于0且在极大门限maxα以下,比较每帧输入信号的不同空间参数的空间感知熵及其熵波动度,如果熵波动度最大且空间感知熵不为最小,全频带上都进行该空间参数的选取;否则,全频带上保留步骤1所得的空间参数预选取方案;

若空间感知熵小于0,全频带上都不进行该空间参数的选取;

若空间感知熵在极大门限maxα以上,全频带上都进行该空间参数的选取。

而且,在步骤1.1中,进行单个空间参数的独立频带分组具体方式为,首先以单个空间参数在各频带内的临界感知阈值为分析对象,比较相邻频带的临界感知阈值,将数值相近的临界感知阈值归为一组,从而完成单个空间参数的独立频带分组;

在步骤1.2中,取每个空间参数的独立频带分组的分组边界作为所有空间参数的联合频带分组的分组边界,根据联合频带分组的分组边界完成联合频带分组;对每个空间参数在联合频带分组内是否选取分别进行预判决的具体方式为,比较单个空间参数在组间的临界感知阈值大小,对临界感知阈值较小的组的空间参数予以选取,否则不予选取。

而且,在步骤2中,计算当前帧的熵波动度时,参考当前帧的空间感知熵和之前帧的空间感知熵。

而且,在步骤3中空间感知熵大于0且在极大门限maxα以下时,首先比较步骤2所得各空间参数的熵波动度,选取熵波动度最大的空间参数;然后比较各空间参数的空间感知熵,若熵波动度最大的空间参数的空间感知熵不为最小,则全频带上都进行该空间参数的选取,否则全频带上保留步骤1所得的空间参数预选取方案。

本发明还提供了相应的空间参数选取装置,包括有空间参数预选取模块、空间感知熵及熵波动度计算模块、空间感知熵判决模块和空间参数选取调整模块;

所述空间参数预选取模块包括顺序相连的独立频带分组单元、联合频带分组单元和选取预判决单元;

所述空间感知熵及熵波动度计算模块包括时频变换单元、频带划分单元、空间参数提取单元、频带SPE计算单元、分帧SPE计算单元和波动度计算单元,时频变换单元、频带划分单元、空间参数提取单元和频带SPE计算单元依次连接,频带SPE计算单元的输出分别与分帧SPE计算单元和波动度计算单元相连;

所述空间感知熵判决模块包括阈值判决单元和波动度判决单元,分帧SPE计算单元的输出进入阈值判决单元,分帧SPE计算单元、波动度计算单元和阈值判决单元的输出进入波动度判决单元;

所述空间感知熵判决模块和空间参数预选取模块的输出接入空间参数选取调整模块。

本发明依据空间参数在各频带内临界感知阈值(Just Noticeable Difference,以下简称JND)的差异,制定空间参数的预选取方案,估算空间参数各帧信号内空间感知熵的大小和变化,追加选取携带较多空间信息却被原选取方法忽略的空间参数,或剔除空间信息量很少以至于不被人耳感知的空间参数,优化空间参数选取,实现高效的空间音频编码。

附图说明

图1为本发明的频带分组方法示意图;

图2为本发明的空间参数预选取流程图;

图3为本发明的方法原理图;

图4为本发明实施例的频带分组实施过程示意图;

图5为本发明空间感知熵及熵波动度计算流程图;

图6为本发明基于空间感知熵判决的空间参数选取调整流程图。

具体实施方式

本发明空间参数选取方法的技术方案包括以下步骤:

步骤1,进行空间参数预选取,包括以下步骤,

步骤1.1,依据每个空间参数在各频带内临界感知阈值的波动情况,进行单个空间参数的独立频带分组;

步骤1.2,在单个空间参数的独立频带分组基础上进行所有空间参数的联合频带分组,对每个空间参数在联合频带分组内是否选取分别进行预判决;

步骤1.3,综合对所有空间参数的预判决结果得到空间参数预选取方案。

本发明提供了进一步的空间参数预选取技术方案:首先以单个空间参数在各频带内的临界感知阈值为分析对象,比较相邻频带的临界感知阈值,将数值相近的临界感知阈值归为一组,从而完成单个空间参数的独立频带分组;取每个空间参数的独立频带分组的分组边界作为所有空间参数的联合频带分组的分组边界,根据联合频带分组的分组边界完成联合频带分组。参见图1,在一个空间参数的独立频带分组中的分组边界为a频带和b频带,另一个空间参数的独立频带分组中的分组边界为c频带,那么这两个空间参数的联合频带分组的分组边界为a频带、b频带和c频带。具体实施时,为了降低码率或复杂度,可以将联合频带分组中比较接近的相邻分组边界合并。

完成联合频带分组后,比较单个空间参数在组间的临界感知阈值大小,对临界感知阈值较小的组的空间参数予以选取,否则不予选取。由于不同空间参数的临界感知阈值的单位往往不同,不方便直接进行量化比较,具体实施时可以分别先按单个空间参数在组间的临界感知阈值大小,划分此空间参数在组间的选取优先级,临界感知阈值越小,优先级越高;然后综合所有空间参数的优先级,为每个组选取优先级高的空间参数,构成全频带上的空间参数预选取方案。因此有可能在全频带的某个分组上有一个以上空间参数被选取。具体如何根据临界感知阈值划分空间参数在组间的优先级,可以根据具体复杂度和码率要求设定,划分的级别越多复杂度和码率越高。

步骤2,对每帧输入信号进行时频变换和频带划分,提取各空间参数,计算各空间参数的空间感知熵及其熵波动度。具体实施时,频带划分方法可参考bark带划分规则。

空间感知熵可参考定义求取,属于现有技术,本发明提供实施时可采用的具体计算过程如下:

(1)计算第i帧信号中空间参数在频带b的空间感知熵spei(b),计算式如下:

spei(b)=μ·log(|α(b)Δα(b)|)               (公式1)

其中,i为帧数,b为频带标志,α表示选取的空间参数,α(b)为空间参数α在频带b的数值,Δα(b)为空间参数α在频带b的JND,μ为听觉感知的幅度压缩。

(2)计算空间参数第i帧的空间感知熵SPEi,计算式如下:

SPEi=1NΣb=1nspei(b)                    (公式2)

其中,b为频带标志,spei(b)为第i帧信号中空间参数在频带b的空间感知熵,N为变换的帧长,n为划分的频带数。

计算当前帧的熵波动度时,不仅用到当前帧的空间感知熵,而且用到之前帧的空间感知熵,这样可以准确反映空间感知熵的波动情况。具体实施时,可以采用多种方式,例如通过计算每帧信号与上一帧信号的空间感知熵的标准差表征当前帧的熵波动度,或者通过每帧信号与之前所有帧信号的空间感知熵的标准差计算当前帧的熵波动度。

步骤3,将步骤2中每个空间参数的空间感知熵分别与其对应的阈值进行比较,根据比较结果针对每帧输入信号进行空间参数选取方案调整,

若空间感知熵大于0且在极大门限maxα以下,比较每帧输入信号的不同空间参数的空间感知熵及其熵波动度,如果熵波动度最大且空间感知熵不为最小,全频带上都进行该空间参数的选取;否则,全频带上保留步骤1所得的空间参数预选取方案;

若空间感知熵小于0,全频带上都不进行该空间参数的选取;

若空间感知熵在极大门限maxα以上,全频带上都进行该空间参数的选取。

采用阈值判断方式,是为了能够挑选携带更多空间信息的空间参数。当空间感知熵小于0时,说明该空间参数不能被人耳感知且携带的信息量忽略不计,本身无关紧要,可以不予选取。当空间感知熵大于根据经验值设定的极大门限maxα时,充分说明了该空间参数的重要性,因此在全频带上都进行该空间参数的选取。

具体实施时在步骤3中空间感知熵大于0且在极大门限maxα以下时,处理可以从首先比较步骤2所得各空间参数的熵波动度,选取熵波动度最大的空间参数开始;然后比较各空间参数的空间感知熵。若熵波动度最大的空间参数的空间感知熵不为最小,则针对该空间参数调整步骤1的空间参数预选取方案;否则在全频带上保留步骤1所得的空间参数预选取方案,这包括熵波动度不为最大且空间感知熵最小、熵波动度不为最大且空间感知熵也不为最小两种情况。

本发明提供的空间参数选取方法可采用计算机软件技术实现,也可以采用模块化设计技术实现专用装置来进行空间参数选取工作。本发明提供的装置技术方案为:包括有空间参数预选取模块、空间感知熵及熵波动度计算模块、空间感知熵判决模块和空间参数选取调整模块;

所述空间参数预选取模块包括顺序相连的独立频带分组单元、联合频带分组单元和选取预判决单元,用于分别执行单个空间参数的独立频带分组、所有空间参数的联合频带分组单元、对每个空间参数在联合频带分组内是否选取分别进行预判决,可参见图2;

所述空间感知熵及熵波动度计算模块包括时频变换单元、频带划分单元、空间参数提取单元、频带SPE计算单元、分帧SPE计算单元和波动度计算单元,时频变换单元、频带划分单元、空间参数提取单元和频带SPE计算单元依次连接,频带SPE计算单元的输出分别与分帧SPE计算单元和波动度计算单元相连;

所述空间感知熵判决模块包括阈值判决单元和波动度判决单元,分帧SPE计算单元的输出进入阈值判决单元,分帧SPE计算单元、波动度计算单元和阈值判决单元的输出进入波动度判决单元;

所述空间感知熵判决模块和空间参数预选取模块的输出接入空间参数选取调整模块。

参见图3,本发明提供的基于空间感知熵判决的空间参数选取方法,实现原理就是进行空间参数预选取,然后进行SPE及其波动度计算、根据SPE及其波动度进行SPE判决,最后根据判决结果在空间参数预选取基础上进行空间参数选取调整,得到优化的空间参数选取结果。作为可以软件实现的技术方案,除了这种基本流程,本发明提供的空间参数选取方法还可以采用多种流程实现,例如先进行SPE及其波动度计算、根据SPE及其波动度进行SPE判决,然后进行空间参数预选取后根据判决结果进行空间参数选取调整。以下提供一个实施例,将具体参数调整过程作为可以被调用的步骤,更符合软件设计习惯,是本发明的空间参数选取方法具体实施时的一种优选方案,也应当在本发明所要求的保护范围内。该方案从双耳线索ILD/ITD/IC中选取空间参数,包括以下步骤:

步骤一、采用巴克(BARK)带划分方法将全频带划分为24个频带,依据空间参数ILD/ITD/IC在全频带的JND曲线得到空间参数的预选取方案。具体实施方式为:

(1)以单个空间参数的JND为分析对象,比较相邻频带的JND,将数值相近的JND归为一组。如图4所示,依据ILD的JND曲线,以频带10、频带15、频带19为分组边界,将全频带分为4组。采用同样方法,针对ITD的JND曲线,以频带2、频带18、频带29为分组边界,将全频带划分为4组;针对IC的JND曲线,以频带2、频带10、频带16、频带20为分组边界,将全频带划分为5组,该步骤可由独立频带分组单元实现。

(2)取独立频带分组中ILD/ITD/IC的分组边界,即频带2、频带10、频带15、频带16、频带18、频带19和频带20,作为空间参数联合频带分组的分组边界,完成空间参数联合频带分组。本步骤中,若编解码系统要求复杂程度低或可用码率较小,可在上述空间参数联合频带分组的基础上合并相近的分组边界,减少分组个数和每组内的参数选取个数。该步骤可由联合频带分组单元实现。

(3)在此基础上,比较每个空间参数ILD/ITD/IC在组间的JND大小,JND较小的空间参数在该组内予以选取,否则不予选取。该步骤可由选取预判决单元实现。

步骤二、参见图5,对于采样后特定的输入信号,以N个样点为一帧做N点FFT变换,可由时频变换单元实现。将当前帧信号如第i帧信号划分为24个巴克带,i为帧标号,可由频带划分单元实现。之后具体可分为以下四步:

(1)根据FFT变换后的子带信号进行空间参数ILD/ITD/IC的计算,可由空间参数提取单元实现。

ILD按下面的式子衡量:

ILDi(b)=20log10Σk=kbkb+1-1|Xl(k)|2Σk=kbkb+1-1|Xr(k)|2             (公式3)

其中b是巴克带标号,kb和kb+1分别是巴克带b和b+1的起始FFT谱线标号,Xl(k)和Xr(k)分别表示左右声道第k条FFT谱线。ILD即左右声道对应临界带频谱能量比,以dB为单位。

ITD按下面的式子衡量:

ITDi(b)=1kb+1-kbΣk=kbkb+1-1(argXl(k+1)-argXl(k))  (公式4)

-1kb+1-kbΣk=kbkb+1-1(argXr(k+1)-argXr(k))

其中arg表示取复数的幅角主值。ITD即左右声道临界带群延时差。

IC按下面的式子衡量:

ICi(b)=|Re{Σk=kbkb+1-1Xl(k)Xr*(k)}|Σk=kbkb+1-1|Xl(k)|2Σk=kbkb+1-1|Xr(k)|2           (公式5)

其中Re表示取复数的实部。

(2)分频带估算空间参数ILD/ITD/IC的空间感知熵SPE的值,可由频带SPE计算单元实现。

具体地,ILD在巴克带b内的spe值按下面的式子衡量:

            (公式6)

ITD在巴克带b内的spe值按下面的式子衡量:

           (公式7)

IC在巴克带b内的spe值按下面的式子衡量:

                  (公式8)

其中ILDi(b)、ITDi(b)和ICi(b)分别表示ILD/ITD/IC在第i帧信号频带b的参数值,Δτ(b)/Δλ(b)/Δη(b)分别是ILD/ITD/IC在频带b的JND,通过听音测试确定。α反映听觉感知的幅度压缩,一般取0.6。log可以任何自然数为底。通常计算机默认以2为底。

(3)分别计算信号输入信号中空间参数ILD/ITD/IC在第i帧内的SPE,用该帧内平均每个采样点的可感知空间信息量表征,单位为bit/样本。可用分帧SPE计算单元实现。

具体地,ILD在第i帧内的SPE值按下面的式子衡量:

SPEILD(i)=1NΣb=124speILD(b)                      (公式9)

ITD在第i帧内的SPE值按下面的式子衡量:

SPEITD(i)=1NΣb=124speITD(b)                      (公式10)

IC在第i帧内的SPE值按下面的式子衡量:

SPEID(i)=1NΣb=124speID(b)                        (公式11)

其中,N是FFT变换的帧长。

(4)计算第i帧信号中空间参数ILD/ITD/IC的SPE的熵波动度。实施例中,该波动度不仅与当前帧的SPE相关,且与之前所有帧的SPE相关,可由波动度计算单元实现。

具体地,采用以下计算公式:

σα=Σb=1n(spei(b)-E(spek))2,k=1,2,...,i          (公式12)

其中,α表示选取的空间参数ILD/ITD/IC,σα(i)表示第i帧信号参数α的SPE的累计标准差,spei(b)为空间参数在第i帧频带b的空间感知熵,E(spek)为前i帧信号空间感知熵的数学期望值。

结合图6,对步骤三和步骤四做进一步的说明,其中判断部分由阈值判决单元和波动度判决单元分别实现,具体调整由空间参数选取调整模块完成:

步骤三、将步骤二中空间参数ILD/ITD/IC的SPEILD(i)、SPEITD(i)和SPEIC(i)分别与其对应的阈值进行比较。若SPEα大于0且在极大门限maxα以下,转入步骤四进行SPE波动度判决;若SPEα小于0,转入步骤五进行空间参数选取方案调整;若SPEα在极大门限maxα以上,转入步骤六进行空间参数选取方案调整。其中,α表示选取的空间参数ILD/ITD/IC,具体实施时,各空间参数ILD、ITD、IC各自的极大门限maxα可分别设置。

步骤四、比较步骤二中空间参数ILD/ITD/IC的波动度σILD(i)、σITD(i)和σIC(i),确定SPE波动最大的参数,记为ασmax,其为ILD/ITD/IC中某一参数;比较步骤二中空间参数ILD/ITD/IC的SPEILD(i)、SPEITD(i)和SPEIC(i),确定SPE最小的参数,记为αSPEmin。若ασmax≠αSPEmin,则转入步骤六,进行空间参数选取方案调整;反之,转入步骤七。

步骤五、在第i帧全频带上都不进行该空间参数的选取。

步骤六、在第i帧全频带上都进行该空间参数的选取。

步骤七、在第i帧全频带上保留步骤一的空间参数预选取方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号