首页> 中国专利> 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法

语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法

摘要

抑制扩展频带的音质的劣化,并且降低对扩展频带的频谱的编码分配的编码比特量。频带压缩单元(105)在频带压缩对象子带中,建立将子带频谱从低频侧起按顺序以各自2样本作为组的组合,选择各组合中绝对值振幅大的频谱,将选择出的频谱在频率轴上靠紧配置在低频侧。单元数重新计算单元(106)将在进行了频带压缩的子带中节省的比特重新分配给扩展频带外的低频,基于重新分配的比特,重新分配单元数。

著录项

  • 公开/公告号CN104737227A

    专利类型发明专利

  • 公开/公告日2015-06-24

    原文格式PDF

  • 申请/专利权人 松下电器(美国)知识产权公司;

    申请/专利号CN201380050272.6

  • 发明设计人 河岛拓也;押切正浩;

    申请日2013-11-01

  • 分类号

  • 代理机构北京市柳沈律师事务所;

  • 代理人邸万奎

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 09:38:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-10

    授权

    授权

  • 2015-07-22

    实质审查的生效 IPC(主分类):G10L19/032 申请日:20131101

    实质审查的生效

  • 2015-06-24

    公开

    公开

说明书

技术领域

本发明涉及使用了变换编码方式的语音音响编码装置、语音音响解码装 置、语音音响编码方法及语音音响解码方法。

背景技术

作为能够高效率地编码0.05-14kHz频带的超宽频带(SWB: Super-Wide-Band)的语音信号或音乐信号的方式,有按ITU-T(International  Telecommunication Union Telecommunication Standardization Sector;国际电信 联盟电信标准化部门)标准化的非专利文献1及非专利文献2中记载的技术。 在这些技术中,将7kHz为止的频带在核心编码单元中编码,将7kHz以上的 频带(以下,称为“扩展频带”)在扩展编码单元中编码。

在核心编码单元中,使用码激励线性预测(CELP:Code Excited Linear  Prediction)进行编码,在将CELP中不能编码的剩余信号用MDCT(Modified  Discrete Cosine Transform;改进离散余弦变换)变换到频域后,以称为FPC (Factorial Pulse Coding;阶乘脉冲编码)或AVQ(Algebraic Vector  Quantization;代数矢量量化)的变换编码进行编码。在扩展编码单元中,在 7kHz以上的扩展频带中,搜索与7kHz为止的低频的频谱之间相关较高的频 带,将相关最高的频带使用在扩展频带的编码中利用的方法等进行编码。再 有,在非专利文献1及非专利文献2中,在7kHz为止的低频侧和7kHz以上 的高频侧,分别被预先确定编码比特数,以分别确定的编码比特数编码低频 侧和高频侧。

此外,在非专利文献3中,也公开了将SWB编码的方式已被ITU-T标 准化。在非专利文献3中记载的编码装置中,将输入信号通过MDCT变换到 频域,分割为子带,对每个子带进行编码。具体地说,该编码装置首先计算 各子带能量,并进行编码。接着,为了编码频率精细结构,基于子带能量, 对各子带分配用于编码频率精细结构的编码比特。频率精细结构使用格型矢 量量化(Lattice Vector Quantization)来编码。与FPC或AVQ同样,格型矢 量量化也是适合频谱的编码的一种变换编码。在格型矢量量化中,由于编码 比特未被充分地分配,所以有时解码过的频谱的能量和子带能量的误差较大。 这种情况下,通过进行将子带能量和解码频谱的能量的误差用噪声矢量填补 的处理,进行编码。

此外,在非专利文献4中,论述了基于AAC(Advanced Audio Coding; 高级音频编码)的编码技术。在AAC中,基于听觉模型计算掩蔽阈值,通过 将掩蔽阈值以下的MDCT系数从编码对象中除去,高效率地进行编码。

现有技术文献

非专利文献

非专利文献1:ITU-T Standard G.718AnnexB,2010年

非专利文献2:ITU-T Standard G.729.1AnnexE,2010年

非专利文献3:ITU-T Standard G.719,2008年

非专利文献4:MP3AND AAC explained,AES 17th International  Conference on High Quality Audio Coding,1999年

发明内容

发明要解决的问题

在非专利文献1及非专利文献2中,对核心编码单元编码的低频侧和扩 展编码单元编码的高频侧以固定方式分配比特,不能对低频和高频按照信号 的特性适当地分配编码比特。因此,存在因输入信号的特性而不能发挥充分 的性能的课题。

另一方面,在非专利文献3中,有按照子带能量从低频到高频自适应地 分配比特的机制,但着眼于高频越高,相对频谱的误差的灵敏度越低这样的 听觉特性,存在对高频容易分配需要以上的比特的课题。有关该课题在以下 说明。

在编码过程中,首先,计算各子带中需要的比特量,以使对每个子带计 算出的子带能量越大,分配越多的比特。但是,在变换编码中,在算法的性 质上,即使将编码比特分配增加1比特,编码能力也不会提高,有时如果不 分配一定程度汇集的比特数,编码结果就不改变。因此,如果不是以比特单 位,而是以这样汇集的比特数的单位进行比特的分配,则是便利的。将这样 的编码上需要的比特数的单位在这里称为单元。分配的单元(unit)数越多, 能够越正确地表现频谱的形状及振幅。再有,考虑到听觉特性,高频的子带 与低频的子带相比,一般来说其带宽取得宽,但带宽越宽,1单元所需要的 比特量就越多,所以1单元的比特数随着带宽而改变。

在本发明所设想的变换编码中,将频谱用频率轴上的少数脉冲串近似, 所以在该脉冲串的振幅信息和位置信息上,消耗以单元单位分配的编码比特。

而且,在非专利文献4中,通过将听觉特性上不重要的MDCT系数从编 码对象中除去,而进行高效率地编码,要编码的各个频谱的位置信息被正确 地表现。因此,子带的带宽越宽,为了表现各个频谱的位置,必然消耗越多 的比特。

然而,高频越高,相对频谱的位置的听觉的灵敏度就变得越低,如果能 够表现主要的频谱振幅、子带能量,则难以感觉听感上的劣化。然而,在非 专利文献3及非专利文献4中,在高频中都消耗很多的比特,才准确地表现 各个频谱的位置。即,为了准确地表现频谱位置,存在使用需要以上的编码 比特的课题。

本发明的目的在于,提供在抑制扩展频带的音质的劣化的同时降低对扩 展频带的频谱的编码分配的编码比特量的语音音响编码装置、语音音响解码 装置、语音音响编码方法及语音音响解码方法。

解决问题的方案

本发明的语音音响编码装置采用以下结构,包括:时间频率变换单元, 将时域的输入信号变换为频域的频谱;分割单元,将所述频谱分割为子带; 频带压缩单元,在扩展频带内的子带中,将频谱从低频侧或高频侧起按顺序 分成各自多个样本的组合,选择各组合之中振幅的绝对值大的频谱,将选择 出的频谱在频率轴上靠紧配置而压缩该子带的频带;以及变换编码单元,将 比所述扩展频带低的低频的子带的频谱和频带压缩过的频谱通过变换编码进 行编码。

本发明的语音音响解码装置采用以下结构,包括:变换编码解码单元, 在扩展频带内的子带中,将频谱从低频侧或高频侧起按顺序分成各自多个样 本的组合,选择各组合之中振幅的绝对值大的频谱,将选择出的频谱在频率 轴上靠紧配置,从而将压缩了该子带的频带的频谱和比所述扩展频带低的低 频的子带的频谱,都通过变换编码所编码的编码数据解码;频带扩展单元, 将所述压缩的子带的带宽扩展到原来的子带的带宽;子带集中单元,将比解 码过的所述扩展频带低的低频的子带的频谱和扩展过的所述扩展频带内的子 带的频谱集中在一个矢量中;以及频率时间变换单元,将集中后的频域的频 谱变换为时域的信号。

本发明的语音音响编码方法,包括以下步骤:时间频率变换步骤,将时 域的输入信号变换为频域的频谱;分割步骤,将所述频谱分割为子带;频带 压缩步骤,将扩展频带内的子带的频谱从低频侧或高频侧起按顺序分成各自 多个样本的组合,选择各组合之中振幅的绝对值大的频谱,并将选择出的频 谱在频率轴上靠紧配置而压缩频带;以及变换编码步骤,将比所述扩展频带 低的低频的子带的频谱和频带压缩过的频谱,通过变换编码进行编码。

本发明的语音音响解码方法,包括:变换编码解码步骤,将扩展频带内 的子带的频谱从低频侧或高频侧起按顺序分成各自多个样本的组合,选择各 组合之中振幅的绝对值大的频谱,将选择出的频谱在频率轴上靠紧配置,从 而将压缩了频带的频谱和比所述扩展频带低的低频的子带的频谱,都通过变 换编码所编码的编码数据解码;频带扩展步骤,将经压缩的子带的带宽扩展 到原来的子带的带宽;子带集中步骤,将比经解码的所述扩展频带低的低频 的子带的频谱和经扩展的所述扩展频带内的子带的频谱集中在一个矢量中; 以及频率时间变换步骤,将集中后的频域的频谱变换为时域的信号。

发明的效果

根据本发明,在能够抑制扩展频带的音质的劣化的同时,并且能够降低 对扩展频带的频谱的编码分配的编码比特量。

附图说明

图1是表示本发明的实施方式1、3、5的语音音响编码装置的结构的框 图。

图2是用于说明频带压缩的图。

图3是用于说明单元数重新计算单元的动作的图。

图4是表示本发明的实施方式1、3、5的语音音响解码装置的结构的框 图。

图5是用于说明频带扩展的图。

图6是表示本发明的实施方式1的语音音响编码装置的另一结构的框图。

图7是表示本发明的实施方式1的语音音响解码装置的另一结构的框图。

图8是表示本发明的实施方式2的语音音响编码装置的结构的框图。

图9是表示本发明的实施方式2的语音音响解码装置的结构的框图。

图10是表示基于位置校正信息进行频带扩展的情况的图。

图11是表示本发明的实施方式4的语音音响编码装置的结构的框图。

图12是用于说明交织的图。

图13是表示本发明的实施方式4的语音音响解码装置的结构的框图。

图14是表示频带压缩的一例子的图。

图15是频带扩展的一例子的图。

图16是表示本发明的实施方式6的语音音响编码装置的结构的框图。

图17是表示不进行频带限定的变换编码的一例子的图。

图18是表示进行了频带限定的变换编码的一例子的图。

图19是表示本发明的实施方式6的语音音响解码装置的结构的框图。

具体实施方式

以下,参照附图详细地说明本发明的实施方式。其中,在实施方式中, 对具有相同功能的结构附加相同标号,省略重复的说明。

(实施方式1)

图1是表示本发明的实施方式1的语音音响编码装置100的结构的框图。 以下,使用图1,说明语音音响编码装置100的结构。

时间频率变换单元101获取输入信号,将获取的时域的输入信号变换到 频域,作为输入信号频谱输出到子带分割单元102。再有,在实施方式中, 作为时间频率变换,以MDCT为例进行说明,但也可以使用FFT(Fast Fourier  Transform;快速傅立叶变换)或DCT(Discrete Cosine Transform;离散余弦 变换)等的正交变换。

子带分割单元102将从时间频率变换单元101输出的输入信号频谱分割 为M个子带,将子带的频谱输出到子带能量计算单元103及频带压缩单元 105。一般地,考虑到人的听觉特性,进行不均匀分割,以使低频越低带宽越 窄,高频越高带宽越宽。在本说明中,也以此为前提进行说明。假设用W[n] 表示第n子带的子带长度,子带频谱矢量用Sn表示。在各Sn中,容纳W[n] 个频谱。此外,假设具有W[k-1]≤W[k]的关系。作为进行这样不均匀 分割的编码方式,有ITU-T G.719。G.719对采样率为48kHz的输入信号进行 时间频率变换。其后,将频谱在最低频中频率轴上对每8点分割为子带,在 最高频中对每32点分割为子带。再有,G.719是从32kbps到128kbps可使用 许多编码比特的编码方式,但为了实现进一步低比特速率,加长各子带的长 度是有用的,特别地认为高频越高,越加长子带长度的方式是有用的。

子带能量计算单元103根据从子带分割单元102输出的子带频谱,对每 个子带计算能量,将量化过的子带能量输出到单元数计算单元104,将编码 过子带能量的子带能量编码数据输出到复用单元108。这里,子带能量中, 假设将该子带中包含的频谱的能量用以2作为底的对数表示。将子带能量的 计算式表示为下式(1)。

E[n]=log2(Σi=1w[n](sn[n][i]*sn[n][i]))---(1)

其中,假设n表示子带号,E[n]表示子带n的子带能量,W[n]表示 子带n的子带长度,Sn[i]表示第n子带的第i频谱。再有,假设子带长度 被预先注册在子带能量计算单元103中。

单元数计算单元104基于从子带能量计算单元103输出的量化子带能量, 计算对子带分配的暂定的分配比特数,与算出的单元数一起输出到单元数重 新计算单元106。与子带能量计算单元103同样,假设子带长度被预先注册 在单元数计算单元104中。基本上,子带能量E[n]越大,编码比特分配得 越多。但是,编码比特按单元单位分配,每1单元的比特数依赖于子带长度。 因此,需要还包含其他子带中的比特分配来最佳地分配。再有,后面说明有 关单元数计算单元104的细节。

频带压缩单元105使用从子带分割单元102输出的子带频谱,将扩展频 带的各子带进行频带压缩,将包含低频侧的子带及上述经压缩的子带的子带 压缩频谱输出到变换编码单元107。频带压缩的目的在于,通过将主要的频 谱作为编码对象保留,并且删除频谱位置的信息,削减变换编码所需要的编 码比特。再有,后面说明有关频带压缩单元105的细节。

单元数重新计算单元106基于从单元数计算单元104输出的暂定的分配 比特数及单元数,将在进行了频带压缩的子带中削减的比特重新分配给扩展 频带外的低频。单元数重新计算单元106基于重新分配的比特,重新分配单 元数,将重新分配单元数输出到变换编码单元107。再有,后面说明有关单 元数重新计算单元106的细节。

变换编码单元107将从频带压缩单元105输出的子带压缩频谱通过变换 编码进行编码,将变换编码数据输出到复用单元108。作为变换编码方式, 例如使用FPC、AVQ、或LVQ这类的变换编码方式。在变换编码单元107 中,将输入的子带压缩频谱使用以从单元数重新计算单元106输出的重新分 配单元数所确定的编码比特进行编码。可以使重新分配单元数越多,就越增 加近似频谱的脉冲数,或使该脉冲的振幅值更为正确。是增加脉冲数,还是 提高该脉冲的振幅精度,以编码对象的输入频谱和解码后的频谱之间的变形 作为基准来确定。

复用单元108将从子带能量计算单元103输出的子带能量编码数据和从 变换编码单元107输出的变换编码数据进行复用并作为编码数据输出。

这里,列举具体例子说明有关图1所示的单元数计算单元104中的单元 数的分配方法。首先,单元数计算单元104基于从子带能量计算单元103输 出的子带能量,计算对各子带分配的比特数。以下,将算出的比特数称为暂 定的分配比特数。例如,在用于将频谱精细结构编码所提供的编码比特的总 量为320比特,在按式(1)计算后量化的各子带的子带能量的合计为160的 情况下,由于320/160=2.0,所以能够将各子带的能量乘以2.0所得的比特 数设为暂定的分配比特数。

接着,单元数计算单元104确定对各子带实际分配的比特(以下,称为 “分配比特数”),但在变换编码中按单元单位分配编码比特,所以无法将 暂定的分配比特数直接作为分配比特数。例如,在暂定的分配比特数为30, 1单元为7比特的情况下,若分配比特数为不超过暂定的分配比特数的比特 数,则单元数为4,分配比特数为28,相对于暂定的分配比特数,2比特为 剩余比特。

于是,对每个子带按顺序计算分配比特数时,在对于全部子带的计算结 束的时刻,有可能会发生编码比特过多与不足的问题。因此,需要在进行高 效率地分配编码比特上下工夫。例如,考虑通过将某一子带中产生的剩余比 特相加到下一个子带的暂定的分配比特数中,将比特不多不少地分配。

使用具体的例子进行说明。这里,为了简单,以仅编码近似频谱的脉冲 的位置信息的例子来说明,并且假设各自增加所编码的脉冲,简单地相加该 脉冲的位置信息部分。例如将子带长度设为32时,32在2的5次方以下, 所以要将子带内的所有频谱的位置作为编码对象,最低限度需要5比特。即, 该子带中的1单元为5比特。

若从子带的能量所计算的暂定的分配比特数为33,则所分配的单元数为 6,分配比特数为30,剩余比特为3比特。然而,若在前子带中产生了2比 特的剩余比特,则在该子带的暂定的分配比特数中相加前子带的2比特的剩 余比特,暂定的分配比特数为35。其结果,单元数为7,分配比特数为35。 即,剩余比特为0比特。通过依次在全部的子带中反复进行该过程,可进行 高效率的单元分配。

接着,说明有关图1所示的频带压缩单元105中的频带压缩方法。作为 频带压缩方法,这里,建立以从频带压缩对象子带的低频侧起按顺序各自2 样本的组合,保留各组合之中绝对值振幅较大的样本的情况为例子进行说明。

图2表示用于说明频带压缩的图。其中,在图2中,表示提取了扩展频 带中的频带压缩对象子带n的情况,假设子带长度为W(n),横轴表示频率, 纵轴是频谱的绝对值振幅。

图2(A)表示频带压缩前的子带频谱。在该例子中,频带压缩前的带宽 W(n)=8。频带压缩单元105建立将从子带分割单元102输出的子带频谱 从低频侧起按顺序各自2样本为组的组合,保留各组合之中绝对值振幅大的 频谱。在图2(A)的例子中,在位于第1和第2的频谱的组合之中选择第2 频谱,丢弃第1频谱。同样地,频带压缩单元105分别在第3和第4的组合、 第5和第6的组合、第7和第8的组合中选择较大一方的频谱。选择的结果, 如图2(B)所示,位于第2、第4、第5、第8的4个频谱被选择。

接着,频带压缩单元105将选择出的频谱进行频带压缩。通过将选择出 的频谱在频率轴上靠紧配置在低频侧,进行频带压缩。其结果,频带压缩子 带频谱用图2(C)表示,频带压缩后的带宽与压缩前相比为一半的带宽。再 有,若还考虑压缩前的带宽为奇数的情况,则频带压缩后的子带带宽W’(n) 能够通过以下的式(2)表示。

w’(n)=(int)(w(n)/2)+w(n)%2    (2)

在式(2)中,(int)表示舍去小数点以下取整数的函数,%表示计算余 数的算符。

于是,在扩展频带中的各频带压缩对象子带中,能够保留从低频侧起按 顺序各自2样本成组的各组合之中绝对值振幅大的频谱,并且使带宽为一半。

接着,说明有关图1所示的单元数重新计算单元106中的单元数重新计 算方法。在单元数重新计算单元106中,在计算分配比特数以使其接近暂定 的分配比特数方面,与单元数计算单元104是同样的,在频带压缩对象子带 中,维持单元数计算单元104中所算出的单元数,将频带压缩对象子带中削 减的比特重新分配给低频这方面是不同的。

为了将频带压缩对象子带中削减的比特重新分配给低频,单元数重新计 算单元106首先确定频带压缩对象子带的分配比特数。由于单元数固定,子 带长度通过频带压缩而减少,所以能够减少分配比特数。这里,以子带长度 因频带压缩而减少一半的情况为例子进行了说明,所以每1单元的比特数减 少1比特。在频带压缩对象子带的单元数的合计为10单元的情况下,能够削 减10比特。

通过将能够削减的比特相加在低频子带的暂定的分配比特数中,能够将 单元数较多地分配给低频子带。这里为了简单,假设将削减的比特相加在最 低频的子带的暂定的分配比特数中。其结果,在最低频的子带中暂定的分配 比特数增大,所以能够期待所分配的单元数增多。

之后,将该子带中产生的剩余比特依次相加在高频侧的子带的暂定的分 配比特数中,进行单元的重新分配。通过反复单元的重新分配直至紧接频带 压缩对象子带的子带,能够对频带压缩后的所有子带重新分配单元。

图3表示用于说明单元数重新计算单元106的动作的图。在图3中,最 上段(记载为“子带”的段)表示子带的分割图像。子带被分割为1到M, 假设子带1为最低频侧的子带,子带M为最高频侧的子带。此外,将子带1 到子带(kh-1)作为频带压缩对象外的低频侧的子带,将子带kh到M作为 频带压缩对象的子带。

此外,中段(记载为“单元数计算单元输出”的段)表示从单元数计算 单元104输出的单元数。假设单元数是由单元数计算单元104对于子带k分 配u(k)的单元数。

单元数重新计算单元106对于子带kh到子带M,直接使用由单元数计 算单元104算出的u(k)。因为即使在压缩了带宽后也维持近似频谱的脉冲 的个数。由此,在频带压缩子带中维持频谱近似能力,并且带宽被压缩,所 以能够削减编码比特,能够使该削减比特成为剩余比特。

在图3中,下段(记载为“单元数重新计算单元输出”的段)表示单元 数重新计算单元106的输出的图像。单元数重新计算单元106在子带kh到子 带M直接使用单元数计算单元104的输出,所以单元数一直为u(k)。单元 数重新计算单元106能够将剩余比特利用在低频侧的子带中,重新计算u’ (k)。由此,能够提高听感上重要的低频频谱的编码精度,所以能够提高整 体的音质。

再有,上述例子中,表示了将频带压缩子带中削减的比特全部相加在最 低频的子带的暂定的分配比特数中的例子,但也可以将削减的比特数均等地 分配给还未计算分配比特数的子带,与这些子带的暂定的分配比特数相加。 此外,也可以对子带能量大的子带更多地进行相加。此外,也可以不一定从 低频侧向高频侧以升序进行处理。

根据以上的结构,语音音响编码装置100通过将扩展频带的各子带进行 频带压缩而削减编码比特,将削减的编码比特作为剩余比特重新分配给低频, 从而能够提高音质。

图4是表示本发明的实施方式1的语音音响解码装置200的结构的框图。 由于不发送单元数或每1单元的比特数,所以需要在解码装置侧进行计算。 因此,与编码装置同样地,具有单元数计算单元和单元数重新计算单元。以 下,使用图4说明语音音响解码装置200的结构。

码分离单元201被输入编码数据,将输入的编码数据分离为子带能量编 码数据和变换编码数据,将子带能量编码数据输出到子带能量解码单元202, 将变换编码数据输出到变换编码解码单元205。

子带能量解码单元202将从码分离单元201输出的子带能量编码数据解 码,将通过解码得到的量化子带能量输出到单元数计算单元203。

单元数计算单元203使用从子带能量解码单元202输出的量化子带能量, 计算暂定的分配比特数和单元数,将算出的暂定的分配比特数和单元数输出 到单元数重新计算单元204。再有,单元数计算单元203与语音音响编码装 置100的单元数计算单元104相同,所以省略其细节的说明。

单元数重新计算单元204基于从单元数计算单元203输出的暂定的分配 比特数和单元数,计算重新分配单元数,将算出的重新分配单元数输出到变 换编码解码单元205。再有,单元数重新计算单元204与语音音响编码装置 100的单元数重新计算单元106相同,所以省略其细节的说明。

变换编码解码单元205基于从码分离单元201输出的变换编码数据、以 及从单元数重新计算单元204输出的重新分配单元数,将对每个子带解码的 结果作为子带压缩频谱输出到频带扩展单元206。变换编码解码单元205从 重新分配单元数获取编码上需要的编码比特数,将变换编码数据解码。

频带扩展单元206在从变换编码解码单元205输出的子带压缩频谱之中 的、频带压缩对象外的子带中,将子带压缩频谱直接作为子带频谱输出到子 带集中单元207。此外,频带扩展单元206在从变换编码解码单元205输出 的子带压缩频谱之中的、频带压缩对象子带中,将子带压缩频谱扩展到子带 长度的宽度,作为子带频谱输出到子带集中单元207。

在本实施方式中,在语音音响编码装置100的频带压缩单元105中,建 立从频带压缩子带的低频侧起按顺序各自2样本的组合,以保留各组合之中 绝对值振幅较大一方的样本的方法进行频带压缩,所以频带扩展单元206能 够通过将解码的频谱每隔一个地存储在偶数地址或奇数地址中,得到扩展到 原来的带宽(压缩前的带宽)的频谱。这种情况下,解码的子带频谱的位置 的偏移为最大1样本。再有,后面说明有关频带扩展单元206的细节。

子带集中单元207将从频带扩展单元206输出的子带频谱从低频侧靠紧 而集中成一个矢量,将集中的矢量作为解码信号频谱输出到频率时间变换部 208。

频率时间变换单元208将从子带集中单元207输出的频域的信号即解码 信号频谱变换为时域的信号,输出解码信号。

接着,说明图4所示的频带扩展单元206中的频带扩展方法。图5表示 用于说明频带扩展的图。其中,在图5中,与图2同样,假设子带长度为W (n),横轴表示频率,纵轴表示频谱的绝对值振幅,说明扩展图2(C)所 示的子带压缩频谱的情况。

位于频带压缩后的位置1的子带压缩频谱在压缩前存在于位置1或位置 2。同样地,位于频带压缩后的位置2的子带压缩频谱在压缩前存在于位置3 或位置4。同样地,在频带压缩后的位置3和位置4存在的子带压缩频谱分 别存在于位置5或位置6、位置7或位置8。

由于频带扩展单元206不能知道频带压缩后的频谱在频带压缩前存在于 哪个位置,所以通过将频带压缩后的频谱配置在任意的位置来扩展。在图5 的例子中,频带压缩后的位置1的子带压缩频谱配置在奇数地址中以使其在 扩展后的位置1,频带压缩后的位置2的子带压缩频谱配置在奇数地址中以 使其在扩展后的位置3。其结果,仅在扩展后的频谱位置5存在的频谱被配 置在正确的位置,其他的频谱位置被配置在偏移了1样本的位置。

根据以上的结构,能够将编码数据通过语音音响解码装置200解码。

于是,在实施方式1中,语音音响编码装置100通过在频带压缩对象子 带中,建立将子带频谱从低频侧起按顺序各自2样本成组的组合,选择各组 合中绝对值振幅大的频谱,将选择出的频谱在频率轴上靠紧配置在低频侧, 能够将听感上不重要的频谱变得稀疏,压缩频带。此外,由此能够削减频谱 的变换编码上需要的分配比特数。

此外,在实施方式1中,通过将频带压缩对象子带中削减的分配比特数 重新分配,用于比扩展频带低的低频的频谱的变换编码,能够更准确地表现 听感上重要的频谱,所以能够提高音质。

再有,在本实施方式中,说明了在语音音响编码装置100中,单元数计 算单元104计算单元数,单元数重新计算单元106计算重新分配单元数的情 况。但是,本发明中,如图6所示,作为语音音响编码装置110,也可以集 中单元数计算单元104和单元数重新计算单元106的功能作为单元数计算单 元111。

此外,在本实施方式中,说明了在语音音响解码装置200中,单元数计 算单元203计算单元数,单元数重新计算单元204计算重新分配单元数的情 况。但是,在本发明中,如图7所示,作为语音音响解码装置210,也可以 集中单元数计算单元203和单元数重新计算单元204的功能作为单元数计算 单元211。

再有,在本实施方式中,作为压缩频带的方法,说明了建立从频带压缩 对象子带的低频侧起按顺序各自2样本的组合,保留各组合之中绝对值振幅 大的一方的样本的情况,但也可以使用其他的频带压缩方法。例如,不限于 各自2样本的组合,也可以以3样本以上的样本数建立组合,保留各组合之 中绝对值振幅最大的样本。这种情况下,可以增加通过频带压缩能够削减的 比特数。

此外,也可以高频越高,组合的样本数越多。此外,不限于建立从低频 侧起按顺序进行组合,也可以建立从高频侧按顺序进行组合。

(实施方式2)

图8是表示本发明的实施方式2的语音音响编码装置120的结构的框图。 以下,使用图8说明语音音响编码装置120的结构。再有,图8与图1不同 的方面是,将单元数重新计算单元106删除,将单元数计算单元104变更为 单元数计算单元111,并追加了子带能量衰减单元121。

子带能量衰减单元121使从子带能量计算单元103输出的量化子带能量 之中的、频带压缩对象子带的子带能量衰减,将衰减过的子带能量输出到单 元数计算单元111。

这里,说明使频带压缩对象子带的子带能量衰减的理由。假如使子带能 量不衰减,如实施方式1中说明的,由单元数计算单元111根据该子带能量 确定暂定的分配比特,但在因频带压缩而使频带例如为一半的情况下,单元 的比特数被削减1比特,所以产生剩余比特。但是,由于没有单元数重新计 算单元106,所以有时该剩余比特被浪费而无法一定从高频侧的子带合适地 重新分配给低频侧的子带。

因此,对于频带压缩对象子带,子带能量衰减单元121通过使该子带能 量衰减,抑制不必要的剩余比特的产生。但是,即使因频带压缩而使子带长 度减少一半,但由于主要的频谱仍然保留,所以若使子带能量减少一半,则 成为过度的衰减。因此,子带能量衰减单元121例如也可以将子带能量乘以 0.8倍等的固定比率,或者从子带能量中减去3.0这样的常数。

图9是表示本发明的实施方式2的语音音响解码装置220的结构的框图。 以下,使用图9说明语音音响编码装置220的结构。再有,图9与图4不同 的方面是,将单元数重新计算单元204删除,将单元数计算单元104变更为 单元数计算单元211,并追加了子带能量衰减单元221。

子带能量衰减单元221使从子带能量解码单元202输出的子带能量之中 的、频带压缩对象子带的子带能量衰减,将衰减过的子带能量输出到单元数 计算单元211。但是,子带能量衰减单元221与语音音响编码装置120的子 带能量衰减单元121在相同的条件下进行衰减。

于是,在实施方式2中,通过语音音响编码装置120使频带压缩对象子 带的子带能量衰减,暂定的分配比特成为与编码侧相同的值。

(实施方式3)

在实施方式1中,频带压缩对象的子带中的扩展后的频谱位置有可能从 频带压缩前改变。因此,至少对于子带内对听感产生较大的影响的绝对值振 幅为最大的频谱(以下,称为“振幅最大频谱”),考虑在频带压缩的前后 不改变频谱位置。

在本发明的实施方式3中,说明将频带压缩对象的子带中的振幅最大频 谱的解码后的位置进行校正的情况。

本发明的实施方式3的语音音响编码装置及语音音响解码装置的结构与 实施方式1所示的图1、图4为同样的结构,仅频带压缩单元105、频带扩展 单元206的功能不同,所以引用图1、图4,说明不同的功能。此外,以下借 用图2(A)、图2(B)、图5进行说明。

参照图1,频带压缩单元105从子带分割单元102输出的子带频谱中搜 索振幅最大频谱。频带压缩单元105计算如果振幅最大频谱的位置位于奇数 地址则为“0”的位置校正信息,并输出到变换编码单元107,计算如果振幅 最大频谱的位置位于偶数地址则为“1”的位置校正信息,并输出到变换编码 单元107。在图2(B)中,振幅最大频谱是在位置2(偶数地址)存在的频 谱,所以频带压缩单元105将位置校正信息计算为“1”。算出的位置校正信 息由变换编码单元107编码,发送到语音音响解码装置200。

参照图4,频带扩展单元206在从变换编码解码单元205输出的子带压 缩频谱之中的、频带压缩对象外的子带中,将子带压缩频谱直接作为子带频 谱输出到子带集中单元207。此外,频带扩展单元206在从变换编码解码单 元205输出的子带压缩频谱之中的、频带压缩对象子带中,基于解码过的位 置校正信息,配置振幅最大频谱,将剩余的子带压缩频谱扩展到子带长度的 宽度,作为子带频谱输出到子带集中单元207。这里,由于位置校正信息为 “1”,所以振幅最大频谱被配置在偶数地址中。图10表示该结果。与图2 (A)相比,可知位于位置2的振幅最大频谱被配置在正确的位置。再有, 振幅最大频谱以外有可能偏移最大1样本。

于是,通过基于位置校正信息,配置振幅最大频谱,能够将振幅最大频 谱在频带压缩的前后维持频谱位置。

再有,在频带成为一半的情况下,由于需要对位置校正信息分配1比特, 所以单元数为5时,根据削减部分的5比特和增加的位置校正信息部分的1 比特,最终的削减比特数为4。此外,在频带压缩到1/4,单元数为5的情 况下,根据削减部分的10比特和增加的位置校正信息部分的2比特,最终的 削减比特数为8。

于是,在实施方式3中,语音音响编码装置100计算如果频带压缩对象 子带的振幅最大频谱的位置位于奇数地址则为“0”、如果位于偶数地址则为 “1”的位置校正信息,将其发送到语音音响解码装置200,语音音响解码装 置200基于位置校正信息,配置振幅最大频谱,能够将子带内对听感产生较 大的影响的振幅最大频谱在频带压缩的前后维持频谱位置。

再有,在本实施方式中,说明了计算如果振幅最大频谱的位置位于奇数 地址则为“0”、如果位于偶数地址则为“1”的位置校正信息,但本发明不 限于此。例如,也可以如果振幅最大频谱的位置位于奇数地址则为“1”、如 果位于偶数地址则为“0”。此外,在将频带压缩对象子带压缩到1/3、1/ 4等情况下,计算与此相伴的位置校正信息。

(实施方式4)

在实施方式1中,作为压缩频带的方法,说明了建立从频带压缩对象子 带的低频侧起顺序各自2样本的组合,保留各组合之中绝对值振幅较大一方 的样本的情况。但是,在振幅最大频谱的第二大的振幅的频谱(以下,称为 “第2点频谱”)与振幅最大频谱邻接的情况下,有时第2点频谱脱离编码 对象。通过观测而确认第2点频谱与振幅最大频谱邻接的情况在扩展频带中 几率较大。

因此,在本发明的实施方式4中,说明根据预先确定的步骤变更频带压 缩对象子带的频谱的配置(以下,称为“交织”),以使振幅最大频谱和第 2点频谱彼此不相邻的情况。

图11是表示本发明的实施方式4的语音音响编码装置130的结构的框 图。以下,使用图11说明语音音响编码装置130的结构。其中,图11与图 6不同的方面是,追加了交织器131。

交织器131将从子带分割单元102输出的子带频谱的配置进行交织,将 交织了配置的子带频谱输出到频带压缩单元105。

图12表示用于说明交织的图。在图12中,表示提取了频带压缩对象子 带n的情况,假设子带长度为W(n),横轴表示频率,纵轴表示频谱的绝对 值振幅。

图12(A)表示频带压缩前的频谱,位置2的频谱为振幅最大频谱,位 置1的频谱为第2点频谱。这里,按实施方式1所示的方法进行频谱的选择 时,如图12(B)所示,位置2的频谱被选择,位置1的第2点频谱会从编 码对象中被排除在外。

图12(C)表示交织后的频谱。具体地说,表示将奇数地址在频谱上重 新排列在低频侧,将偶数地址在频谱上重新排列在高频侧的情况。假设图中 的OP(x)(x=1~8)表示交织前的子带频谱位置为x。

于是,交织器131通过将频带压缩对象子带中的频谱的配置进行交织, 振幅最大频谱的位置为5,第2点频谱的位置为1,两者被隔开。因此,即使 按实施方式1所示的方法进行频带压缩,如图12(D)所示,也可将振幅最 大频谱和第2点频谱作为编码对象。但是,解码后的频谱位置的偏移在本例 中为最大2样本。

图13是表示本发明的实施方式4的语音音响解码装置230的结构的框 图。以下,使用图13说明语音音响解码装置230的结构。其中,图13与图 7不同的方面是,追加了解交织器231。

解交织器231在从频带扩展单元206输出的对每个子带分离的子带频谱 之中的、频带压缩对象子带中,将子带频谱的配置进行解交织,将解交织了 配置的子带频谱输出到子带集中单元207。

于是,在实施方式4中,语音音响编码装置130通过将频带压缩对象子 带的频谱的配置进行交织并进行频带压缩,即使是第2点频谱和振幅最大频 谱邻接的情况,也能够隔开两者,能够避免第2点频谱因频带压缩而被排除 在外。

再有,可将本实施方式和实施方式1~3的其中一个任意地组合。顺便说 明一下,在将实施方式3的相对振幅最大频谱的位置校正信息编码的方法和 本实施方式组合的情况下,即使进行交织,也能够正确地编码振幅最大频谱 的位置。

(实施方式5)

在实施方式4中,说明了通过交织防止在振幅最大频谱和第2点频谱邻 接的情况下,第2点频谱被排除在编码对象之外的方法。在本发明的实施方 式5中,说明通过将振幅最大频谱附近排除在频带压缩对象之外,防止第2 点频谱被排除在编码对象之外的方法。

本发明的实施方式5的语音音响编码装置及语音音响解码装置的结构, 与实施方式1中所示的图1、图4为同样的结构,由于仅频带压缩单元105、 频带扩展单元206的功能不同,所以引用图1、图4,说明不同的功能。

参照图1,频带压缩单元105从由子带分割单元102输出的子带频谱中 搜索振幅最大频谱。在振幅最大频谱有多个的情况下,将低频侧的频谱作为 振幅最大频谱。频带压缩单元105提取搜索出的振幅最大频谱以及其附近的 频谱,设为频带压缩对象外的频谱、即子带压缩频谱的一部分。这里,例如, 假设将振幅最大频谱的前后1样本、即3样本从频带压缩对象中除去。

频带压缩单元105进行比频带压缩对象外的频谱低的低频侧的频带压 缩,从子带压缩频谱的低频侧起配置频带压缩过的结果。频带压缩单元105 将频带压缩对象外的频谱接着配置在子带压缩频谱的高频侧。接着,频带压 缩单元105进行比频带压缩对象外的频谱高的高频侧的频带压缩,将频带压 缩过结果接着配置在子带压缩频谱的高频侧。

频带压缩单元105通过进行这样的处理,能够获得将振幅最大频谱的附 近从频带压缩对象中除去的子带压缩频谱,可将邻接的振幅最大频谱和第2 点频谱作为编码对象。再有,如果不正确地表示振幅最大频谱的扩展后的位 置,则不特别地对语音音响解码装置200要传送有关该频带压缩方法的信息。

参照图4,频带扩展单元206在从变换编码解码单元205输出的子带压 缩频谱之中搜索振幅最大值。与语音音响编码装置100同样地,在检测出多 个振幅最大值的情况下,将低频侧的频谱作为振幅最大频谱。其结果,频带 扩展单元206将振幅最大频谱附近的频谱作为频带压缩对象外的频谱。这里, 提取振幅最大频谱以及其前后各1样本的共计3样本作为频带压缩对象外的 频谱。

接着,频带扩展单元206将比频带压缩对象外的频谱低的低频侧的子带 压缩频谱扩展。反复进行扩展,将子带压缩频谱的低频侧频谱依次配置在奇 数地址中,直至紧靠频带压缩对象外的频谱。频带扩展单元206接着扩展过 的低频侧的子带频谱的高频侧,配置频带压缩对象外的频谱。接着,频带扩 展单元206将比频带压缩对象外的频谱高的高频侧的子带压缩频谱扩展,将 扩展过的子带频谱配置在频带压缩对象外的频谱的高频侧。

频带扩展单元206通过进行这样的处理,能够扩展从频带压缩对象中除 去了振幅最大频谱的附近的子带压缩频谱。

接着,说明上述频带压缩单元105的频带压缩方法。图14表示频带压缩 的一例子。这里,假设子带长度为10,从低频侧起振幅值为8、3、6、2、10、 9、5、7、4、1。

频带压缩单元105首先搜索子带频谱的振幅最大频谱,提取振幅最大频 谱以及其前后各1样本的共计3样本作为频带压缩对象外的频谱。在本例中, 位置5的频谱是最大的,所以位置4、位置5、位置6的频谱为频带压缩对象 外。即,位于低频侧的位置1、位置2、位置3和高频侧的位置7、位置8、 位置9、位置10的频谱为频带压缩对象。其结果,图14所示,选择位置1、 位置3的频谱,随后,配置频带压缩对象外的位置4、位置5、位置6的频谱, 接着,选择位置8、位置10的频谱,构成子带压缩频谱。

接着,说明上述频带扩展单元206的频带扩展方法。图15表示频带扩展 的一例子。频带扩展单元206搜索子带压缩频谱的振幅最大值。在本例中, 位置4的频谱为振幅最大频谱,所以位置3、位置4、位置5的频谱为频带压 缩对象外的频谱。即,可知低频侧的位置1、位置2的频谱、高频侧的位置6、 位置7的频谱是频带压缩过的频谱。

频带扩展单元206将位置1、2的子带压缩频谱分别配置在子带频谱的位 置1、位置3。接着,频带扩展单元206将频带压缩对象外的频谱随后配置在 子带频谱的位置5、位置6、位置7。而且,频带扩展单元206将位置6、位 置7的子带压缩频谱配置在子带频谱的位置8、位置10。通过这样的步骤, 将振幅最大频谱及其附近的频谱排除在频带压缩对象之外,可扩展频带压缩 过的子带压缩频谱。

于是,在实施方式5中,语音音响编码装置100通过将频带压缩对象子 带中的振幅最大频谱及其附近的频谱从频带压缩对象中除去,将其他的频谱 进行频带压缩,即使是第2点频谱和振幅最大频谱邻接的情况,也能够避免 第2点频谱因频带压缩而被除去。

再有,在本实施方式中,振幅最大频谱的扩展后的位置有可能不在正确 的位置,但通过将实施方式2中说明的位置校正信息进行编码及发送,可配 置在正确的位置。

(实施方式6)

一般地,听感上重要的频谱,振幅较大,并且为大体相同频率程度以上 长时间连续地发生的情况居多。人的语音中的元音具有该特征,但即使在语 音以外的乐器产生的高频带中没有元音音高,在很多情况下也能够观察该特 征。利用该特征,通过在前面的帧中提取主观上重要的频谱,在当前帧中仅 将该频谱的周边频带限定作为编码对象进行编码,能够进一步高效率地编码 听感上重要的频谱。

原信号即子带频谱中经过数帧稳定输出的频谱对每帧变动,伴随子带能 量的变动的编码比特量对每帧变动,所以有时产生对每帧能够编码、不能编 码的现象。这种情况下,使解码语音的清晰性劣化,变得嘈杂。

因此,在本发明的实施方式6中,说明通过将扩展频带中的子带的所有 频谱不作为编码对象,而仅将听感上重要的频谱周边频带作为编码对象,能 够实现更高效率的编码的结构。

图16是表示本发明的实施方式6的语音音响编码装置140的结构的框 图。以下,使用图16说明语音音响编码装置140的结构。其中,图16与图 1不同的方面是,删除了单元数重新计算单元106和频带压缩单元105,将单 元数计算单元104变更为单元数计算单元141,将变换编码单元107变更为 变换编码单元142,将复用单元108变更为复用单元145,并追加了变换编码 结果存储单元143及对象频带设定单元144。

单元数计算单元141基于从子带能量计算单元103输出的子带能量,计 算对各子带分配的暂定的分配比特数。此外,单元数计算单元141基于从后 面说明的对象频带设定单元144输出的频带限定子带信息,获取变换编码的 编码对象频带的子带长度。由于从获取的子带长度能够计算单元数,所以单 元数计算单元141计算编码比特量,以使其接近暂定的分配比特数。单元数 计算单元141将与算出的编码比特量同等的信息作为单元数输出到变换编码 单元142。基本上,编码比特中,进行比特分配,以使子带能量E[n]越大, 分配越多的比特。但是,比特分配按单元单位分配,单元所需的比特数依赖 于子带长度。即,即使是相同的暂定的分配比特数,如果子带长度较短,则 单元所需的比特减少,更多的单元可使用。单元有很多可使用时,能够编码 更多的频谱,能够提高振幅的精度。

变换编码单元142使用从单元数计算单元141输出的单元数和从后面说 明的对象频带设定单元144输出的频带限定子带信息,将从子带分割单元102 输出的子带频谱通过变换编码进行编码。编码过的变换编码数据输出到复用 单元145。此外,变换编码单元142将变换编码数据解码,将解码过的频谱 作为解码子带频谱输出到变换编码结果存储单元143。变换编码单元142在 进行编码时,根据由单元数计算单元141输出的单元数、由对象频带设定单 元144输出的频带限定子带信息,获取作为编码对象的频带的开始频谱位置、 结束频谱位置、子带长度等并进行变换编码。之后,将由对象频带设定单元 144设定的、比通常的子带长度短的编码对象子带称为限定频带,在将子带 内的所有频谱设为编码对象时称为全频带。作为变换编码方式,如果使用 FPC、AVQ、或LVQ这样的变换编码方式,则能够高效率地编码。再有,限 定频带外的频谱被排除在编码对象之外,所以在变换编码中未被编码。这里, 解码子带频谱中的限定频带外的频谱的所有振幅为零。

变换编码结果存储单元143存储从变换编码单元142输出的解码子带频 谱信息。这里,为了简化说明,假设变换编码结果存储单元143仅存储该子 带中的振幅最大频谱(绝对值振幅为最大的频谱)的信息。变换编码结果存 储单元143将存储的频谱的位置作为前帧的频谱信息,在存储的帧的下一个 帧中输出到对象频带设定单元144。再有,在比特很少,单元数为零的情况、 以及未进行变换编码的情况下,表示频谱未被存储。例如,设定前帧的频谱 信息,使其为“-1”即可。

对象频带设定单元144使用从变换编码结果存储单元143输出的前帧的 频谱信息和从子带分割单元102输出的子带频谱,生成频带限定子带信息, 并输出到单元数计算单元141及变换编码单元142。频带限定子带信息只要 是知道进行编码的频带的开始频谱位置、结束频谱位置及编码对象频带的子 带长度的信息即可。

此外,对象频带设定单元144将表示对子带是否进行频带限定的频带限 定标记输出到复用单元145。这里,假设在频带限定标记为“1”时进行频带 限定,在频带限定标记为“0”时将全频带作为编码对象。

复用单元145将从子带能量计算单元103输出的子带能量编码数据、从 变换编码单元142输出的变换编码数据、以及从对象频带设定单元144输出 的频带限定标记进行复用并作为编码数据输出。

根据以上的结构,语音音响编码装置140能够使用前帧的变换编码结果, 生成频带限定过的编码数据。

接着,说明图16所示的对象频带设定单元144中的对象频带设定方法。

对象频带设定单元144进行将编码对象的子带中包含的所有频谱作为变 换编码的对象,还是将在限定为听感上重要的频谱的周边的频带中包含的频 谱作为变换编码的对象的判断。以下用简易的方法例示是否为听感上重要的 频谱的判断方法。

在子带频谱之中振幅最大频谱被认为听感上重要性较高。在当前帧中, 如果子带频谱中的振幅最大频谱也在与前帧的振幅最大频谱靠近的频带内, 则能够判断为听感上重要的频谱时间性地连续。在这样的情况下,能够将编 码范围缩小为仅在前帧的听感上重要的频谱周边频带中。

例如,在第n子带,将前帧的听感上重要的频谱的位置设为P[t-1,n]。 将编码对象限定后的频带的宽度设为WL[n]时,频带限定后的编码对象频 带的开始频谱位置以P[t-1,n]-(int)(WL[n]/2)表示,结束频谱 位置以P[t-1,n]+(int)(WL[n])/2)表示。其中,这里假设WL [n]为奇数,(int)表示舍去小数点的处理。其中,在子带长度W[n]为 100,WL[n]为31时,用于表示一条频谱的位置所需最低限度的比特量, 能够从7比特削减到5比特。

再有,WL[n]作为对每个子带预先确定的长度进行了说明,但也可以 根据子带频谱的特征而可变。例如,有在子带能量较大时,将WL[n]扩大, 在帧t-1中的子带能量和帧t中的子带能量的变化较少时,将WL[n]缩窄 的方法等。

此外,在子带长度W[n]中,有W[n-1]≤W[n]的关系,但在限 定带宽WL[n]中,也可以不拘束于该关系。此外,在限定频带的开始频谱 位置以及结束频谱位置变为原来的子带的范围外的情况下,假设将原来的子 带的开始频谱位置作为限定频带的开始频谱位置,或将原来的子带的结束频 谱位置作为限定频带的结束频谱位置,WL[n]不变更。

可是,在仅以前帧中的变换编码的结果确定了限定频带的情况下,在主 观上重要的频谱移动到了限定频带外的情况下,有该频谱未被编码,将主观 上不重要的频带作为限定频带而继续编码的危险。然而,如本例那样,通过 确认在限定频带内是否存在当前子带的振幅最大频谱,能够知道在限定频带 外是否存在主观上重要的频谱。在该情况下,通过将全频带作为编码对象, 能够有助于主观上重要的频谱的继时性的编码。

再有,在对象频带设定单元144中,以从前帧和当前帧的振幅最大频谱 的位置计算听感上重要的频带的情况为例进行了说明,但也可以从低频频谱 的谐波结构来估计高频频谱的谐波结构,计算听感上重要的频带。谐波结构 是低频的频谱还大体等间隔地在高频中存在的结构。因此,也可以从低频频 谱估计谐波结构,并估计高频中的谐波结构。也可将估计的频带周边作为限 定频带进行编码。这种情况下,只要事先编码低频频谱,使用该编码结果之 后编码高频的频谱,就可在语音音响编码装置和语音音响解码装置之间得到 相同的频带限定子带信息。

接着,说明上述语音音响编码装置140的一系列动作。

首先,使用图17说明不进行频带限定的扩展频带的编码。在图17中, 表示子带n-1和子带n这两个子带,横轴表示频率,纵轴表示频谱振幅的绝 对值。此外,频谱仅表示各子带中的振幅最大频谱。此外,从上到下顺序的 表示时间上连续的3个帧t-1、t、t+1。假设将帧t、子带n-1的振幅最大 频谱的位置用P[t、n-1]表示。

根据由子带能量计算单元103算出的子带能量,假设帧t-1、子带n-1 的暂定的分配比特数是7比特,子带n的暂定的分配比特数是5比特。以下, 假设在帧t中,是5比特和7比特,在帧t+1中,是7比特和5比特。

再有,假设子带n-1的子带长度W[n-1]为100,子带长度W[n] 为110,分别低于2的7次方,所以假设将单元为了简化进行取整数而为7 比特。在帧t-1中,子带n-1的暂定的分配比特数超过了单元,所以能够 编码一个频谱。另一方面,在子带n中暂定的分配比特数未超过单位,所以 频谱未被编码。在帧t中,由于暂定的分配比特数为5比特和7比特,所以 仅子带n的频谱被编码,在帧t+1中,由于暂定的分配比特数为7比特和5 比特,所以假定子带n-1的频谱被变换编码。

这样的情况下,着眼于子带n-1时,在输入频谱中,尽管频谱在附近的 频带内中连续存在,但暂定的分配比特数却有少许不足,所以在帧t中频谱 未被编码,从t-1到t+1中未被时间连续地编码。如本例那样,在连续性缺 乏的情况下,使解码信号的清晰性劣化,会产生嘈杂的印象。

接着,使用图18说明进行了频带限定的扩展频带的编码。图18的基本 结构与图17是同样的。此外,对于帧t-1,假设与图17中说明的例子完全 相同。

首先,说明帧t的子带n。帧t-1中的子带n在变换编码中未被编码, 所以在帧t中,从变换编码结果存储单元143向对象频带设定单元144输出 前帧的频谱信息为“-1”。由此,在帧t的子带n中,不进行频带限定而将 子带内的所有频谱作为对象进行变换编码。子带n的频带限定标记设定为 “0”。本例的情况下,由于暂定的分配比特数为7比特,所以编码一个频谱。

接着,说明帧t的子带n-1。在帧t-1中,由于子带n-1中进行变换 编码,所以从变换编码结果存储单元143将前帧的频谱信息P[t-1,n-1] 输出到对象频带设定单元144。在对象频带设定单元144中,将限定频带从P [t-1,n-1]-(int)(WL[n-1]/2)设定为P[t-1,n-1]+(int) (WL[n-1]/2)。接着,搜索所输入的子带频谱之中的、振幅最大频谱 P[t,n-1]。在本例中,由于P[t,n-1]存在于限定频带内,所以将子 带n-1的频带限定标记设置为“1”。此外,对象频带设定单元144将限定 频带的开始频谱位置P[t-1,n-1]-(int)(WL[n-1]/2)、结束频 谱位置P[t-1,n-1]+(int)(WL[n-1]/2)、限定带宽WL[n-1] 输出,作为频带限定子带信息。

在单元数计算单元141中,由于子带长度从W[n-1]被缩短为WL[n -1],所以单元数增加的可能性提高。

在变换编码单元142中,仅编码从子带分割单元102输出的子带频谱之 中的、用从对象频带设定单元144输出的限定频带子带信息所指示的限定频 带内的频谱。假设WL[n-1]为31,由于31低于2的5次方,所以单元为 了简化而以5表示。在本例中,暂定的分配比特数为5比特、单元为5,所 以能够编码一个频谱。之后,在帧t+1中,也能够以与帧t同样的步骤进行 编码。

如上述那样,通过限定为重要的频谱周边频带进行变换编码,在着眼于 子带n-1时,表示了从帧t-1到t+1通过连续地变换编码而能够编码。于 是,可时间连续地编码听感上重要的频谱,所以能够得到噪声感少的清晰性 高的解码语音。

图19是表示本发明的实施方式6的语音音响解码装置240的结构的框 图。以下,使用图19说明语音音响解码装置240的结构。其中,图19与图 7的不同方面是,将码分离单元201变更为码分离单元241,将单元数计算单 元211变更为单元数计算单元242,将变换编码解码单元205变更为变换编 码解码单元243,将子带集中单元207变更为子带集中单元246,并追加了变 换编码结果存储单元244及对象频带解码单元245。

码分离单元241被输入编码数据,将输入的编码数据分离为子带能量编 码数据、变换编码数据、频带限定标记,将子带能量编码数据输出到子带能 量解码单元202,将变换编码数据输出到变换编码解码单元243,将频带限定 标记输出到对象频带解码单元245。

单元数计算单元242与语音音响编码装置140的单元数计算单元141相 同,所以省略其细节的说明。

变换编码解码单元243基于从码分离单元241输出的变换编码数据、从 单元数计算单元242输出的单元数、以及从对象频带解码单元245输出的频 带限定子带信息,将对每个子带解码的结果作为解码子带频谱输出到子带集 中单元246。再有,在解码了频带限定的编码数据的情况下,限定频带外的 频谱的振幅全部为零,输出的子带长度作为进行频带限定前的子带长度W[n] 的频谱输出。

变换编码结果存储单元244具有与语音音响编码装置140的变换编码结 果存储单元143大致相同的功能。但是,在受到了帧消失、分组丢失等通信 路径造成的错误的影响时,由于不能将解码子带频谱存储在变换编码结果存 储单元244中,所以例如设定前帧的频谱信息,以使其为“-1”。

对象频带解码单元245基于从码分离单元241输出的频带限定标记和从 变换编码结果存储单元244输出的前帧的频谱信息,将频带限定子带信息输 出到单元数计算单元242和变换编码解码单元243。对象频带解码单元245 按照频带限定标记的值,确定是否进行频带限定。这里,对象频带解码单元 245在频带限定标记为“1”时,进行频带限定,将表示频带限定的频带限定 子带信息输出。另一方面,对象频带解码单元245在频带限定标记为“0”时, 不进行频带限定,将表示该子带的所有频谱为编码对象的频带限定子带信息 输出。但是,即使从变换编码结果存储单元244输出的前帧的频谱信息为“- 1”,如果频带限定标记为“1”,则对象频带解码单元245就计算表示频带 限定的频带限定子带信息。这是因为由于帧消失等而在前帧中未进行变换编 码数据的解码的情况下,前帧的频谱信息为“-1”,但进行在语音音响编码 装置140中进行了频带限定的变换编码,所以需要以频带限定作为前提而将 变换编码数据解码。

子带集中单元246将从变换编码解码单元243输出的解码子带频谱从低 频侧靠紧而集中为一个矢量,将集中后的矢量作为解码信号频谱输出到频率 时间变换部208。

接着,用图18说明上述语音音响解码装置240的一系列动作。

这里,在帧t-1中,假设子带n-1被变换编码,子带n不通过变换编 码被编码。在帧t中,假设子带n-1及子带n被变换编码,子带n-1通过 频带限定而被编码。

首先,说明帧t。对象频带解码单元245能够根据从码分离单元241输出 的频带限定标记,知道各子带是未被频带限定而变换编码的子带,还是频带 限定之后变换编码的子带。这里,未被频带限定而变换编码的子带中,子带 n作为所有的频谱编码对象被解码。变换编码解码单元243能够将从码分离 单元241输出的编码数据,使用从对象频带解码单元245输出的子带长度W [n]、以及从单元数计算单元242输出的单元数进行解码。

另一方面,对象频带解码单元245能够通过频带限定标记,知道子带n -1在频带限定的状态下被编码。因此,变换编码解码单元243能够将从码 分离单元241输出的编码数据,使用从对象频带解码单元245输出的子带n -1的频带限定子带长度WL[n-1]、以及从单元数计算单元242输出的单 元数进行解码。

但是,在这样状态下,变换编码解码单元243不能确定解码的解码子带 频谱的正确的配置位置,所以使用前帧的子带n-1的解码结果,确定正确的 配置位置。假设在变换编码结果存储单元244中存储着P[t-1,n-1]。对 象频带解码单元245将从变换编码结果存储单元244输出的P[t-1,n-1] 作为中心,设定频带限定子带信息,以使子带带宽为WL[n-1]。具体地 说,将频带限定子带的开始频谱位置设为P[t-1,n-1]-(int)(WL[n -1]/2),将结束频谱位置设为P[t-1,n-1]+(int)(WL[n-1] /2)。将这样算出的频带限定子带信息输出到变换编码解码单元243。

由此,变换编码解码单元243能够将解码的子带频谱配置在正确的位置。 再有,对于以频带限定子带信息表示的限定频带外的频谱,将频谱的振幅设 为零。

再有,在帧t-1因通信路径的影响而不能接收,不能正确地解码的情况 下,在变换编码结果存储单元244中未存储正确的解码结果。因此,在帧t 中通过频带限定所编码的子带的情况下,不能将解码子带频谱配置在正确的 位置。这种情况下,也可以使频带限定子带信息的开始频谱位置、结束频谱 位置固定,以使其例如在子带中央附近。此外,在变换编码结果存储单元244 中,也可以使用先前解码的结果进行估计。此外,变换编码解码单元243也 可以从低频频谱计算谐波结构,估计该子带中的谐波结构,从而估计振幅最 大频谱的位置。

通过以上的一系列动作,语音音响解码装置240能够将通过频带限定编 码的编码数据解码。

通过以上的语音音响编码装置140,可高效率地编码高频中的继时性高 的频谱,此外,通过语音音响解码装置240,可得到清晰性高的解码信号。

于是,在实施方式6中,通过仅编码前帧中主观上重要的频谱周边频带, 可以用很少的比特编码对象频带,所以可提高能够时间上连续地编码听感上 重要的频谱。其结果,可得到清晰性高的解码信号。

在2012年11月5日提交的日本特愿2012-243707号及2013年5月31 日提交的日本特愿2013-115917号所包含的说明书、说明书附图和说明书摘 要的公开内容被全部引用于本申请中。

工业实用性

本发明的语音音响编码装置、语音音响解码装置、语音音响编码方法及 语音音响解码方法能够适用于进行语音通话的通信装置等。

标号说明

101 时间频率变换单元

102 子带分割单元

103 子带能量计算单元

104、203、111、141、211、242 单元数计算单元

105 频带压缩单元

106、204 单元数重新计算单元

107、142 变换编码单元

108、145 复用单元

121、221 子带能量衰减单元

131 交织器

143、244 变换编码结果存储单元

144 对象频带设定单元

201、241 码分离单元

202 子带能量解码单元

205、243 变换编码解码单元

206 频带扩展单元

207、246 子带集中单元

208 频率时间变换单元

231 解交织器

245 对象频带解码单元

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号