首页> 中国专利> 一种语音线性预测模型的非线性量化方法

一种语音线性预测模型的非线性量化方法

摘要

本发明公开了一种语音线性预测模型的非线性量化方法,包括:线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器。本发明所述语音线性预测模型的非线性量化方法,可以克服现有技术中时间复杂度高和使用效果差等缺陷,以实现时间复杂度低和使用效果好的优点。

著录项

  • 公开/公告号CN103632673A

    专利类型发明专利

  • 公开/公告日2014-03-12

    原文格式PDF

  • 申请/专利号CN201310538591.3

  • 发明设计人 马占宇;肖波;司中威;郭军;

    申请日2013-11-05

  • 分类号

  • 代理机构北京中恒高博知识产权代理有限公司;

  • 代理人宋敏

  • 地址 214000 江苏省无锡市新区菱湖大道97号大学科技园创新研发楼二期C楼

  • 入库时间 2024-02-19 23:19:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-05-18

    授权

    授权

  • 2014-04-09

    实质审查的生效 IPC(主分类):G10L19/035 申请日:20131105

    实质审查的生效

  • 2014-03-12

    公开

    公开

说明书

技术领域

本发明涉及语音编码技术领域,具体地,涉及一种语音线性预测模型的非线性量化方法。 

背景技术

随着互联网技术的深入发展,语音通信技术得到了长足的进步,传输的语音信号已经由窄带信号传播演进到了宽带信号传播。伴随着多媒体应用的不断开发与推广,人们对于在语音通信技术中语音传输质量和实时性的要求越来越高,因此,研究高效可靠的语音通信算法,具有迫切的社会需求。 

语音通信中要解决的首要问题是语音的编码。经过数十年的发展,语音编码技术大致可以分为三种方式:波形编码技术、基于参数模型的编码技术和混合编码技术。波形编码技术针对语音波形直接进行量化和传输,不基于声学模型。基于参数模型的编码技术将语音通过线性预测模型分析后,分别传输线性预测模型,边信息和语音能量信息。混合编码技术是上述两者的结合。一般来说,基于参数模型的编码技术是应用较为广泛,性能比较可靠的一类编码技术,其核心在于如何有效可靠的传输线性预测模型,即如何实现模型的有效量化和编码。 

线性预测编码技术是语音编码处理中的核心技术。在语音线性预测编码模型的研究中,线谱频率参数是使用较多的一种表示方式,原因在于其频谱敏感区域的分布较为平均,即量化误差对于每一个频段的影响基本一样。早期的线谱频率参数量化研究集中在基于数据的量化器设计上,即获取大量的线谱频率参数并通过Lloyd-Max算法实现矢量量化器。由于数据量有限,此矢量量化器存在严重的过拟合问题。此外,由于矢量量化器的训练时间和量化中心匹配时间随着量化级数的增加呈指数增长,在高速率传输的时候,时间开销较大,复杂度较高。近年来,基于概率密度分布的优化量化吸引了学术界和工业界的大量关注,其原因在于这种方法可以在获得线谱频率参数概率密度分布函数的基础上计算出量化器的量化中心,从而避免了由于数据量有限带来的过拟合问题和训练时间过长的问题。此外,通过统计模型,可以将线谱频率参数之间的相关性去除,得到一组互相独立的参数。在去除记忆优势的基础上,标量量化器可以取代矢量量化其,使得量化中心匹配时间进一步缩短。 

然而,传统的基于概率密度分布的优化量化方法主要基于高斯统计模型构建,无法很好的描述线谱频率参数的有界、有序的特性。针对这一问题,有学者提出了有界的高斯混合模型来描述线谱频率参数的上述特性,虽然取得了一些量化性能上的提高,却带来了时间复杂度太高的负面影响,总体效果不尽如人意。 

在实现本发明的过程中,发明人发现现有技术中至少存在时间复杂度高和使用效果差等缺陷。 

发明内容

本发明的目的在于,针对上述问题,提出一种语音线性预测模型的非线性量化方法,以实现时间复杂度低和使用效果好的优点。 

为实现上述目的,本发明采用的技术方案是:一种语音线性预测模型的非线性量化方法,包括: 

a、线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;

b、非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;

c、计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;

d、标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器。

进一步地,在步骤a之前,还包括: 

线性预测模型的线谱频率参数提取步骤:将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数。

进一步地,在步骤d之后,还包括: 

优化的顺序量化步骤:对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的。

进一步地,所述对变换后的参数实现优化的顺序量化方式的操作,具体包括: 

将步骤a中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制。

进一步地,所述将步骤a中描述的去相关过程和步骤d中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制的操作,具体包括: 

1)输入:

a) 维线谱频率参数差值向量;

b)如步骤5得到的针对每一个的标量量化器;

2)初始化:

a)计数器;

b)维目标向量;

3)执行次循环,其中第步循环操作:

a)当时:

i.取出向量中的第一个元素,将其通过步骤5中描述的标量量化器量化,得到元素放入向量中;

 b)当时:

i.取出向量中的第一个元素,将 通过步骤5中描述的标量量化器量化,得到元素放入向量中;

c)生成新的向量,含有中除元素外的所有元素; 

d);

4)输出:

量化后的线谱频率参数差值。

进一步地,在步骤a中,所述将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值的操作,具体包括: 

利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值,此差值的特征为:有序特性分布在 开区间内,有序特性加和为1;

所述利用线谱频率参数的有序特性和有界特性,将其变换为线性谱参数差值的操作,具体包括:

1)维线谱频率参数表示为,满足:

2)变换后的维线谱频率参数差值为:

进一步地,在步骤b中,所述根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关的操作,具体包括: 

利用线谱频率参数差值的统计特性,假设其为中性向量;采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立。

进一步地,所述采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立的操作,具体包括: 

1)输入:

a) 维线谱频率参数差值向量;

2)初始化:

a)计数器;

b)维目标向量,例如:

3)执行次循环,其中第i步循环操作:

a)将向量中的第一个元素取出,作为元素放入向量中;

b)生成新的向量,含有中除元素外的所有元素;

c)对向量归一化,具体为

i.,为的一范数;

ii.;

d);

4)输出:

a),其中:

进一步地,在步骤c中,所述利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布的操作,具体包括: 

1)由步骤c得到的去相关后的线谱频率参数差值是有界的;根据此去相关后的线谱频率参数差值,针对每一个元素训练基于贝塔分布的贝塔混合模型;

2)假设服从单一贝塔分布,计算此贝塔分布,使得其与上述步骤1)中根据得到的贝塔混合模型之间的相对熵最小。

进一步地,在步骤d中,所述根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器的操作,具体包括: 

采用标量量化的模式取代矢量量化,针对每一维参数设计基于贝塔分布的量化器;根据得到的概率密度分布函数计算出量化中心和量化区域,实现最优的标量量化器。

本发明各实施例的语音线性预测模型的非线性量化方法,由于包括:线谱频率参数变换步骤:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;非线性去相关步骤:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;标量量化器设计步骤:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器;能够可靠的实现线性预测模型的量化,降低量化损失,提高量化速度;从而可以克服现有技术中时间复杂度高和使用效果差的缺陷,以实现时间复杂度低和使用效果好的优点。 

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。 

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。 

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中: 

图1为本发明语音线性预测模型的非线性量化方法的流程示意图;

图2为本发明语音线性预测模型的非线性量化方法中线谱频率参数提取的步骤流程图;

图3为本发明语音线性预测模型的非线性量化方法中线谱频率参数变换的步骤流程图;

图4为本发明语音线性预测模型的非线性量化方法中计算边际概率分布的步骤流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。 

针对现有线谱频率参数量化技术中存在的问题,根据本发明实施例,如图1-图4所示,提供了一种语音线性预测模型的非线性量化方法,即基于概率统计模型的非线性的线谱频率参数量化方法。利用该语音线性预测模型的非线性量化方法,能够可靠的实现线性预测模型的量化,降低量化损失,提高量化速度,具有很大的实用价值。 

本实施例的语音线性预测模型的非线性量化方法,包括如下步骤: 

步骤1:线性预测模型的线谱频率参数提取步骤:将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数;

步骤2:线谱频率参数变换步骤,即:将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值;

在步骤2中,线谱频率参数变换步骤中,利用线谱频率参数的有界特性和有序特性将其变换为线性谱参数差值,此差值的特征为:分布在 开区间内,加和为1;

在步骤2中,线谱频率参数变换步骤的具体操作过程如下:

1)维线谱频率参数表示为,满足:

2)变换后的维线谱频率参数差值为:

步骤3:非线性去相关步骤,即:根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关;

在步骤3中,利用线谱频率参数差值的统计特性,假设其为中性向量(neutral vector);采用结构化的方法,通过归一化--取首元素的循环运算,将线谱频率参数差值之间的相关性去除,使参数之间统计上相互独立;具体如下:

1)输入:

a) 维线谱频率参数差值向量;

2)初始化:

a)计数器;

b)维目标向量;

3)执行次循环,其中第步循环操作:

a)将向量中的第一个元素取出,作为元素放入向量中;

b)生成新的向量,含有中除元素外的所有元素;

c)对向量归一化,具体为

i.,为的一范数;

ii.;

d);

4)输出:

a),其中:

步骤4:计算边际概率分布步骤:利用去相关的线谱频率参数差值的统计特性,计算其边缘概率密度分布;

在步骤4中,根据去相关的线谱频率参数差值的统计特性,计算其边缘密度分布,具体为:

1)由步骤4得到的去相关后的线谱频率参数差值是有界的;根据此去相关后的线谱频率参数差值,针对每一个元素训练基于贝塔分布(beta distribution)的贝塔混合模型;

2)假设服从单一贝塔分布,计算此贝塔分布,使得其与上述步骤1)中根据得到的贝塔混合模型之间的相对熵最小;

步骤5:标量量化器设计步骤,即:根据得到的边缘概率密度分布函数,设计基于概率密度函数的优化量化器;

在步骤5中,采用标量量化的模式取代矢量量化,针对每一维参数设计基于贝塔分布的量化器;根据得到的概率密度分布函数计算出量化中心和量化区域,实现最优的标量量化器;

步骤6:优化的顺序量化步骤,即:对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的;

在步骤6中,将步骤2中描述的去相关过程和步骤5中描述的基于概率密度函数的标量量化器相结合,形成优化的顺序量化方法,实现有效的差错控制,具体如下:

1)输入:

a) 维线谱频率参数差值向量;

b)如步骤5得到的针对每一个的标量量化器;

2)初始化:

a)计数器;

b)维目标向量,例如:

3)执行次循环,其中第i步循环操作:

a)当时:

i.取出向量中的第一个元素,将其通过步骤5中描述的标量量化器量化,得到元素放入向量中;

 b)当时:

i.取出向量中的第一个元素,将 通过步骤5中描述的标量量化器量化,得到元素放入向量中;

c)生成新的向量,含有中除元素外的所有元素; 

d);

4)输出:

量化后的线谱频率参数差值。

下面将结合附图对本发明具体实施方式进行详细说明。

图1是本发明语音线性预测模型的非线性量化方法的流程图,包括以下步骤: 

步骤S1:线性预测模型的线谱频率参数提取步骤;

步骤S2:线谱频率参数变换为线谱频率参数差值步骤;

步骤S3:将线谱频率差值通过非线性方法去相关步骤;

步骤S4:计算边际概率分布步骤;

步骤S5:标量量化器设计步骤;

步骤S6:优化的顺序量化步骤,达到控制差错传播的目的。

下面将对每个步骤进行具体的说明:

步骤S1构建以线谱频率参数为根的多项式,将线性预测模型通过Chebyshev多项式求根法转化为线谱频率参数。图2给出了线谱频率参数提取步骤的具体流程,步骤如下:

1)输入:

a)阶线性预测模型;

2)在图2显示的步骤11中,首先构建两个多项式:

      和      。

然后采用Chebyshev多项式求根法求上述两个多项式的零点,得到两组值,分别为和。将求解所得的值依次放入: 

3)输出: 

a)线谱频率参数。

步骤S2实现线谱频率参数变换,将语音线性编码预测模型的线谱频率参数通过线性变换转化为线谱频率参数差值。图3给出了线谱频率参数变换步骤的具体流程如下: 

1)输入:

a)线谱频率参数;

2)在图3显示的步骤21中,将从1到循环,每次得到的差值如下:

3)输出:

a)线谱频率参数。

步骤S3将线谱频率差值通过非线性方法去相关,根据线谱频率参数差值的统计特性,采用结构化的方法,通过非线性变换将线谱频率参数差值去相关,具体步骤如下: 

1)输入:

a) 维线谱频率参数差值向量;

2)初始化:

a)计数器;

b)维目标向量;

3)执行次循环,其中第i步循环操作:

a)将向量中的第一个元素取出,作为元素放入向量中;

b)生成新的向量,含有中除元素外的所有元素; 

c)对向量归一化,具体为

i.,为的一范数;

ii.;

d);

4)输出:

a),其中。

步骤S4计算边际概率分布,利用去相关的线谱频率参数差值的统计特性,计算每一维差值的边缘概率密度分布,其实施方法如图3所示,具体如下: 

1)输入:

a)去相关后的第维线谱频率参数差值的个样本;

2)图4显示的步骤41中,采用期望—最大化算法,得到贝塔混合模型如下:

       ;

上述表示中,。

3)图4显示的步骤42中,通过最小化相对熵,获得最优的单个贝塔分布,具体为 

4)输出:

a)最优单个贝塔分布。

步骤S5设计标量量化器,根据得到的边缘概率密度分布函数,针对每一维差值设计基于概率密度函数的优化量化器,计算出量化中心,具体如下: 

1)输入:

a)概率密度函数

b)量化比特数

2)根据熵编码原理,计算出量化中心的分布为

      ,其中是贝塔分布的熵值,定义为:

3)输出:

a)量化中心分布。

步骤S6实现优化的顺序量化,对变换后的参数实现优化的顺序量化方式,达到控制差错传播的目的,并输出量化后的线谱频率参数差值,具体过程如下: 

1)输入:

a) 维线谱频率参数差值向量;

b)如步骤S5得到的针对每一个的标量量化器;

2)初始化:

a)计数器;

b)维目标向量;

3)执行次循环,其中第i步循环操作:

a)当时:

i.取出向量中的第一个元素,将其通过步骤S5中描述的标量量化器量化,得到元素放入向量中;

 b)当时:

i.取出向量中的第一个元素,将 通过步骤S5中描述的标量量化器量化,得到元素放入向量中;

c)生成新的向量,含有中除元素外的所有元素; 

d);

4)输出:

a)量化后的线谱频率参数差值。

相对于现有技术而言,本发明上述各实施例的语音线性预测模型的非线性量化方法的有益效果在于,抓住了线谱频率参数的有界和有序特性,通过非线性变换去除参数之间的相关性,采用贝塔分布实现基于概率统计模型的量化,使用优化的顺序量化方法实现线谱频率参数的量化,试验结果验证了本发明的高效性和可靠性,具有很强的实用性。 

以上结合附图对所提出的语音线性预测模型的非线性量化方法及各模块的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现,该软件产品存储在一个存储介质中,包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。 

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号