首页> 中文学位 >基于HMM和小波的中英文语音的自动切分研究和实现
【6h】

基于HMM和小波的中英文语音的自动切分研究和实现

代理获取

目录

文摘

英文文摘

声明

第1章 绪言

1.1课题研究背景及意义

1.2语音切分方法综述

1.2.1人工切分方法

1.2.2基于隐马尔可夫模型(HMM)的自动切分方法

1.2.3基于动态时间规划(DTW)的自动切分方法

1.2.4其他方法

1.2.5总结

1.3语音自动切分的相关技术

1.3.1语音切分单元的选取

1.3.2特征参数提取技术

1.3.3模式匹配及模型训练技术

1.4本文的研究内容及安排

第2章 语音切分基元的选取

2.1英语语音学基础

2.2汉语语音学基础

2.2.1音素和音节

2.2.2元音和辅音

2.2.3声母与韵母

2.3声学模型中切分基元的选择

第3章 隐马尔可夫模型(HMM)

3.1 HMM的基本概念

3.1.1 HMM的基本概念

3.1.2语音信号HMM的物理意义

3.2 HMM的基本算法

3.2.1 HMM的三个基本问题

3.2.2 HMM的三个基本算法

第4章 小波多分辨率分析与小波包分析

4.1小波变换的定义

4.2离散栅格上的小波变换

4.3离散小波变换的多分辨率分析

4.3.1多分辨率分析的引入

4.3.2多分辩率分析的定义

4.4小波包分析

第5章 基于小波的语音感知特征参数提取

5.1语音感知的认识

5.1.1生理机制

5.1.2掩蔽效应和频率群

5.1.3 Mel频率简介

5.1.4人耳的频率分辨能力

5.2传统的语音特征参数-MFCC

5.3基于小波的语音感知特征参数

5.3.1构建基于语音感知的小波系数提取

5.3.2小波的选取

5.3.3语音分帧加窗

5.3.4小波子带系数的处理

5.3.5相关性分析与参数降维

5.3.6差分系数

5.3.7时间滤波器(Temporal Filter)

5.3.8构建参数

5.4实验结果及分析

5.4.1实验说明

5.4.2 MFCC与基于小波的语音感知参数比较

5.4.3小波子带系数选取策略的实验

5.4.4去相关性和降维实验

5.4.5添加通道平滑实验

5.4.6时间滤波器比较实验

5.4.7实验小结

第6章 HMM模型的初始化与训练

6.1 HMM模型的参数设定

6.2 HMM模型的初始化

6.2.1有标注模型初始化

6.2.2 HMM初始化的种子选取

6.3 HMM模型的训练

6.3.1有标注模型重估

6.3.2嵌入式模型重估

第7章 模型提高

7.1训练模型的修正

7.1.1英文语音自动切分

7.1.2中文语音自动切分

7.2静音切分

7.2.1静音时长阈值修正规则

7.2.2静音区域初判断方法

7.2.3消除一些辅音误判为静音的错误

7.2.4算法修正

7.2.5最终结果的生成

7.3 HMM模型精确性的提高

7.3.1上下文相关模型

7.3.2模型参数捆绑/聚类

7.4实验结果

7.4.1实验说明

7.4.2实验分析

第8章 总结和展望

8.1总结

8.2展望

参考文献

攻读学位期间发表的学术论文

致谢

展开▼

摘要

本文广泛深入地研究、分析了当前国内外各种语音切分方法,并对各种方法的切分准确率进行了分析、比较。在此基础上,将小波理论和语音分析相结合,提出了基于小波包变换的语音特征参数用于语音的自动切分;在实现自动切分过程中,运用基于隐马尔可夫模型(HMM) 的基本理论和算法,完成了HMM的建模、训练和切分;并对可能遇到的各种实际问题,提出了相应的解决方法;最终实现了基于隐马尔可夫模型 (HMM) 的语音自动切分系统。通过各种实验比较,给出了优化的模型配置,使切分性能得到明显的提高。本论文的主要贡献和创新为以下几点:1、 提出了基于小波包分解的语音特征参数用于语音的自动切分。将小波理论与语音感知特性相结合,运用小波包变换对语音进行变换,再按照类似于语音感知频带划分来选取小波子带,这种划分与人耳的临界频带相似,从而建立了基于小波包分解的语音特征参数WPP(Wavelet Packet Parameters)。实验证明WPP优于传统的语音特征参数 MFCC(Mel Frequency Cepstrum Coefficients),使得语音切分的准确性得到了提高。2、将RASTA滤波器用于改进语音参数。在对基于小波包分解的语音特征参数 WPP 的求解过程中添加了 RASTA(RelativeSpectral)滤波器,对每个子带的能量谱进行滤波后,通过滤波后获得的语音参数用于语音自动切分。RASTA 滤波处理是用一个低端截止频率很低的带通滤波器对语音信号进行滤波处理。经过处理后,频谱中的常量或者变化缓慢的部分被抑制,动态成分被增强。通过 RASTA滤波来增强小波子带参数的动态特性,实验证明改进的语音参数提高了语音切分的准确率。3、通过主成份分析(PCA)方法获得时间过滤器用于改进语音参数。采用主成份分析(Principal Component Analysis,PCA)方法获得时间过滤器(Temporalfilter),这种滤波器有着和RASTA滤波器相同的特性,增强了小波子带参数的动态成分。通过详细的比较分析,已证实通过主成份分析(PCA)方法获得时间过滤器对语音参数的改进可以提高语音切分的准确性。4、 采取有标记初始化的方法来初始化HMM的模型。HMM模型初始化的好坏直接影响HMM模型的训练和最终的切分结果。我们比较了有标记和无标记的HMM模型初始化,发现通过有标记初始化的HMM模型的语音切分结果的准确性明显高于无标记初始化的HMM模型的语音切分结果。我们分析了语音初始化实验结果,可以看出在连续语流中选取语音样本用作HMM模型初始化训练切分,比参考种子字从语料中提取典型单音数据作为初始化样本来训练切分的准确性要高。因此,我们在语音切分中都采取从连续语流中选取语音作为HMM模型初始化训练样本的方法。5、 根据所建立的语音库语音特点和差异,对中英文语音模型进行了修正和优化。每种语言语音库都有各自的特点,而且不同人朗读的语音也是有差异的,这些特点和差异直接影响到模型的建立和选取。所以需要根据不同的语音发音特点和朗读差异,对模型进行了修正和优化。在英文中我们对辅音连缀 dr,dr,dz,ts分别建立了模型,这些辅音连缀在发音过程中出现了比较明显的协同发音,与单独发音的t、r、z、s有着明显的不同,并根据英文发音中的失爆现象对词内的两个爆破音相连的第一个爆破音另建失爆模型;同时我们对中文中y,w相关的声韵模型进行了合并优化,因为在实际发音中y和w都存在不发音的现象。通过模型的修正和优化,使得语音切分的准确性得到了提高。6、 提出了一种静音自动鉴别和处理的方法,以提高语音切分的正确性。在通过录音建立语音语料库的过程中,经常会出现一些停顿和呼吸,我们将这些能量很小的静音段、噪音和呼吸声统称为静音。而这些静音如果未标注在所对应的文本之中,这将直接影响到语音自动切分的准确性。因此,需要将这些静音以约定的标记(sil)添加到文本中。本文提出了一种静音自动鉴别和处理的方法,在经过语音粗切分后,通过规则设定、短时能量、短时过零率和算法修正几个步骤,将静音寻找出来,从而提高了语音切分的准确性。关键词:小波包变换,语音感知,RASTA,主成分分析,隐马尔可夫模型,自动切分,静音

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号