首页> 中文学位 >说话人识别中改进特征提取算法的研究
【6h】

说话人识别中改进特征提取算法的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题研究的背景及意义

1.2 国内外发展现状

1.3 说话人识别的研究难点

1.4 论文主要内容及结构

第二章 说话人识别系统概述

2.1 说话人识别的概述

2.1.1 说话人识别的基本原理

2.1.2 说话人识别的分类

2.2 说话人识别的特征提取

2.2.1 Mel频率倒谱系数MFCC

2.2.2 线性预测系数LPC

2.2.3 线性预测倒谱系数LPCC

2.3 说话人识别主要方法

2.3.1 模板匹配法

2.3.2 概率统计方法

2.3.3 人工神经网络方法

2.3.4 支持向量机方法

2.4 本章小结

第三章 基于平滑幅度谱包络的MFCC特征提取

3.1 MFCC特征提取

3.2 基于平滑幅度谱包络的MFCC特征提取

3.2.1 基音频率对MFCC参数的影响

3.2.2 基于平滑幅度谱包络的MFCC特征提取的实现

3.3 实验

3.3.1 试验中所用语音库介绍

3.3.2 实验结果与分析

3.4 本章小结

第四章 基于多窗频谱估计和平滑幅度谱包络的MFCC

4.1 多窗频谱估计

4.1.1 Multipeak

4.1.2 SWCE

4.1.3 Thomson

4.2 基于Multitapering的MFCC特征提取

4.3 基于多窗频谱估计和平滑幅度谱包络的MFCC

4.4 实验与分析

4.4.1 窗个数对多窗频谱估计的影响

4.4.2 实验结果与分析

4.4 本章小结

第五章 基于有效融合的说话人识别系统

5.1 △MFCC

5.2 IMFCC和MidMFCC

5.3 Fisher比准则

5.4 实验与分析

5.4.1 MFCC与△MFCC融合

5.4.2 MFCC、IMFCC和MidMFCC的融合

5.4.3 新的混合特征参数的提取

5.5 本章小结

第六章 总结与展望

6.1 工作总结

6.2 研究展望

参考文献

致谢

攻读硕士期间发表的学术论文和参加科研情况

展开▼

摘要

说话人识别是广义的语音识别。其基本思想是根据说话人的语音特征来确定说话人的身份。近年来,随着科学技术的不断进步,各领域对说话人识别技术的要求也在不断提高,这使得说话人识别技术面临着很大的难题。一方面,说话人识别所用特征参数会随着说话人的身体状况、情绪特点和说话时所处的环境的变化而变化;另一方面,说话人识别注重的不是语音信号中语义信息,而是信号中的说话人个性特征信息。要想准确的识别说话人的身份,就必须将语义信息和说话人的个性信息准确的分离开。但是目前还没有一种技术能将两者完全分离。本文主要针对这些问题进行了研究。
  MFCC参数描述的是信号的谱包络特征,而信号的谱包络主要表征的是说话人的声道特性,忽略了基音频率对特征的影响。针对这一问题,本文提出了一种改进算法,即在提取MFCC参数时,不直接将信号的频谱通过梅尔滤波器组,而是先利用滑动平均滤波器对信号频谱进行平滑,得到信号谱包络的近似表示。再将得到的结果通过梅尔滤波器进行滤波。在此基础上,用多窗频谱估计方法代替Hamming窗的DFT变换来计算信号的频谱,得到一种新的特征参数MTSMFCC。实验表明,基于MTSMFCC的说话人识别系统,噪声鲁棒性和时间鲁棒性都有所提高。
  为了解决单一特征参数在噪声环境下识别率低的问题,本文在原始MFCC的基础上进行了三个方面的融合:1.为了使特征参数能够充分反映语音的动态特性,在原始MFCC的基础上融合了一阶差分参数ΔMFCC,得到参数Fusion1;2.为了充分反映语音的低频信息、中频信息和高频信息,对MFCC、IMFCC和MidMFCC进行了融合,得到参数Fusion2。3.在前两种融合的基础上,对Fusion1和Fusion2进行了融合,得到新的特征参数NMFCC。新参数NMFCC不仅符合人耳的听觉特性,而且包含了语音信号中的低频、中频和高频的信息,能够更全面的反映说话人的个性信息。实验表明,在噪音环境下,新特征参数NMFCC与Fusion1和Fusion2相比,识别率有不同程度的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号