说话人识别中改进特征提取算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

说话人识别是广义的语音识别。其基本思想是根据说话人的语音特征来确定说话人的身份。近年来，随着科学技术的不断进步，各领域对说话人识别技术的要求也在不断提高，这使得说话人识别技术面临着很大的难题。一方面，说话人识别所用特征参数会随着说话人的身体状况、情绪特点和说话时所处的环境的变化而变化;另一方面，说话人识别注重的不是语音信号中语义信息，而是信号中的说话人个性特征信息。要想准确的识别说话人的身份，就必须将语义信息和说话人的个性信息准确的分离开。但是目前还没有一种技术能将两者完全分离。本文主要针对这些问题进行了研究。
　　MFCC参数描述的是信号的谱包络特征，而信号的谱包络主要表征的是说话人的声道特性，忽略了基音频率对特征的影响。针对这一问题，本文提出了一种改进算法，即在提取MFCC参数时，不直接将信号的频谱通过梅尔滤波器组，而是先利用滑动平均滤波器对信号频谱进行平滑，得到信号谱包络的近似表示。再将得到的结果通过梅尔滤波器进行滤波。在此基础上，用多窗频谱估计方法代替Hamming窗的DFT变换来计算信号的频谱，得到一种新的特征参数MTSMFCC。实验表明，基于MTSMFCC的说话人识别系统，噪声鲁棒性和时间鲁棒性都有所提高。
　　为了解决单一特征参数在噪声环境下识别率低的问题，本文在原始MFCC的基础上进行了三个方面的融合:1.为了使特征参数能够充分反映语音的动态特性，在原始MFCC的基础上融合了一阶差分参数ΔMFCC，得到参数Fusion1;2.为了充分反映语音的低频信息、中频信息和高频信息，对MFCC、IMFCC和MidMFCC进行了融合，得到参数Fusion2。3.在前两种融合的基础上，对Fusion1和Fusion2进行了融合，得到新的特征参数NMFCC。新参数NMFCC不仅符合人耳的听觉特性，而且包含了语音信号中的低频、中频和高频的信息，能够更全面的反映说话人的个性信息。实验表明，在噪音环境下，新特征参数NMFCC与Fusion1和Fusion2相比，识别率有不同程度的提高。

著录项

作者
张怡然;
展开▼
作者单位

太原理工大学;

展开▼
授予单位太原理工大学;
学科电子与通信工程
授予学位硕士
导师姓名白静;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
平滑幅度谱包络; 多窗频谱估计; 说话人识别; 特征提取算法; 鲁棒性;

相似文献

中文文献
外文文献
专利

1. 说话人识别中改进特征提取算法的研究 [J] . 宋乐 ,白静 . 计算机工程与设计 . 2014,第005期
2. 说话人识别特征提取算法改进 [J] . 魏君颖 ,魏维 . 成都信息工程学院学报 . 2014,第S1期
3. 说话人识别特征提取中改进算法的研究 [J] . 李健 ,戴天虹 . 森林工程 . 2009,第002期
4. 改进的YOLO特征提取算法及其在服务机器人隐私情境检测中的应用 [J] . 杨观赐 ,杨静 ,苏志东 . 自动化学报 . 2018,第012期
5. 移动增强现实三维注册中特征提取算法改进 [J] . 王文润 ,王阳萍 . 计算机仿真 . 2015,第012期
6. 几种改进的MFCC特征提取方法在说话人识别中的应用 [C] . 许鑫 ,苏开娜 ,胡起秀 . 第十四届全国多媒体技术、第一届全国普适计算、第一届全国人机交互联合学术会议（第一届全国和谐人机环境联合学术大会） . 2005
7. 说话人识别中改进特征提取算法的研究 [A] . 宋乐 . 2014

说话人识别中改进特征提取算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅