文摘
英文文摘
声明
第一章绪论
1.1语音端点检测
1.2传统语音识别的缺点
1.3视觉语音
1.4引入视觉信息的意义
1.5本文贡献
1.6本文的结构安排
1.7本章总结
第二章基于听觉特征的语音端点检测
2.1语音信号的时域分析
2.1.1语音信号短时能量
2.1.2 Window以及窗口的长度
2.1.3短时平均跨零数
2.2基于音频的语音端点检测常用方法
2.2.1基于能量的端点检测
2.2.2基于LPC-10声码器的端点检测
2.2.3基于信息熵的语音端点检测
2.2.4基于频带方差的端点检测
2.2.4基于HMM的端点检测方法
2.2.5基于分形技术的端点检测
2.3带噪声语音端点检测方法
2.3.1时频方差
2.3.2频域方差
2.3.3端点检测和状态转换
2.4本章小结
第三章语音视觉特征提取
3.1引入视觉特征的原因
3.2人脸检测技术
3.2.1人脸检测技术概述
3.2.2特征组分析
3.2.3 ASM(Active Shape Models)方法
3.2.4线性子空间法
3.3预处理
3.3.1滤波
3.3.2姿态校正
3.4嘴唇定位和特征提取
3.4.1 ROI提取
3.4.2 PCA特征提取
3.4.3 LDA特征提取
3.5特征提取的分合算法
3.5.1图像灰度二值化
3.5.2人脸定位中的图像分割
3.5.3分合算法描述
3.5.4分割
3.5.5合并
3.5.6相邻归并
3.5.7成组算法
3.5.8形状属性的计算
3.6本章小结
第四章基于视觉特征的语音端点检测
4.1基于图像比较的方法
4.2基于FAP的方法
4.2.1 FAP介绍
4.2.2 FAP的计算
4.2.3基于FAP语音端点检测
4.3基于函数的检测方法
4.3.1嘴唇的数学描述
4.3.2端点的检测
4.4本章小结
第五章音频和视频融合的端点检测技术
5.1音视频信息融合
5.2音视频结合的端点检测
5.3实验结果
第六章总结和展望
致谢
参考文献
附录