首页> 中文学位 >语音识别中神经网络声学模型的说话人自适应研究
【6h】

语音识别中神经网络声学模型的说话人自适应研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 发展历史及现状

1.3 语音识别框架

1.3.1 特征提取

1.3.2 声学模型

1.3.3 语言模型

1.3.4 解码器

1.4 说话人自适应技术

1.5 系统的评价指标

1.6 本文主要研究内容及结构安排

第二章 基于辅助特征的说话人自适应方法

2.1 引言

2.2 HMM-DNN声学建模

2.3 基于辅助特征的说话人自适应模型

2.4 鉴别性矢量

2.4.1 全局差异空间矩阵的估计

2.4.2 鉴别性矢量的提取

2.5 瓶颈说话人矢量

2.5.1 瓶颈特征

2.5.2 瓶颈说话人矢量的提取

2.6 最大似然线性回归

2.6.1 无约束最大似然线性回归

2.6.2 约束最大似然线性回归

2.7 实验结果与分析

2.7.1 实验语料库及环境配置

2.7.2 基线系统

2.7.3 结果与分析

2.8 本章小结

第三章 基于LHUC的说话人自适应方法

3.1 引言

3.2 LHUC自适应方法

3.2.1 LHUC基本原理

3.2.2 自适应参数更新

3.3 基于多任务学习的说话人自适应方法

3.3.1 多任务学习基本原理

3.3.2 多任务学习的LHUC自适应系统

3.4 实验结果与分析

3.4.1 实验配置

3.4.2 结果与分析

3.5 本章小结

第四章 基于卷积神经网络的说话人自适应方法

4.1 引言

4.2 卷积神经网络模型

4.2.1 卷积层

4.2.2 池化层

4.2.3 全连接层

4.3 基于CNN的说话人自适应建模

4.3.2 CNN-LHUC自适应方法

4.3.3 基于i-vector的CNN自适应方法

4.4 实验结果与分析

4.4.1 实验配置

4.4.2 结果与分析

4.5 本章小结

第五章 总结与展望

5.1 论文工作总结

5.2 研究工作展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

近年来,深度神经网络(Deep Neural Network,DNN)技术在自动语音识别(Auto Speech Recognition,ASR)中取得了重大的突破,相比于传统的高斯混合模型(Gaussian Mixture Model,GMM)显著地提升了系统的识别性能。然而,像其他监督学习方法一样,DNN容易受到由于训练和测试条件不匹配导致的性能下降的影响,说话人自适应(Speaker Adaptation,SA)是为了解决说话人差异导致的不匹配问题,在基于神经网络的声学模型上研究说话人自适应技术成为语音识别领域的一个热门方向。本文分别从特征和模型的角度对说话人自适应方法进行研究,对这些自适应方法进行融合和改进,并深入探究基于卷积神经网络的说话人自适应方法,论文的主要研究工作如下:
  首先,针对声学模型中DNN对说话人信息辨别能力差的情况,引入基于辅助特征的说话人自适应方法,将包含说话人信息的特征与声学特征拼接共同作为DNN的输入,增强网络对说话人信息的感知能力。实验结果表明,基于辅助特征的说话人自适应方法有助于提升网络的区分能力,减小说话人之间的差异性,进而降低系统的单词错误率。
  接着,深入研究基于学习性隐层单元分布(Learning Hidden Unit Contributions,LHUC)的模型域自适应方法,并分别采取两种策略对原方法进行改进。从自适应方法之间的互补性角度出发,本文提出LHUC与辅助特征相融合的方法进一步提升系统的识别性能。此外,为了解决自适应阶段的数据稀疏问题,多任务学习(Multi-task Learning,MTL)引入到LHUC自适应中,它通过加入额外的音素分类任务作为辅助任务帮助自适应参数更新。实验结果表明,基于融合的自适应方法能够有效地提升模型对特定说话人的匹配程度,进一步降低系统的单词错误率;基于MTL-LHUC的自适应方法通过扩大声学空间的覆盖范围弥补了稀少的状态分类问题,在有限的自适应数据条件下取得了更出色的性能提升。
  最后,本文对卷积神经网络(Convolutional Neural Network,CNN)框架的说话人自适应方法展开研究。为了利用LHUC这种具有诸多优良特性的模型域自适应方法,本文尝试对该方法进行改进使之适用于CNN的声学模型中,分别通过对比实验比较自适应层置于卷积层、池化层以及输入层的性能差异并证实该方法的有效性。同时,本文还提出一种基于i-vector的卷积层自适应结构,该方法通过一个变换矩阵将i-vector插入卷积层,新的卷积层结构在提取局部信息的同时也能够减小说话人之间的差异性。相关的实验结果表明该方法相比于基线系统有效地降低了单词错误率,并且仅增加了少量的参数作为代价。此外,将以上两种方法进行融合对系统性能有更进一步的提升,在无监督自适应模式下取得了最优的实验结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号