语音识别中神经网络声学模型的说话人自适应研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，深度神经网络(Deep Neural Network，DNN)技术在自动语音识别(Auto Speech Recognition，ASR)中取得了重大的突破，相比于传统的高斯混合模型(Gaussian Mixture Model，GMM)显著地提升了系统的识别性能。然而，像其他监督学习方法一样，DNN容易受到由于训练和测试条件不匹配导致的性能下降的影响，说话人自适应(Speaker Adaptation，SA)是为了解决说话人差异导致的不匹配问题，在基于神经网络的声学模型上研究说话人自适应技术成为语音识别领域的一个热门方向。本文分别从特征和模型的角度对说话人自适应方法进行研究，对这些自适应方法进行融合和改进，并深入探究基于卷积神经网络的说话人自适应方法，论文的主要研究工作如下:
　　首先，针对声学模型中DNN对说话人信息辨别能力差的情况，引入基于辅助特征的说话人自适应方法，将包含说话人信息的特征与声学特征拼接共同作为DNN的输入，增强网络对说话人信息的感知能力。实验结果表明，基于辅助特征的说话人自适应方法有助于提升网络的区分能力，减小说话人之间的差异性，进而降低系统的单词错误率。
　　接着，深入研究基于学习性隐层单元分布(Learning Hidden Unit Contributions，LHUC)的模型域自适应方法，并分别采取两种策略对原方法进行改进。从自适应方法之间的互补性角度出发，本文提出LHUC与辅助特征相融合的方法进一步提升系统的识别性能。此外，为了解决自适应阶段的数据稀疏问题，多任务学习(Multi-task Learning，MTL)引入到LHUC自适应中，它通过加入额外的音素分类任务作为辅助任务帮助自适应参数更新。实验结果表明，基于融合的自适应方法能够有效地提升模型对特定说话人的匹配程度，进一步降低系统的单词错误率;基于MTL-LHUC的自适应方法通过扩大声学空间的覆盖范围弥补了稀少的状态分类问题，在有限的自适应数据条件下取得了更出色的性能提升。
　　最后，本文对卷积神经网络（Convolutional Neural Network，CNN）框架的说话人自适应方法展开研究。为了利用LHUC这种具有诸多优良特性的模型域自适应方法，本文尝试对该方法进行改进使之适用于CNN的声学模型中，分别通过对比实验比较自适应层置于卷积层、池化层以及输入层的性能差异并证实该方法的有效性。同时，本文还提出一种基于i-vector的卷积层自适应结构，该方法通过一个变换矩阵将i-vector插入卷积层，新的卷积层结构在提取局部信息的同时也能够减小说话人之间的差异性。相关的实验结果表明该方法相比于基线系统有效地降低了单词错误率，并且仅增加了少量的参数作为代价。此外，将以上两种方法进行融合对系统性能有更进一步的提升，在无监督自适应模式下取得了最优的实验结果。

著录项

作者
古典;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科电子科学与技术
授予学位硕士
导师姓名李辉;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
语音识别; 说话人自适应; 卷积神经网络; 声学模型;

相似文献

中文文献
外文文献
专利

1. 语音识别中神经网络声学模型的说话人自适应研究 [J] . 金超 ,龚铖 ,李辉 . 计算机应用与软件 . 2018,第002期
2. 语音识别中说话人自适应方法研究综述 [J] . 朱方圆 ,马志强 ,陈艳 . 计算机科学与探索 . 2021,第012期
3. 说话人自适应技术在维吾尔语语音识别中的应用研究 [J] . 努尔麦麦提·尤鲁瓦斯 ,张力文 ,吾守尔·斯拉木 . 中文信息学报 . 2016,第003期
4. 基于改进门控单元神经网络的语音识别声学模型研究 [J] . 俞建强 ,颜雁 ,刘葳 . 长春理工大学学报（自然科学版） . 2020,第001期
5. 语音识别中基于低秩约束的本征音子说话人自适应方法 [J] . 张文林 ,张连海 ,陈琦 . 电子与信息学报 . 2014,第004期
6. 基于MLLR和MAP非母语说话人自适应语音识别 [C] . 尉洪 ,杨鉴 ,普园媛 . 第十二届全国信号处理学术会议 . 2005
7. DNN-HMM语音识别声学模型的说话人自适应 [A] . 薛少飞 . 2015

语音识别中神经网络声学模型的说话人自适应研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅