首页> 中文期刊> 《电声技术》 >基于全局注意力机制的CNN-LSTM说话人识别研究

基于全局注意力机制的CNN-LSTM说话人识别研究

         

摘要

目前基于深度学习的说话人识别算法中,大多数算法只考虑了语音的空间域特征或时域特征,且模型训练难度大,准确率较低。针对说话人识别过程中存在的连续性强、空域、时域和频域特征提取不充分的难点,提出一种基于注意力机制(Attention mechanism)的混合卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)的说话人识别方法。该方法首先提取数据集Mel频率倒谱系数(Mel Frequency Cepstral Cofficient,MFCC)和Gammatone滤波器倒谱系数(Gammatone Frequency Cepstral Coefficients,GFCC);其次采用CNN从提取到的声学特征参数中提取高层次的属性特征,将学习到的深度特征参数经转换后送入LSTM中,以充分提取语音信号的时序信息;再次,使用注意力机制赋予LSTM隐藏层不同的权重,以增加关键帧语音对识别结果的贡献度;最后采用Softmax层实现说话人识别的分类。实验结果表明,所提的算法在中文数据集的准确率比CNN和CNN+LSTM模型分别提升10.38%和9.65%;在Librispeech数据集的准确率分别提高5.56%和5.72%。因此,本方法能充分考虑语音时频信息和关键帧的贡献度,进一步提高说话人识别的准确度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号