基于全局注意力机制的CNN-LSTM说话人识别研究

楚宪腾; 杨海涛; 闫道申; 许铭洋; 王华朋

首页> 中文期刊> 《电声技术》 >基于全局注意力机制的CNN-LSTM说话人识别研究

基于全局注意力机制的CNN-LSTM说话人识别研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

目前基于深度学习的说话人识别算法中,大多数算法只考虑了语音的空间域特征或时域特征,且模型训练难度大,准确率较低。针对说话人识别过程中存在的连续性强、空域、时域和频域特征提取不充分的难点,提出一种基于注意力机制(Attention mechanism)的混合卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)的说话人识别方法。该方法首先提取数据集Mel频率倒谱系数(Mel Frequency Cepstral Cofficient,MFCC)和Gammatone滤波器倒谱系数(Gammatone Frequency Cepstral Coefficients,GFCC);其次采用CNN从提取到的声学特征参数中提取高层次的属性特征,将学习到的深度特征参数经转换后送入LSTM中,以充分提取语音信号的时序信息;再次,使用注意力机制赋予LSTM隐藏层不同的权重,以增加关键帧语音对识别结果的贡献度;最后采用Softmax层实现说话人识别的分类。实验结果表明,所提的算法在中文数据集的准确率比CNN和CNN+LSTM模型分别提升10.38%和9.65%;在Librispeech数据集的准确率分别提高5.56%和5.72%。因此,本方法能充分考虑语音时频信息和关键帧的贡献度,进一步提高说话人识别的准确度。

著录项

来源
《电声技术》 |2022年第2期|38-45|共8页
作者
楚宪腾; 杨海涛; 闫道申; 许铭洋; 王华朋;
展开▼
作者单位

中国刑事警察学院公安信息与情报学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类语音信号处理;
关键词
声纹识别; 卷积神经网络(CNN); 长短期记忆网络(LSTM); 注意力机制;

相似文献

中文文献
外文文献
专利

1. 基于注意力机制的CNN-LSTM剩余寿命预测研究 [J] . 赵志宏 ,李晴 ,杨绍普 . 铁道车辆 . 2022,第1期
2. 基于自注意力机制的CNN-LSTM模型在ICD智能编码系统中的应用研究 [J] . 王阳阳 ,郑西川 . 中国数字医学 . 2020,第011期
3. 基于自注意力机制和CNN-LSTM深度学习的对虾投饵量预测模型 [J] . 何津民 ,张丽珍 . 大连海洋大学学报 . 2022,第2期
4. 基于注意力机制的CNN-LSTM短期股票价格预测 [J] . 沈山山 ,李秋敏 . 软件 . 2022,第2期
5. 基于注意力机制的CNN-LSTM短期电力负荷预测方法 [J] . 魏健 ,赵红涛 ,刘敦楠 . 华北电力大学学报(自然科学版) . 2021,第001期
6. 基于协同注意力机制的答案选择算法研究 [C] . 余本功 ,许庆堂 . 第十三届（2018）中国管理学年会 . -1
7. 基于全局与局部协同注意力的图文检索算法研究 [A] . 罗永盛 . 2020

基于全局注意力机制的CNN-LSTM说话人识别研究

摘要

著录项

相似文献

相关主题

期刊订阅