首页> 中文期刊> 《自动化与仪器仪表》 >面向多人语音识别的对话系统研究

面向多人语音识别的对话系统研究

         

摘要

针对传统英语对话系统受环境噪声影响,出现多人混合语音分离现象,造成多人英语语音识别和对话效果降低的问题,提出一种基于深度学习的语音增强和传统阵列信号处理的多人英语语音分离系统。首先,采用基于长短时记忆网络LSTM的多目标语音增强算法捕捉英语语音序列的长时特性;然后建立一个两阶段的单通道多人语音分离框架提取目标说话人语音;最后将提取语音与阵列算法进行融合,并通过空间信息实现目标说话人英语语音精确估计。结果表明,相较于DNN-DM模型和LSTM-IRM模型,提出的LSTM-DM模型的信噪比指标明显更高,此模型的平均PESQ由2.66提升至2.95,增益为0.074%。由此说明,LSTM-DM模型的英语语音去噪和语音增强效果更好。提出的特定说话人前端系统的英语语音对话词错误率为65.3%,对比于Officoal Beamformlt系统和CGMM3Mask Fusion模型下降了14.6%和5.1%。说明此系统可实现多人混合英语语音分离,具备一定的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号