首页> 中文期刊> 《中国传媒大学学报(自然科学版)》 >基于语音分离的人工设计特征、参数化特征和可学习特征的比较

基于语音分离的人工设计特征、参数化特征和可学习特征的比较

         

摘要

声学特征可以大致分为三类:人工设计特征,参数化特征和可学习特征。其中,可学习特征是指将其与分离网络以端到端的方式进行联合训练,如时域卷积语音分离网络(convolutional time domain audio separation network,Conv‑Tasnet),这成为了如今语音分离研究中的一种新的趋势。然而在最近的研究中证明了人工设计特征以及参数化特征也能产生具有竞争力的结果。但是,截止目前还没有工作对这三种声学特征进行系统的比较。本文通过设置不同声学特征作为编码器和解码器,在Conv‑Tasnet框架下对它们进行比较。我们还将人工设计的多相位gammatone滤波器组(multi‑phase gammatone filterbank,MPGTF)扩展为一种新的参数化多相位gammatone滤波器组(Parameterized MPGTF,ParaMPGTF)。在WSJ0‑2mix数据集上的实验结果表明:(i)如果解码器是可学习特征时,将编码器设置为STFT,MPGTF,ParaMPGTF以及可学习特征的性能相近;(ii)如果将STFT,MPGTF,ParaMPGTF的逆变换作为解码器时,所提出的ParaMPGTF相比于其他两种人工设计特征有更好的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号