您现在的位置: 首页> 研究主题> 语音增强

语音增强

语音增强的相关文献在1957年到2023年内共计2133篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、物理学 等领域,其中期刊论文1089篇、会议论文127篇、专利文献170832篇;相关期刊321种,包括电声技术、电子学报、电子与信息学报等; 相关会议88种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十六届全国信号处理学术年会及产业发展大会、第23届全国计算机新科技与计算机教育学术会议等;语音增强的相关文献由3347位作者贡献,包括张雄伟、曾庆宁、赵力等。

语音增强—发文量

期刊论文>

论文:1089 占比:0.63%

会议论文>

论文:127 占比:0.07%

专利文献>

论文:170832 占比:99.29%

总计:172048篇

语音增强—发文趋势图

语音增强

-研究学者

  • 张雄伟
  • 曾庆宁
  • 赵力
  • 童峰
  • 贾海蓉
  • 叶利剑
  • 宁更新
  • 张雪英
  • 蓝天
  • 赵晓晖
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 蓝天; 彭川; 李森; 钱宇欣; 陈聪; 刘峤
    • 摘要: 为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性.
    • 王童; 王雨田; 王晖; 张勤
    • 摘要: 电影经历了百余年的历史,一些记录老电影音频的感光胶片由于受到时间侵蚀和人为损坏,产生了霉斑、划痕等痕迹,导致还音时出现了背景噪声,影响听感。目前国内外针对老电影的音频修复主要依靠人工,工作量大、修复周期长。深度学习的发展使机器在音频修复方面代替人工成为可能。本文将基于生成对抗网络的语音增强模型SEGAN应用于老电影音频修复当中,并结合老电影音频的噪声特点对模型进行改进。在判别器中加入矢量量化层以匹配生成器性能,在生成器中加入频域损失,使降噪后的音频在频域上与干净音频更加相似。实验结果表明,本文提出的方法能够进一步提高老电影音频的降噪效果,各客观评价指标均有所提升。
    • 付英; 刘增力
    • 摘要: 针对汉语方言识别率低和在噪声环境下鲁棒性差问题,将特征提取与语音增强结合,提出一种基于变分模态分解(Variational Mode Decomposition,VMD)的改进梅尔频率倒谱系数(MelFrequency Cepstral Coefficients,MFCC)和Teager能量算子倒谱系数(Teager Energy Operator Cepstral Coefficient,TEOCC)融合的特征提取算法。该算法先将方言信号经VMD改进算法提取特征后再与TEOCC融合,最后通过高斯混合通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)进行方言语种识别。实验结果表明:相对于单一的MFCC特征,所提方法在无噪和有噪环境下识别率均有所提升,验证了改进算法在方言语种识别中的有效性。
    • 崔智恒; 焦继业; 祝禛天
    • 摘要: 为了满足小型化嵌入式设备语音增强对阵列体积和语音增强性能的需求,提出了一种基于一阶差分阵列的双麦克风语音增强改进算法,并给出了硬件实现方案。针对现有算法容易因静音段估计不准确造成语音增强性能下降这一问题,引入了语音活动检测,通过语音活动检测对有无声段进行判别,实现对静音段的准确估计。实验结果表明,引入语音活动检测可以有效提高语音增强的质量,相较于改进前,语音PESQ得分平均提高20.18%;基于该改进方案的FPGA硬件实现,在结果准确性方面,与纯浮点Matlab平台等效,在实时性方面,处理1 s的16 kHz语音仅需要1.92 ms,可实现实时语音增强
    • 徐峰; 李平
    • 摘要: 本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务。该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编解码器,集成DDSP组件利用强归纳偏置显著提升自动编码器性能,变分概率瓶颈改善脉冲噪声源的抑制,增加对未知数据分布的鲁棒性;引入DDSP中的Multi-Scale Spectral Loss,利用振荡器感知偏差,指导生成器优化感知性能;将SI-SNR Loss优化判别器性能,以平衡生成对抗网络结构,促使模型稳定训练。该模型在DNS开发数据集和Voice Bank+DEMAND数据集下评估优于基线模型和最近部分研究,证明了本文提出的DVUGAN在变换域语音增强领域的优越性。
    • 许春冬; 徐琅; 周滨
    • 摘要: 语音增强的目的是从带噪语音中恢复出干净的语音信号,为了解决现有深度神经网络中语音增强算法不稳定,语音增强效果不理想的问题,提出一种改进的U⁃Net网络与残差神经网络相结合的语音增强算法。首先,该方法构建了一个基于U⁃Net网络的端到端的语音增强模型;然后在该模型的编解码块中引入残差单元,将残差神经网络结构的跨层连接和拟合残差项应用到模型训练中,该方法更有利于恢复目标语音的细节特征信息,增强了模型训练的稳定性,提高了模型的特征提取能力和训练效率,改进后的Residual⁃U⁃Net网络模型能够实现更优的语音增强效果。仿真实验结果表明:与现有的其他几种语音增强方法相比,文中所提出的Residual⁃U⁃Net算法更有效地实现了语音增强,此外,该算法具有良好的去噪效果,进一步提高了语音信号的质量及其可懂度。
    • 张敏; 贾海蓉; 张刚敏; 王素英
    • 摘要: 针对采用梅尔域特征进行语音增强时存在有效特征丢失的问题,提出采用更符合人耳压缩感知的幂函数提取带噪语音的伽马通域特征,将其与梅尔域特征深度混合进行语音增强,用于改善梅尔域滤波器在高频处丢失有效特征的局限性。同时,为了捕获语音的瞬变信息和相邻帧语音信息间的联系,求取混合特征的差分导数,将其与初始特征融合得到混合特征。其次,由于传统的时频掩蔽无法根据信噪比的不同自动调节,从而影响了增强语音的可懂度。为使系统在提升语音质量的同时尽可能地减少语音失真,提出一种可以根据信噪比信息自适应调节的软掩模,其可以根据语音信噪比信息的不同进行自动调节,得到相应信噪比条件下的掩蔽值,并在其中融入可提升语音可懂度的相位差信息。最后,对不同噪声背景下的多条语音进行实验。实验结果表明,采用混合特征和自适应软掩模进行语音增强时,保持了语音频谱的完整性,可提升主观语音增强质量和短时客观可懂度,验证了所提算法的有效性。
    • 尹文兵; 高戈; 曾邦; 王霄; 陈怡
    • 摘要: 传统基于生成对抗网络的语音增强算法(Speech Enhancement Algorithm Based on Generative Adversarial Networks,SEGAN)在时域上对语音进行增强处理,完全忽略了语音样本在频域上的分布情况。在低信噪比条件下,语音信号会淹没在噪声中,带噪语音的时域分布信息很难捕获,因此,SEGAN的增强性能会急剧下降,其增强语音的语音质量和语音可懂度很低。针对该问题,提出了基于时频域生成对抗网络的语音增强算法(Time-Frequency Domain SEGAN,TFSEGAN)。TFSEGAN采用了时频域双判别器的模型结构和时频域L1损失函数,时域判别器的输入为语音样本的时域特征,频域判别器的输入为语音样本的频域特征。在训练过程中,时域判别器将语音样本的时域分布信息作为判别标准,而频域判别器将语音样本的频域分布信息作为判别标准。在两个判别器的作用下,TFSEGAN的生成器能够同时学习语音样本在时域和频域中的分布规律和信息。实验证明,在低信噪比条件下,与SEGAN相比,TFSEGAN的语音质量与可懂度分别提升了约17.45%和11.75%。
    • 曾金芳; 张新; 刘雨杏
    • 摘要: 为减少噪声污染,改善语音质量,语音增强是解决噪声污染的一种有效方法。针对传统语音增强在语音质量和语音可懂度方面的不足,对传统算法进行改进是非常有必要的。研究了将带噪声音基于自适应的完备经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)处理,将带噪语音转化为多个模态分量进行第二阶处理。当带噪语音为低信噪比时,语音采用快速独立成分分析(Fast Independent Component Analysis,Fast ICA)算法进行噪声分离,再通过对数最小均方误差(log Minimum Mean Square Error Estimation,log-MMSE)算法对分离后的带噪分量进一步处理,最后合成语音。当带噪语音处于高信噪比时,不需要对噪声进行剥离,直接采用最小均方误差(Minimum Mean Square Error Estimation,MMSE)算法对带噪分量进行处理,使输出较为清晰的语音。结果表明,改进算法对语音的增强效果明显。
    • 李思嘉; 赵婧; 蔡树阳
    • 摘要: 基于小波去噪理论实现了阈值法语音增强算法,传统的软阈值法与硬阈值法在去噪处理上均有不足,经过软阈值法处理的语音信号与原始信号相比存在恒定误差,经过硬阈值法处理的语音信号不够光滑,且附加震荡的存在。在软硬阈值法的基础上提出了一种改进的软硬阈值折衷算法,提出的改进软硬阈值折衷算法和传统的阈值算法相比其适应性更优,克服了硬阈值函数不连续的缺点,减小了软阈值函数中估计小波系数与分解小波系数的恒定偏差,仿真结果说明,根据噪声信号的不同,通过修改式中系数,可得到比传统阈值法去噪更优的结果。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号