您现在的位置：首页> 研究主题> 语音增强

语音增强

语音增强的相关文献在1957年到2023年内共计2133篇，主要集中在无线电电子学、电信技术、自动化技术、计算机技术、物理学等领域，其中期刊论文1089篇、会议论文127篇、专利文献170832篇；相关期刊321种，包括电声技术、电子学报、电子与信息学报等；相关会议88种，包括第十二届全国人机语言通讯学术会议（NCMMSC`2013）、第十六届全国信号处理学术年会及产业发展大会、第23届全国计算机新科技与计算机教育学术会议等；语音增强的相关文献由3347位作者贡献，包括张雄伟、曾庆宁、赵力等。

语音增强—发文量

期刊论文>

论文：1089篇占比：0.63%

会议论文>

论文：127篇占比：0.07%

专利文献>

论文：170832篇占比：99.29%

总计：172048篇

语音增强—发文趋势图

语音增强
-研究学者

张雄伟
曾庆宁
赵力
童峰
贾海蓉
叶利剑
宁更新
张雪英
蓝天
赵晓晖
邹霞
颜永红
马建芬
冯义志
刘峤
张军
李晓东
鲍长春
余华
叶中付
季飞
李如玮
梁瑞宇
王青云
袁文浩
赵鹤鸣
张晨
张正友
张涛
殷福亮
洪青阳
郑羲光
周跃海
李森
欧世峰
王冬霞
陶智
高勇
刘自成
吕忆蓝
彭川
郭英
陈紫强
叶文政
惠国强
李萌
杜利民
王健宗
谢跃
郑成诗

语音增强
-相关主题

语音增强
-相关期刊

语音增强
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(1)
2022
(259)
2021
(190)
2020
(53)
2019
(57)
2018
(44)
2017
(53)
2016
(47)
2015
(52)
2014
(56)
2013
(60)
2012
(46)
2011
(70)
2010
(68)
2009
(74)
2008
(71)
2007
(74)
2006
(66)
2005
(45)
2004
(25)
2003
(28)
2002
(9)
2001
(10)
2000
(5)
1999
(2)
1998
(6)
1996
(1)
1995
(2)
1993
(1)
1991
(1)
1957
(1)

期刊

收录数据库

作者

张雄伟
(46)
曾庆宁
(38)
赵力
(23)
童峰
(22)
贾海蓉
(20)
叶利剑
(19)
宁更新
(19)
张雪英
(19)
蓝天
(18)
赵晓晖
(18)
邹霞
(18)
颜永红
(18)
马建芬
(18)
冯义志
(17)
刘峤
(17)
张军
(17)
李晓东
(17)
鲍长春
(17)
余华
(16)
叶中付
(16)
季飞
(16)
李如玮
(15)
梁瑞宇
(15)
王青云
(15)
袁文浩
(15)
赵鹤鸣
(15)
张晨
(14)
张正友
(14)
张涛
(14)
殷福亮
(14)
洪青阳
(14)
郑羲光
(14)
周跃海
(13)
李森
(13)
欧世峰
(13)
王冬霞
(13)
陶智
(13)
高勇
(13)
刘自成
(12)
吕忆蓝
(12)
彭川
(12)
郭英
(12)
陈紫强
(12)
叶文政
(11)
惠国强
(11)
李萌
(11)
杜利民
(11)
王健宗
(11)
谢跃
(11)
郑成诗
(11)

关键词

申请/权力人

;

1. 基于RefineNet的端到端语音增强方法
- 蓝天；彭川；李森；钱宇欣；陈聪；刘峤
- 摘要：为提高神经网络对语音信号时域波形的直接处理能力,提出了一种基于RefineNet的端到端语音增强方法.本文构建了一个时频分析神经网络,模拟语音信号处理中的短时傅里叶变换,利用RefineNet网络学习含噪语音到纯净语音的特征映射.在模型训练阶段,用多目标联合优化的训练策略将语音增强的评价指标短时客观可懂度(Short-time objective intelligibility,STOI)与信源失真比(Source to distortion ratio,SDR)融入到训练的损失函数.在与具有代表性的传统方法和端到端的深度学习方法的对比实验中,本文提出的算法在客观评价指标上均取得了最好的增强效果,并且在未知噪声和低信噪比条件下表现出更好的抗噪性.
2. 基于矢量量化生成对抗网络的老电影音频增强算法研究
- 王童；王雨田；王晖；张勤
- 摘要：电影经历了百余年的历史,一些记录老电影音频的感光胶片由于受到时间侵蚀和人为损坏,产生了霉斑、划痕等痕迹,导致还音时出现了背景噪声,影响听感。目前国内外针对老电影的音频修复主要依靠人工,工作量大、修复周期长。深度学习的发展使机器在音频修复方面代替人工成为可能。本文将基于生成对抗网络的语音增强模型SEGAN应用于老电影音频修复当中,并结合老电影音频的噪声特点对模型进行改进。在判别器中加入矢量量化层以匹配生成器性能,在生成器中加入频域损失,使降噪后的音频在频域上与干净音频更加相似。实验结果表明,本文提出的方法能够进一步提高老电影音频的降噪效果,各客观评价指标均有所提升。
3. 基于VMD和Teager能量算子倒谱的方言语种识别
- 付英；刘增力
- 摘要：针对汉语方言识别率低和在噪声环境下鲁棒性差问题,将特征提取与语音增强结合,提出一种基于变分模态分解(Variational Mode Decomposition,VMD)的改进梅尔频率倒谱系数(MelFrequency Cepstral Coefficients,MFCC)和Teager能量算子倒谱系数(Teager Energy Operator Cepstral Coefficient,TEOCC)融合的特征提取算法。该算法先将方言信号经VMD改进算法提取特征后再与TEOCC融合,最后通过高斯混合通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)进行方言语种识别。实验结果表明:相对于单一的MFCC特征,所提方法在无噪和有噪环境下识别率均有所提升,验证了改进算法在方言语种识别中的有效性。
4. 双麦克风语音增强算法研究与实现
- 崔智恒；焦继业；祝禛天
- 摘要：为了满足小型化嵌入式设备语音增强对阵列体积和语音增强性能的需求,提出了一种基于一阶差分阵列的双麦克风语音增强改进算法,并给出了硬件实现方案。针对现有算法容易因静音段估计不准确造成语音增强性能下降这一问题,引入了语音活动检测,通过语音活动检测对有无声段进行判别,实现对静音段的准确估计。实验结果表明,引入语音活动检测可以有效提高语音增强的质量,相较于改进前,语音PESQ得分平均提高20.18%;基于该改进方案的FPGA硬件实现,在结果准确性方面,与纯浮点Matlab平台等效,在实时性方面,处理1 s的16 kHz语音仅需要1.92 ms,可实现实时语音增强。
5. DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强
- 徐峰；李平
- 摘要：本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务。该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编解码器,集成DDSP组件利用强归纳偏置显著提升自动编码器性能,变分概率瓶颈改善脉冲噪声源的抑制,增加对未知数据分布的鲁棒性;引入DDSP中的Multi-Scale Spectral Loss,利用振荡器感知偏差,指导生成器优化感知性能;将SI-SNR Loss优化判别器性能,以平衡生成对抗网络结构,促使模型稳定训练。该模型在DNS开发数据集和Voice Bank+DEMAND数据集下评估优于基线模型和最近部分研究,证明了本文提出的DVUGAN在变换域语音增强领域的优越性。
6. 结合优化U⁃Net和残差神经网络的单通道语音增强算法
- 许春冬；徐琅；周滨
- 摘要：语音增强的目的是从带噪语音中恢复出干净的语音信号,为了解决现有深度神经网络中语音增强算法不稳定,语音增强效果不理想的问题,提出一种改进的U⁃Net网络与残差神经网络相结合的语音增强算法。首先,该方法构建了一个基于U⁃Net网络的端到端的语音增强模型;然后在该模型的编解码块中引入残差单元,将残差神经网络结构的跨层连接和拟合残差项应用到模型训练中,该方法更有利于恢复目标语音的细节特征信息,增强了模型训练的稳定性,提高了模型的特征提取能力和训练效率,改进后的Residual⁃U⁃Net网络模型能够实现更优的语音增强效果。仿真实验结果表明:与现有的其他几种语音增强方法相比,文中所提出的Residual⁃U⁃Net算法更有效地实现了语音增强,此外,该算法具有良好的去噪效果,进一步提高了语音信号的质量及其可懂度。
7. 结合自适应软掩模和混合特征的语音增强
- 张敏；贾海蓉；张刚敏；王素英
- 摘要：针对采用梅尔域特征进行语音增强时存在有效特征丢失的问题,提出采用更符合人耳压缩感知的幂函数提取带噪语音的伽马通域特征,将其与梅尔域特征深度混合进行语音增强,用于改善梅尔域滤波器在高频处丢失有效特征的局限性。同时,为了捕获语音的瞬变信息和相邻帧语音信息间的联系,求取混合特征的差分导数,将其与初始特征融合得到混合特征。其次,由于传统的时频掩蔽无法根据信噪比的不同自动调节,从而影响了增强语音的可懂度。为使系统在提升语音质量的同时尽可能地减少语音失真,提出一种可以根据信噪比信息自适应调节的软掩模,其可以根据语音信噪比信息的不同进行自动调节,得到相应信噪比条件下的掩蔽值,并在其中融入可提升语音可懂度的相位差信息。最后,对不同噪声背景下的多条语音进行实验。实验结果表明,采用混合特征和自适应软掩模进行语音增强时,保持了语音频谱的完整性,可提升主观语音增强质量和短时客观可懂度,验证了所提算法的有效性。
8. 基于时频域生成对抗网络的语音增强算法
- 尹文兵；高戈；曾邦；王霄；陈怡
- 摘要：传统基于生成对抗网络的语音增强算法(Speech Enhancement Algorithm Based on Generative Adversarial Networks,SEGAN)在时域上对语音进行增强处理,完全忽略了语音样本在频域上的分布情况。在低信噪比条件下,语音信号会淹没在噪声中,带噪语音的时域分布信息很难捕获,因此,SEGAN的增强性能会急剧下降,其增强语音的语音质量和语音可懂度很低。针对该问题,提出了基于时频域生成对抗网络的语音增强算法(Time-Frequency Domain SEGAN,TFSEGAN)。TFSEGAN采用了时频域双判别器的模型结构和时频域L1损失函数,时域判别器的输入为语音样本的时域特征,频域判别器的输入为语音样本的频域特征。在训练过程中,时域判别器将语音样本的时域分布信息作为判别标准,而频域判别器将语音样本的频域分布信息作为判别标准。在两个判别器的作用下,TFSEGAN的生成器能够同时学习语音样本在时域和频域中的分布规律和信息。实验证明,在低信噪比条件下,与SEGAN相比,TFSEGAN的语音质量与可懂度分别提升了约17.45%和11.75%。
9. 基于CEEMDAN的多级联合处理的语音增强算法
- 曾金芳；张新；刘雨杏
- 摘要：为减少噪声污染,改善语音质量,语音增强是解决噪声污染的一种有效方法。针对传统语音增强在语音质量和语音可懂度方面的不足,对传统算法进行改进是非常有必要的。研究了将带噪声音基于自适应的完备经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)处理,将带噪语音转化为多个模态分量进行第二阶处理。当带噪语音为低信噪比时,语音采用快速独立成分分析(Fast Independent Component Analysis,Fast ICA)算法进行噪声分离,再通过对数最小均方误差(log Minimum Mean Square Error Estimation,log-MMSE)算法对分离后的带噪分量进一步处理,最后合成语音。当带噪语音处于高信噪比时,不需要对噪声进行剥离,直接采用最小均方误差(Minimum Mean Square Error Estimation,MMSE)算法对带噪分量进行处理,使输出较为清晰的语音。结果表明,改进算法对语音的增强效果明显。
- CEEMDAN
- FastICA算法
- log-MMSE
- MMSE
- 语音增强
10. 噪声环境下语音信号增强方法和研究
- 李思嘉；赵婧；蔡树阳
- 摘要：基于小波去噪理论实现了阈值法语音增强算法,传统的软阈值法与硬阈值法在去噪处理上均有不足,经过软阈值法处理的语音信号与原始信号相比存在恒定误差,经过硬阈值法处理的语音信号不够光滑,且附加震荡的存在。在软硬阈值法的基础上提出了一种改进的软硬阈值折衷算法,提出的改进软硬阈值折衷算法和传统的阈值算法相比其适应性更优,克服了硬阈值函数不连续的缺点,减小了软阈值函数中估计小波系数与分解小波系数的恒定偏差,仿真结果说明,根据噪声信号的不同,通过修改式中系数,可得到比传统阈值法去噪更优的结果。

1. 一种车内语音增强器、语音增强系统及增强方法
- 无锡吉兴汽车声学部件科技有限公司
- 公开公告日期：2020-01-03
- 摘要：本发明公开了一种车内语音增强器、语音增强系统及增强方法，该语音增强系统包括语音采集麦克风组件、车内语音增强器和车内FM广播组件，语音采集麦克风组件通过信号线与车内语音增强器的语音采集麦克风接线柱相连，车内语音增强器插接于汽车驾驶舱内的CAN口处，语音采集麦克风采集到驾驶者的语音信号后传递车内语音增强器；语音增强器经过消噪增强后将语音信号通过FM信号发射控制板发出；车内FM广播接收到发出的语音信号并传递到车内扬声器进行播放。上述语音增强系统不仅实现了驾驶员语音信号的增强并传递到后排乘客区，提升车内语音交流清晰度；而且与汽车现有部件有很好的兼容性，无需对原车进行改造，布置简单，节约成本。
2. 语音增强模型训练方法、语音增强方法、相关设备及介质
- 北京达佳互联信息技术有限公司
- 公开公告日期：2022-04-05
- 摘要：本公开关于一种语音增强模型训练方法、语音增强方法、相关设备及介质。训练方法包括：基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整语音增强模型的参数，对语音增强模型进行训练。
3. 语音增强模型的训练方法、语音增强方法、装置以及设备
- 广州方硅信息技术有限公司
- 公开公告日期：2022-06-03
- 摘要：本申请涉及网络直播技术领域，提出一种语音增强模型的训练方法、语音增强方法、装置、计算机设备及存储介质，该方法包括：获取语音增强模型的训练样本数据；根据训练样本数据中带噪语音信号的幅度谱和待训练的语音增强模型，获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱；根据幅度谱、对数梅尔功率谱以及语音信号，获得语音增强损失值；根据语音增强损失值对语音增强模型进行优化训练，获得训练好的语音增强模型，提高语音增强模型的鲁棒性、使降噪效果明显。
4. 语音增强评测方法、语音增强评测模型的训练方法和装置
- 北京达佳互联信息技术有限公司
- 公开公告日期：2022-07-01
- 摘要：本公开关于一种语音增强评测方法、语音增强评测模型的训练方法和装置，语音增强评测方法包括：获取含噪语音样本，含噪语音样本包括原始语音样本和原始噪声样本；将含噪语音样本输入待测语音增强模型，得到增强含噪语音；将增强含噪语音、原始语音样本和原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声；根据预估增强语音和预估增强噪声，确定待测语音增强模型的评测值。
5. 语音增强模型的训练方法和语音增强方法
- 北京达佳互联信息技术有限公司
- 公开公告日期：2022-07-15
- 摘要：本公开关于语音增强模型的训练方法和语音增强方法，包括：获取多个说话对象的训练样本；将每个说话对象的第一纯净语音信号样本输入语音表征提取器；将每个说话对象的语音表征输入分类器；将每个说话对象的语音表征和重叠语音带噪信号样本的幅度谱输入语音提取器，并根据预测的该说话对象的增强语音信号的幅度谱掩码确定预测的该说话对象的增强语音信号；根据每个说话对象对应的增强语音信号、第二纯净语音信号样本、标识预测结果以及标识标签，计算损失；通过损失调整语音提取器、语音表征提取器和分类器的参数，以对语音增强模型进行训练。这样，经过训练的语音增强模型可以从多个说话对象的语音信号中精准提取出指定说话对象的语音信号。
6. 多通道语音增强模型训练方法、语音增强方法及装置
- 贝壳找房(北京)科技有限公司
- 公开公告日期：2022-10-11
- 摘要：本发明提供一种多通道语音增强模型训练方法、多通道语音增强方法及装置，该训练方法包括：根据波束的主瓣位置及期望的主瓣形状仿真产生多通道语音训练样本；多通道语音正样本包括产生于主瓣内部的语音信号，多通道语音负样本的语音信号产生于主瓣外部；根据目标声源方向对多通道语音训练样本进行相位对齐，提取空间特征及语谱特征输入到神经网络模型，将正样本的标签设为主瓣内信号，负样本的标签设为0，训练得到语音增强模型。本发明通过构建不同主瓣位置及形状的训练数据获得期望的主瓣形状，主瓣宽度不受阵列尺寸的限制，旁瓣抑制不受麦克风数量的限制，旁瓣抑制效果好，语音增强模型规模不大，可以配置到计算资源有限的设备端进行实时处理。
7. 生成语音增强模型的方法和设备以及语音增强方法和设备
- 上海又为智能科技有限公司
- 公开公告日期：2022-03-01
- 摘要：本申请公开了一种用于生成语音增强模型的方法，其包括：获取音频训练数据；获取第一模型和第二模型，其中第一模型为深度神经网络模型，第二模型在运行时的资源占用少于第一模型；基于音频训练数据训练第一模型和所述第二模型，其包括：从输入音频获取帧长为M的第一音频；将第一音频输入至第一模型进行处理以获得第一输出结果；从输入音频获取帧长为N的第二音频，第二音频在第一音频之后，并且N语音增强模型。
8. 语音增强模型的训练方法和装置以及语音增强方法和装置
- 北京达佳互联信息技术有限公司
- 公开公告日期：2022-03-01
- 摘要：本公开提供一种语音增强模型的训练方法和装置以及语音增强方法和装置。所述训练方法可包括以下步骤：获取包括干净语音信号和带噪语音信号的训练样本；将带噪语音信号的信息输入特征提取网络，得到与带噪语音信号对应的特征；将特征输入降噪网络，得到由降噪网络预测的预测信息；将特征输入变速变调判定网络，得到由变速变调判定网络预测的带噪语音信号的变速变调估计值；基于带噪语音信号的信息、预测信息、变速变调估计值和干净语音信号的信息来调整特征提取网络、降噪网络和变速变调判定网络的参数，以训练语音增强模型。
9. 语音增强模型的训练方法及装置、语音增强方法及装置
- 北京达佳互联信息技术有限公司
- 公开公告日期：2021-10-26
- 摘要：本公开关于一种语音增强模型的训练方法及装置、语音增强方法及装置，训练方法包括：获取训练样本集；将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；将至少两个特征进行融合处理，得到融合后的特征；将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱；基于预估增强频谱对应的预估时域信号和对应的干净语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数，对语音增强模型进行训练。
10. 语音增强模型的构建方法及系统、语音增强方法及系统
- 杭州雄迈集成电路技术股份有限公司
- 公开公告日期：2021-09-14
- 摘要：本发明公开一种语音增强模型的构建方法及系统，还公开一种利用所构建的语音增强模型实现的语音增强方法及系统，其中构建方法包括基于相对应的纯净语音和带噪语音迭代训练语音增强网络的迭代训练步骤，具体为：将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；计算相对应的纯净语音和估计语音之间的幅度平方相干度；计算所述估计语音的能量谱密度数据；获取预设的听觉滤波器，基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；基于所述语音清晰度更新所述语音增强网络。本申请基于所述语音清晰度对模型参数进行更新，使训练所得的模型降噪结果更清晰可懂。

语音增强

语音增强—发文量

语音增强—发文趋势图

语音增强-研究学者

语音增强-相关主题

语音增强-相关期刊

语音增强-相关会议

语音增强
-研究学者

语音增强
-相关主题

语音增强
-相关期刊

语音增强
-相关会议