说话人识别
说话人识别的相关文献在1990年到2022年内共计850篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、语言学
等领域,其中期刊论文724篇、会议论文67篇、专利文献500669篇;相关期刊270种,包括科学技术与工程、电声技术、电子与信息学报等;
相关会议52种,包括第十二届全国人机语言通讯学术会议(NCMMSC`2013)、第十六届全国图象图形学学术会议 暨第六届立体图象技术学术研讨会、第十一届全国人机语音通讯学术会议等;说话人识别的相关文献由1500位作者贡献,包括景新幸、赵力、刘加等。
说话人识别—发文量
专利文献>
论文:500669篇
占比:99.84%
总计:501460篇
说话人识别
-研究学者
- 景新幸
- 赵力
- 刘加
- 唐振民
- 周萍
- 张玲华
- 李弼程
- 李战明
- 杨震
- 王波
- 俞一彪
- 林琳
- 檀蕊莲
- 韩纪庆
- 张庆芳
- 徐利敏
- 李明
- 李燕萍
- 李辉
- 郭武
- 杨莹春
- 王树勋
- 王金明
- 赵鹤鸣
- 郑宝玉
- 钱博
- 何亮
- 张卫强
- 张飞云
- 徐毅琼
- 曾庆宁
- 王吉林
- 赵振东
- 钱彦旻
- 周宇欢
- 周燕
- 尹俊勋
- 张振领
- 张歆奕
- 张雄伟
- 戴礼荣
- 李杰
- 杨海燕
- 王成儒
- 芮贤义
- 贺前华
- 贺松
- 贾仰理
- 邢玉娟
- 邱政权
-
-
汤爽;
张二华;
唐振民
-
-
摘要:
以便携式回放设备的语音为代表的假冒语音攻击,给说话人识别系统带来了严峻的挑战。针对这种回放语音攻击问题,论文提出一种基于小波包的多频带回放语音鉴别算法。首先,通过小波包分解及重构后的信号进行傅里叶变换,取每一帧频谱的最大值;然后,利用对数运算以及离散余弦变换(DCT)来得到鉴别特征;最后,使用高斯混合模型(GMM)作为分类器进行假冒语音判别。实验表明,该检测算法能有效地鉴别回放语音。
-
-
楚宪腾;
王华朋;
杨海涛;
林暖辉
-
-
摘要:
为进一步提高说话人识别的准确率,提出一种新的基于卷积神经网络的说话人识别方法。利用卷积神经网络强大的处理图像能力可有效提高说话人识别的准确率。卷积神经网络相对于其他网络结构简单,训练时间较短且准确率较高。该方法首先对语音信号进行了预处理,包括重采样、分帧、加窗等操作,然后提取梅尔频率倒谱系数,之后送入卷积神经网络进行训练。通过LibriSpeech标准库和中文数据库测试表明,本算法识别率达到95%,可有效进行说话人识别。
-
-
郭星辰;
俞一彪
-
-
摘要:
仿冒攻击严重影响说话人识别系统的安全应用。文中提出了一种具有录音回放仿冒攻击检测能力的说话人识别系统,该系统采用前端攻击检测与后端说话人确认的串联结构,并通过信道频响分析和说话人个性特征分析提出了一种信道频响差强化倒谱系数(Channel frequency response Difference Enhancement Cepstral Coefficient,CDECC),该特征参数通过三阶多项式非线性频率尺度变换同时强化语音信号低频段和高频段的频谱分量,能够有效反映不同输入信道频率响应和不同说话人语音频谱的差异。基于ASVspoof 20172.0数据库的非特定说话人文本无关录音回放攻击检测的实验表明,采用CDECC的录音回放攻击检测等错率(EER)为25.03%,相比基线系统下降了10%。通过在说话人确认的前端嵌入录音回放攻击检测模块,说话人识别系统的错误接受率(FAR)明显下降,系统EER从3.32%下降为1.01%,鲁棒性得到有效提升。
-
-
张新;
付中华
-
-
摘要:
特定人语音分离算法是指从包含多种说话人同时讲话场景的混合语音中,通过一个特征向量的引导来分离出特定说话人的语音。特征向量的获取通常有两种方式,一种是使用一组自定义的正交独热(one-hot)向量,该方法可以在训练过程中达到更好的训练效果,但是无法处理训练过程中未见过的说话人;另一种方法是使用一个分类网络自适应地生成具有说话人特征的嵌入式向量(embedding),该做法会因为分类网络的误差而损失一部分训练效果,但是可以在集外说话人的样本上取得较好的泛化效果。为了解决在特定人语音分离算法用单独使用one-hot或embedding作为特征向量存在的不足之处,提出了一种鲁棒的特定人语音分离方法,通过在训练过程中交替地使用one-hot向量和embedding作为目标说话人的身份特征向量,将one-hot和embedding映射到公共空间中,可以在保证训练效果的同时,增强对集外说话人的泛化能力。实验结果表明,在使用了这种混合训练方法之后,对于测试集中的集外说话人分离效果上SDR提升超过了10 dB。
-
-
黄多林;
刘栋;
郑智燊
-
-
摘要:
为提高说话人识别模型的性能,论文提出一种新颖的方法来提取具有鲁棒性的说话人可区分性特征。该方法将说话人映射到两个较低维度的嵌入空间,通过解散对抗和注意力机制,其中一个嵌入空间完成从语音信号的所有其他信息中解散出说话人相关信息,而另一个嵌入空间捕获所有其他无关的干扰因素。实验结果表明,在TIMIT数据集的两类实验设置中,论文方法分别比两个最先进方法提高2.74%和2.86%的识别准确率。并且通过实验分析测试集的损失和识别准确率,得出注意力机制和解散模块对本文方法的说话人识别性能确实有提升。
-
-
陈晨;
韩纪庆;
陈德运;
何勇军
-
-
摘要:
句级(Utterance-level)特征提取是文本无关说话人识别领域中的重要研究方向之一.与只能刻画短时语音特性的帧级(Frame-level)特征相比,句级特征中包含了更丰富的说话人个性信息;且不同时长语音的句级特征均具有固定维度,更便于与大多数常用的模式识别方法相结合.近年来,句级特征提取的研究取得了很大的进展,鉴于其在说话人识别中的重要地位,本文对近期具有代表性的句级特征提取方法与技术进行整理与综述,并分别从前端处理、基于任务分段式与驱动式策略的特征提取方法,以及后端处理等方面进行论述,最后对未来的研究趋势展开探讨与分析.
-
-
王健;
申炜涛;
耿皓松;
张艳
-
-
摘要:
声纹识别,是根据声纹特征识别说话人身份的一种生物识别技术。与人脸识别、指纹识别、虹膜识别相比,声纹识别的数据获取更加便捷,不受时间地域的限制,数据采集成本更低,公众对声音采集的抵抗力较弱,已经在安防、刑侦、金融等多个领域被使用。而声纹识别算法的关键是描述特定对象的声纹特征,好的特征既要最大化保留说话人的语音特性,又要对噪音、语速、音量、说话内容等有较好的鲁棒性。针对语音数据较少、文本不相关情况下的声纹识别,本研究采用频繁序列挖掘技术对声音的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)组成的序列进行挖掘,将挖掘到的频繁序列作为说话人的语音特征,再使用PLDA判别方法,结果显示该模型对语音数据较少的情况识别效果良好。
-
-
邓飞;
邓力洪;
胡文艺;
张葛祥;
杨强
-
-
摘要:
说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。
-
-
何赞园;
王凯;
吉立新
-
-
摘要:
在实际应用中,矢量量化取决于码本设计、码字搜索和码字索引分配等三个关键技术,其中码本设计和码字搜索最为关键。说话人识别是一种典型的多码本应用场景,并且说话人识别算法相对比较规则,因此可采用全搜索算法进行运算,从硬件设计的角度讲,全搜索算法虽然运算量大,但算法只涉及乘、加和比较操作,采用硬件实现是切实可行的。首先对现有矢量量化算法的硬件复杂度进行分析,针对全搜索算法实现了矢量量化硬件设计,并结合该方法实现了多路电话信道中说话人的实时判别。利用FPGA对所提方法进行实验验证,结果表明所提矢量量化的硬件解决方案相比传统方案可有效提升矢量量化速度与效率。
-
-
张学祥;
雷菊阳
-
-
摘要:
针对使用话语级特征参数矩阵作为卷积神经网络输入而导致收敛速度慢及识别率低的问题,提出一种基于二维主成分分析(2DPCA)特征降维的卷积神经网络(CNN)说话人识别方法。首先将每段语音分帧成多个帧级语音并提取同等大小的帧级特征组成特征矩阵,然后利用2DPCA对特征矩阵进行降维处理,再将得到的主成分特征向量组合成新的特征矩阵作为CNN的输入,最后通过CNN的自适应特征学习创建说话人模型。基于Alexnet的CNN模型实验结果表明,采用该说话人识别方法使运行时间减少了57%,同时识别率也有所提高。
-
-
Yichi Huang;
黄艺驰;
Yuexian Zou;
邹月娴;
Junhong Liu;
柳俊宏
- 《第十四届全国人机语音通讯学术会议》
| 2017年
-
摘要:
本文在对现有主流说话人识别语音数据库进行分析和对比的基础上,提出并建立第一个免费且开源的面向智能手机信道下文本相关的用于说话人识别研究的中文普通话语料库MTDSR(Mandarin corpus for Text Dependent Speaker Recognition).该数据库的特点是:包含181个说话人;每位录音者的录音语料包括20句8位随机字符串、15句古诗词、15句新闻句子、20-30句短语和日常对话、2首歌词;录音总时长约70小时,在4种不同型号智能手机信道下录制.本文最后对MTDSR进行了GMM-UBM和i-vector说话人确认算法的基线实验.
-
-
AISIKAER Rouzi;
艾斯卡尔·肉孜;
WANG Dong;
王东;
LI Lantian;
李蓝天
- 《第十四届全国人机语音通讯学术会议》
| 2017年
-
摘要:
语速变化将导致语音频谱畸变,进而导致说话人识别系统性能显著下降.本文提出一种分数域归一化方法来降低语速变化对说话人识别系统的影响.在全局归一化算法中,不同语速语音的语音数据组成一个全局参考集合,对每一个登入的说话人估计该集合中的参考语音的分数分布;在局部归一化算法中,将该全局参考集合中的语音按语速划分区间,在每个区间上估计参考语音分数分布.在测试阶段对测试语音在声称说话人模型上的识别分数进行分数归一化.为了对语速进行针对性研究,本文录制了包含快速、慢速和正常语速语音的CSLT-SPRateDGT2016语音数据库.基于该数据库在GMM-UBM框架下采用全局和局部归一化方法进行实验,实验表明两种归一化方法都显著提高了基线系统性能,等错误率相对下降17.77%和4.58%.进而,为了解决数据稀疏问题,本文对原数据库进行扩展,利用工具人为生成大量不同语速的语音数据.实验表明该数据扩展方法有效解决了数据稀疏问题,用两种归一化方法得到的等错误率比基线系统相对下降28.94%和33.33%.
-
-
Chenhao Zhang;
张陈昊;
Thomas Fang Zheng;
郑方;
Linlin Wang;
王琳琳
- 《第十二届全国人机语言通讯学术会议(NCMMSC`2013)》
| 2013年
-
摘要:
对于基于GMM-UBM方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降.为了充分利用本文内容信息,本文提出了一种基于多音素类模型混合的建模方法.这种方法分为两个阶段,首先音素识别阶段和说话人识别阶段:在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决.不同的音素类定义方法在本文中进行了比较.实验结果显示,当测试语音时长小于2秒时,对比GMM-UBM基线系统,本文提出的方法的等错误率(EER)相对下降38.60%.
-
-
-
殷兵
- 《第一届全国声像资料检验鉴定技术交流会》
| 2011年
-
摘要:
以2008 和2010 年NIST 举办的说话人识别评测为主线,详细介绍了说话人识别评测的数据库、测试条件变化、评测指标变化、参赛单位及最高水平等,并以科大讯飞2008 和2010 年的结果为参考,对不同的测试条件下的效果进行了分析.
-
-
-
-
Guo Ming;
虢明;
Wang Jinfang;
王金芳
- 《第十六届全国图象图形学学术会议 暨第六届立体图象技术学术研讨会》
| 2012年
-
摘要:
目前多数说话人识别算法的研究着眼于从语音短时傅里叶变换幅度谱中提取个性化特征,而相位信息往往被忽略。本文针对基于短时相位谱提取特征时,帧长和帧移参数的选取仅依赖于经验分析而缺乏有效理论依据的现状,本文提出依据最大互信息准则确定最优参数的算法.算法介绍以Mel频率Delta相位倒谱系数为例,兼顾提高相位突变检测能力和降低相位噪声两方面的目标.实验结果表明,采用最大互信息准则确定帧长和帧移参数的说话人识别系统性能明显优于由经验分析所得参数的系统测试结果,验证了所提算法的有效性和可靠性。
-
-