您现在的位置：首页> 研究主题> 说话人识别

说话人识别

说话人识别的相关文献在1990年到2022年内共计850篇，主要集中在自动化技术、计算机技术、无线电电子学、电信技术、语言学等领域，其中期刊论文724篇、会议论文67篇、专利文献500669篇；相关期刊270种，包括科学技术与工程、电声技术、电子与信息学报等；相关会议52种，包括第十二届全国人机语言通讯学术会议（NCMMSC`2013）、第十六届全国图象图形学学术会议暨第六届立体图象技术学术研讨会、第十一届全国人机语音通讯学术会议等；说话人识别的相关文献由1500位作者贡献，包括景新幸、赵力、刘加等。

说话人识别—发文量

期刊论文>

论文：724篇占比：0.14%

会议论文>

论文：67篇占比：0.01%

专利文献>

论文：500669篇占比：99.84%

总计：501460篇

说话人识别—发文趋势图

说话人识别
-研究学者

景新幸
赵力
刘加
唐振民
周萍
张玲华
李弼程
李战明
杨震
王波
俞一彪
林琳
檀蕊莲
韩纪庆
张庆芳
徐利敏
李明
李燕萍
李辉
郭武
杨莹春
王树勋
王金明
赵鹤鸣
郑宝玉
钱博
何亮
张卫强
张飞云
徐毅琼
曾庆宁
王吉林
赵振东
钱彦旻
周宇欢
周燕
尹俊勋
张振领
张歆奕
张雄伟
戴礼荣
李杰
杨海燕
王成儒
芮贤义
贺前华
贺松
贾仰理
邢玉娟
邱政权

说话人识别
-相关主题

说话人识别
-相关期刊

说话人识别
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(23)
2021
(25)
2020
(25)
2019
(16)
2018
(17)
2017
(31)
2016
(40)
2015
(26)
2014
(33)
2013
(37)
2012
(34)
2011
(47)
2010
(49)
2009
(67)
2008
(63)
2007
(52)
2006
(49)
2005
(35)
2004
(29)
2003
(11)
2002
(8)
2001
(8)
2000
(10)
1999
(3)
1998
(3)
1997
(4)
1995
(2)
1994
(1)
1991
(1)
1990
(1)

期刊

收录数据库

作者

景新幸
(18)
赵力
(17)
刘加
(15)
唐振民
(12)
周萍
(11)
张玲华
(11)
李弼程
(11)
李战明
(11)
杨震
(11)
王波
(11)
俞一彪
(9)
林琳
(9)
檀蕊莲
(9)
韩纪庆
(9)
张庆芳
(8)
徐利敏
(8)
李明
(8)
李燕萍
(8)
李辉
(8)
郭武
(8)
杨莹春
(7)
王树勋
(7)
王金明
(7)
赵鹤鸣
(7)
郑宝玉
(7)
钱博
(7)
何亮
(6)
张卫强
(6)
张飞云
(6)
徐毅琼
(6)
曾庆宁
(6)
王吉林
(6)
赵振东
(6)
钱彦旻
(6)
周宇欢
(5)
周燕
(5)
尹俊勋
(5)
张振领
(5)
张歆奕
(5)
张雄伟
(5)
戴礼荣
(5)
李杰
(5)
杨海燕
(5)
王成儒
(5)
芮贤义
(5)
贺前华
(5)
贺松
(5)
贾仰理
(5)
邢玉娟
(5)
邱政权
(5)

关键词

申请/权力人

;

1. 基于小波包的回放语音检测算法
- 汤爽；张二华；唐振民
- 摘要：以便携式回放设备的语音为代表的假冒语音攻击,给说话人识别系统带来了严峻的挑战。针对这种回放语音攻击问题,论文提出一种基于小波包的多频带回放语音鉴别算法。首先,通过小波包分解及重构后的信号进行傅里叶变换,取每一帧频谱的最大值;然后,利用对数运算以及离散余弦变换(DCT)来得到鉴别特征;最后,使用高斯混合模型(GMM)作为分类器进行假冒语音判别。实验表明,该检测算法能有效地鉴别回放语音。
2. 基于卷积神经网络的说话人识别方法
- 楚宪腾；王华朋；杨海涛；林暖辉
- 摘要：为进一步提高说话人识别的准确率,提出一种新的基于卷积神经网络的说话人识别方法。利用卷积神经网络强大的处理图像能力可有效提高说话人识别的准确率。卷积神经网络相对于其他网络结构简单,训练时间较短且准确率较高。该方法首先对语音信号进行了预处理,包括重采样、分帧、加窗等操作,然后提取梅尔频率倒谱系数,之后送入卷积神经网络进行训练。通过LibriSpeech标准库和中文数据库测试表明,本算法识别率达到95%,可有效进行说话人识别。
3. 具有仿冒攻击检测的鲁棒性说话人识别
- 郭星辰；俞一彪
- 摘要：仿冒攻击严重影响说话人识别系统的安全应用。文中提出了一种具有录音回放仿冒攻击检测能力的说话人识别系统,该系统采用前端攻击检测与后端说话人确认的串联结构,并通过信道频响分析和说话人个性特征分析提出了一种信道频响差强化倒谱系数(Channel frequency response Difference Enhancement Cepstral Coefficient,CDECC),该特征参数通过三阶多项式非线性频率尺度变换同时强化语音信号低频段和高频段的频谱分量,能够有效反映不同输入信道频率响应和不同说话人语音频谱的差异。基于ASVspoof 20172.0数据库的非特定说话人文本无关录音回放攻击检测的实验表明,采用CDECC的录音回放攻击检测等错率(EER)为25.03%,相比基线系统下降了10%。通过在说话人确认的前端嵌入录音回放攻击检测模块,说话人识别系统的错误接受率(FAR)明显下降,系统EER从3.32%下降为1.01%,鲁棒性得到有效提升。
4. 鲁棒的特定人语音分离算法
- 张新；付中华
- 摘要：特定人语音分离算法是指从包含多种说话人同时讲话场景的混合语音中,通过一个特征向量的引导来分离出特定说话人的语音。特征向量的获取通常有两种方式,一种是使用一组自定义的正交独热(one-hot)向量,该方法可以在训练过程中达到更好的训练效果,但是无法处理训练过程中未见过的说话人;另一种方法是使用一个分类网络自适应地生成具有说话人特征的嵌入式向量(embedding),该做法会因为分类网络的误差而损失一部分训练效果,但是可以在集外说话人的样本上取得较好的泛化效果。为了解决在特定人语音分离算法用单独使用one-hot或embedding作为特征向量存在的不足之处,提出了一种鲁棒的特定人语音分离方法,通过在训练过程中交替地使用one-hot向量和embedding作为目标说话人的身份特征向量,将one-hot和embedding映射到公共空间中,可以在保证训练效果的同时,增强对集外说话人的泛化能力。实验结果表明,在使用了这种混合训练方法之后,对于测试集中的集外说话人分离效果上SDR提升超过了10 dB。
5. 基于对抗不变性解散的说话人识别
- 黄多林；刘栋；郑智燊
- 摘要：为提高说话人识别模型的性能,论文提出一种新颖的方法来提取具有鲁棒性的说话人可区分性特征。该方法将说话人映射到两个较低维度的嵌入空间,通过解散对抗和注意力机制,其中一个嵌入空间完成从语音信号的所有其他信息中解散出说话人相关信息,而另一个嵌入空间捕获所有其他无关的干扰因素。实验结果表明,在TIMIT数据集的两类实验设置中,论文方法分别比两个最先进方法提高2.74%和2.86%的识别准确率。并且通过实验分析测试集的损失和识别准确率,得出注意力机制和解散模块对本文方法的说话人识别性能确实有提升。
6. 文本无关说话人识别中句级特征提取方法研究综述
- 陈晨；韩纪庆；陈德运；何勇军
- 摘要：句级(Utterance-level)特征提取是文本无关说话人识别领域中的重要研究方向之一.与只能刻画短时语音特性的帧级(Frame-level)特征相比,句级特征中包含了更丰富的说话人个性信息;且不同时长语音的句级特征均具有固定维度,更便于与大多数常用的模式识别方法相结合.近年来,句级特征提取的研究取得了很大的进展,鉴于其在说话人识别中的重要地位,本文对近期具有代表性的句级特征提取方法与技术进行整理与综述,并分别从前端处理、基于任务分段式与驱动式策略的特征提取方法,以及后端处理等方面进行论述,最后对未来的研究趋势展开探讨与分析.
7. 基于频繁序列挖掘的声纹特征提取关键技术研究
- 王健；申炜涛；耿皓松；张艳
- 摘要：声纹识别,是根据声纹特征识别说话人身份的一种生物识别技术。与人脸识别、指纹识别、虹膜识别相比,声纹识别的数据获取更加便捷,不受时间地域的限制,数据采集成本更低,公众对声音采集的抵抗力较弱,已经在安防、刑侦、金融等多个领域被使用。而声纹识别算法的关键是描述特定对象的声纹特征,好的特征既要最大化保留说话人的语音特性,又要对噪音、语速、音量、说话内容等有较好的鲁棒性。针对语音数据较少、文本不相关情况下的声纹识别,本研究采用频繁序列挖掘技术对声音的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)组成的序列进行挖掘,将挖掘到的频繁序列作为说话人的语音特征,再使用PLDA判别方法,结果显示该模型对语音数据较少的情况识别效果良好。
8. 说话人身份识别深度网络中的聚合模型研究
- 邓飞；邓力洪；胡文艺；张葛祥；杨强
- 摘要：说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。
9. 基于矢量量化的说话人识别系统硬件实现
- 何赞园；王凯；吉立新
- 摘要：在实际应用中,矢量量化取决于码本设计、码字搜索和码字索引分配等三个关键技术,其中码本设计和码字搜索最为关键。说话人识别是一种典型的多码本应用场景,并且说话人识别算法相对比较规则,因此可采用全搜索算法进行运算,从硬件设计的角度讲,全搜索算法虽然运算量大,但算法只涉及乘、加和比较操作,采用硬件实现是切实可行的。首先对现有矢量量化算法的硬件复杂度进行分析,针对全搜索算法实现了矢量量化硬件设计,并结合该方法实现了多路电话信道中说话人的实时判别。利用FPGA对所提方法进行实验验证,结果表明所提矢量量化的硬件解决方案相比传统方案可有效提升矢量量化速度与效率。
10. 基于2DPCA特征降维的CNN说话人识别
- 张学祥；雷菊阳
- 摘要：针对使用话语级特征参数矩阵作为卷积神经网络输入而导致收敛速度慢及识别率低的问题,提出一种基于二维主成分分析(2DPCA)特征降维的卷积神经网络(CNN)说话人识别方法。首先将每段语音分帧成多个帧级语音并提取同等大小的帧级特征组成特征矩阵,然后利用2DPCA对特征矩阵进行降维处理,再将得到的主成分特征向量组合成新的特征矩阵作为CNN的输入,最后通过CNN的自适应特征学习创建说话人模型。基于Alexnet的CNN模型实验结果表明,采用该说话人识别方法使运行时间减少了57%,同时识别率也有所提高。

1. 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
- 思必驰科技股份有限公司
- 公开公告日期：2022.05.10
- 摘要：本发明公开一种支持多唤醒词的说话人识别方法，其包括构建用于说话人识别的神经网络模型，并对构建的神经网络模型进行训练；对注册音频，利用训练好的神经网络模型的主干部分提取出其对应的中间表示存储；在获取到实时音频数据时，通过训练好的神经网络模型提取出实时音频数据的中间表示，并将其与注册音频的中间表示进行对比，以确定实时音频的说话人与注册音频是否相同。根据本发明公开的方案不但能够实现支持多唤醒词的说话人识别，而且能够避免针对不同的唤醒词均收集很多训练数据的限制，同时也避免了训练和存储多个模型的弊端，实现多个唤醒词共用一个神经网络模型进行准确的说话人识别，降低了多个特定唤醒词说话人识别系统的实现成本。
2. 说话人识别网络模型训练方法、说话人识别方法及系统
- 思必驰科技股份有限公司
- 公开公告日期：2021.07.13
- 摘要：本发明公开一种说话人识别网络模型训练方法，包括：从训练数据集中获取第i话语三元组并将第i话语三元组输入至卷积神经网络，卷积神经网络对第i话语三元组进行特征提取得到第i话语特征三元组并输入至线性神经网络；将预先获取的第一说话人的第一身份向量信息和第二说话人的第二身份向量信息输入至线性神经网络进行融合处理，以得到融合后的第i话语特征三元组；根据融合后的第i话语特征三元组计算三元组损失，以调整所述网络模型。本发明实施例得到的说话人识别网络模型能够更加准确的实现说话人的识别功能，具有最低的等错误率。
3. 说话人识别装置、及说话人识别方法
- 东芝泰格有限公司
- 公开公告日期：2010.03.03
- 摘要：为了能够实现精度高的说话人识别，使用两个特征参数时间序列A、B的各自的Δ间距时间序列，通过DP匹配单元(11)求音韵性距离的总和最小的最佳匹配序列F，使用该最佳匹配序列和两个特征参数时间序列A、B的各自的倒谱系数时间序列，通过说话人之间距离计算单元求个人性距离的总和，基于该总和，通过辨认单元进行说话人的辨认。由此，兼顾音韵分解性能和说话人分解性能，可以确保稳定的识别性能，因此可以实现精度高的说话人识别。
4. 用于识别说话人的建模设备和方法、以及说话人识别系统
- 松下电器(美国)知识产权公司
- 公开公告日期：2015.11.25
- 摘要：本发明实现用于识别说话人的建模设备和方法、以及说话人识别系统。建模设备包括：前端，从各目标说话人取得登记语音数据；参考锚集合生成单元，基于锚空间使用登记语音数据生成参考锚集合；以及声纹生成单元，基于参考锚集合和登记语音数据生成声纹。在本公开中，通过考虑登记语音和说话人自适应技术，能够生成尺寸更小的锚模型，因而能够进行具有尺寸更小的参考锚集合的、可靠性高的鲁棒的说话人识别。这对于进行计算速度的改善以及大幅度的存储器削减是非常有利的。
5. 说话人识别方法、识别装置、识别程序、性别识别模型生成方法以及说话人识别模型生成方法
- 松下电器(美国)知识产权公司
- 公开公告日期：2022-11-08
- 摘要：说话人识别装置：获取识别对象语音数据；获取登记语音数据；在识别对象语音数据的说话人以及登记语音数据的说话人的任意其中之一的性别为男性的情况下，选择为了识别男性说话人而利用男性的语音数据进行了机器学习的第1说话人识别模型，在识别对象语音数据的说话人以及登记语音数据的说话人的任意其中之一的性别为女性的情况下，选择为了识别女性说话人而利用女性的语音数据进行了机器学习的第2说话人识别模型；以及，通过将识别对象语音数据的特征量和登记语音数据的特征量输入到所选择的第1说话人识别模型以及第2说话人识别模型的任意其中之一，从而对识别对象语音数据的说话人进行识别。
6. 说话人识别模型训练、说话人识别方法及装置
- 青岛海尔科技有限公司
- 海尔智家股份有限公司
- 公开公告日期：2022-07-01
- 摘要：本申请公开了一种说话人识别模型训练、说话人识别方法及装置，涉及智能家居技术领域，该说话人识别模型训练方法包括：获取样本语音集；样本语音集包括：多个用户对应的N个样本语音；对各样本语音进行声学特征提取，得到多个用户对应的N个初始样本语音声学特征；通过目标特征提取模型，对N个初始样本语音声学特征进行降维，得到多个用户对应的M个目标样本语音声学特征；M为小于N的且大于或等于2的整数；对M个目标样本语音声学特征进行聚类，获取聚类结果；聚类结果用于表征各目标样本语音声学特征所属用户；根据聚类结果，以及，样本语音集训练预设模型，得到说话人识别模型。本申请提高了说话人识别模型训练的效率。
7. 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
- 苏州思必驰信息科技有限公司
- 公开公告日期：2020-06-05
- 摘要：本发明公开一种支持多唤醒词的说话人识别方法，其包括构建用于说话人识别的神经网络模型，并对构建的神经网络模型进行训练；对注册音频，利用训练好的神经网络模型的主干部分提取出其对应的中间表示存储；在获取到实时音频数据时，通过训练好的神经网络模型提取出实时音频数据的中间表示，并将其与注册音频的中间表示进行对比，以确定实时音频的说话人与注册音频是否相同。根据本发明公开的方案不但能够实现支持多唤醒词的说话人识别，而且能够避免针对不同的唤醒词均收集很多训练数据的限制，同时也避免了训练和存储多个模型的弊端，实现多个唤醒词共用一个神经网络模型进行准确的说话人识别，降低了多个特定唤醒词说话人识别系统的实现成本。
8. 说话人识别网络模型训练方法、说话人识别方法及系统
- 苏州思必驰信息科技有限公司
- 上海交通大学
- 公开公告日期：2018-08-17
- 摘要：本发明公开一种说话人识别网络模型训练方法，包括：从训练数据集中获取第i话语三元组并将第i话语三元组输入至卷积神经网络，卷积神经网络对第i话语三元组进行特征提取得到第i话语特征三元组并输入至线性神经网络；将预先获取的第一说话人的第一身份向量信息和第二说话人的第二身份向量信息输入至线性神经网络进行融合处理，以得到融合后的第i话语特征三元组；根据融合后的第i话语特征三元组计算三元组损失，以调整所述网络模型。本发明实施例得到的说话人识别网络模型能够更加准确的实现说话人的识别功能，具有最低的等错误率。
9. 说话人识别方法和说话人识别设备
- 富士通株式会社
- 公开公告日期：2017-10-20
- 摘要：本发明公开了一种说话人识别方法和说话人识别设备。该说话人识别方法包括：从待识别说话人语料中，提取待识别说话人的语音特征；基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵，得到待识别说话人模型；以及比较待识别说话人模型和已知说话人模型，以确定待识别说话人是否为已知说话人之一。
10. 说话人识别装置、程序及说话人识别方法
- 东芝泰格有限公司
- 公开公告日期：2007-02-14
- 摘要：为了能够实现精度高的说话人识别，使用两个特征参数时间序列A、B的各自的Δ间距时间序列，通过DP匹配单元(11)求音韵性距离的总和最小的最佳匹配序列F，使用该最佳匹配序列和两个特征参数时间序列A、B的各自的倒谱系数时间序列，通过说话人之间距离计算单元求个人性距离的总和，基于该总和，通过辨认单元进行说话人的辨认。由此，兼顾音韵分解性能和说话人分解性能，可以确保稳定的识别性能，因此可以实现精度高的说话人识别。

说话人识别

说话人识别—发文量

说话人识别—发文趋势图

说话人识别-研究学者

说话人识别-相关主题

说话人识别-相关期刊

说话人识别-相关会议

说话人识别
-研究学者

说话人识别
-相关主题

说话人识别
-相关期刊

说话人识别
-相关会议