首页> 中国专利> 同时优化深度表征学习与说话人类别估计的说话人聚类方法

同时优化深度表征学习与说话人类别估计的说话人聚类方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，步骤如下：对聚类语音样本进行预处理，提取I‑vector特征，训练卷积自编码网络并提取深度表征特征；根据深度表征特征构造初始类，得到类别数和初始类标签；在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架，Softmax层用于估计说话人类别；将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数，迭代更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果，获得比传统方法更优的说话人聚类效果。

著录项

公开/公告号CN111161744A

专利类型发明专利
公开/公告日2020-05-15

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN201911239006.3
发明设计人李艳雄;王武城;刘名乐;江钟杰;陈昊;
展开▼

申请日2019-12-06
分类号
代理机构广州市华学知识产权代理有限公司;
代理人蒋剑明
地址 510640 广东省广州市天河区五山路381号
入库时间 2023-12-17 09:04:09

法律信息

法律状态公告日

法律状态信息

法律状态
2020-06-09

实质审查的生效 IPC(主分类):G10L17/02 申请日:20191206

实质审查的生效
2020-05-15

公开

公开

相似文献

专利
中文文献
外文文献

1. 同时优化深度表征学习与说话人类别估计的说话人聚类方法 [P] . 中国专利： CN111161744A . 2020-05-15
2. 说话人估计方法和说话人估计设备 [P] . 中国专利： CN102810311A . 2012-12-05
3. Speaker clustering method and speaker adaptation method based on model transformation, and apparatus using the same [P] . 韩国专利： KR100612840B1 . 2006-08-18

机译：基于模型变换的说话人聚类方法和说话人自适应方法以及使用该方法的装置
4. SPEAKER CLUSTERING METHOD AND SPEAKER ADAPTATION METHOD BASED ON MODEL TRANSFORMATION, AND APPARATUS USING THE SAME [P] . 韩国专利： KR20050082253A . 2005-08-23

机译：基于模型变换的说话人聚类方法和说话人自适应方法，以及使用该方法的装置
5. Method of speaker clustering for unknown speakers in conversational audio data [P] . 美国专利： US5598507A . 1997-01-28

机译：对话音频数据中未知说话人的说话人聚类方法