首页> 中国专利> 一种基于音视频的无监督的多说话人识别装置和方法

一种基于音视频的无监督的多说话人识别装置和方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

一种基于音视频的无监督说话人识别装置和方法。装置包括：初始化模块，分割整个音视频得到若干包含语音的段，将视频中属于同一个人的人脸进行归类，建立人集合，建立人与段关系矩阵；画面内说话人获取模块，从人脸中定位唇部区域，根据相邻帧判断是否发生唇动，在关系矩阵中进行说话人的记录；画面外说话人获取模块，根据迭代的关系矩阵判断是否新增说话人；说话人模型训练模块，根据关系矩阵收集每个说话人的正例和反例构成训练集，训练高斯混合模型和支持向量机分类器；说话人识别模块，使用高斯混合模型和支持向量机分类器对没有识别出唯一说话人的段进行处理；说话人验证模块，检测当所有段都具有唯一说话人，并且用户反馈没有错误之后结束。

著录项

公开/公告号CN109410954A

专利类型发明专利
公开/公告日2019-03-01

原文格式PDF
申请/专利权人杨岳川;
展开▼

申请/专利号CN201811329163.9
发明设计人杨岳川;
展开▼

申请日2018-11-09
分类号
代理机构
代理人
地址 261400 山东省烟台市建新东街58号实验中学李敏玲转
入库时间 2024-02-19 08:24:48

法律信息

法律状态公告日

法律状态信息

法律状态
2019-03-26

实质审查的生效 IPC(主分类):G10L17/00 申请日:20181109

实质审查的生效
2019-03-01

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于音视频的无监督的多说话人识别装置和方法 [P] . 中国专利： CN109410954A . 2019-03-01
2. 一种基于无监督特征组合的产品图像缺陷检测方法及装置 [P] . 中国专利： CN114037679A . 2022-02-11
3. method, system and computer program for speech / speaker recognition using a emotionszustandsu00e4nderung for unsupervised adaptation of detection [P] . 德国专利： DE60213195D1 . 2006-08-31

机译：方法，系统和计算机程序，用于使用情感zustands u00e4nderung进行语音/说话人识别，以实现无监督的检测适应
4. Speaker Identification Method Converged with Text Dependant Speaker Recognition and Text Independant Speaker Recognition in Artificial Intelligence Secretary Service and Voice Recognition Device Used Therein [P] . 韩国专利： KR101993827B1 . 2019-06-27

机译：融合了人工智能秘书服务中基于文本的说话人识别和基于文本的说话人识别的说话人识别方法及其中使用的语音识别装置
5. UNSUPERVISED TEXT SUMMARIZATION METHOD BASED ON SENTENCE EMBEDDING AND UNSUPERVISED TEXT SUMMARIZATION DEVICE USING THE SAME [P] . KR20210058059A . 2021-05-24

机译：基于句子嵌入和无监督文本摘要设备的无监督文本摘要方法使用相同