...
机译:音频和视频传感器网络中的可靠室内说话人识别
Visionlab, ISSS, Heriot Watt University, Edinburgh EH14 4AS, UK;
Visionlab, ISSS, Heriot Watt University, Edinburgh EH14 4AS, UK;
University of Edinburgh, Edinburgh EH9 3JG, UK;
Surveillance; Speaker diarisation; Security biometric; Audio-video speaker tracking; Multimodal fusion;
机译:嘈杂的视听条件下的鲁棒视听语音识别
机译:视频广播新闻的视听说话人识别
机译:具有说话人归一化功能的低复杂度抛物线形嘴唇轮廓模型,用于噪声鲁棒的视听语音识别中的高级特征提取
机译:用于强大音频视频语音识别的音频视频数据库
机译:使用具有音频,视频和生物医学传感器的深度学习模型,对说话人和情感识别进行多模式传感和数据处理
机译:用于无线语音传感器网络上动物语音识别的基于MPEG-7的音频描述符的评估
机译:音频和视频传感器网络中的可靠室内说话人识别
机译:强大的语音处理和识别:说话者ID,语言ID,语音识别/关键字识别,Diarization / Co-Channel /环境表征,说话者状态评估。