Audio Visual Speech Recognition Using Deep Recurrent Neural Networks

机译：使用深度递归神经网络的视听语音识别

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

In this work, we propose a training algorithm for an audiovisual automatic speech recognition (AV-ASR) system using deep recurrent neural network (RNN). First, we train a deep RNN acoustic model with a Connectionist Temporal Classification (CTC) objective function. The frame labels obtained from the acoustic model are then used to perform a non-linear dimensionality reduction of the visual features using a deep bottleneck network. Audio and visual features are fused and used to train a fusion RNN. The use of bottleneck features for visual modality helps the model to converge properly during training. Our system is evaluated on GRID corpus. Our results show that presence of visual modality gives significant improvement in character error rate (CER) at various levels of noise even when the model is trained without noisy data. We also provide a comparison of two fusion methods: feature fusion and decision fusion.

机译：在这项工作中，我们提出了一种使用深度递归神经网络（RNN）的视听自动语音识别（AV-ASR）系统的训练算法。首先，我们训练具有连接器时间分类（CTC）目标函数的深层RNN声学模型。从声学模型获得的帧标签然后用于使用深瓶颈网络执行视觉特征的非线性降维。音频和视觉功能已融合，并用于训练融合RNN。将瓶颈功能用于视觉模态可帮助模型在训练过程中正确收敛。我们的系统在GRID语料库上进行了评估。我们的结果表明，即使在没有噪声数据的情况下训练模型，视觉模态的存在也可以显着改善各种噪声水平下的字符错误率（CER）。我们还提供了两种融合方法的比较：特征融合和决策融合。

著录项

来源
《IAPR TC3 Workshop on pattern recognition of social signals in human-computer-interaction》|2017年|98-109|共12页
会议地点
作者
Abhinav Thanda; Shankar M. Venkatesan;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Audio-visual speech recognition; Connectionist Temporal Classification; Recurrent neural network;

机译：视听语音识别;连接主义者的时间分类;递归神经网络;

相似文献

外文文献
中文文献
专利

1. Audio-visual feature fusion via deep neural networks for automatic speech recognition [J] . Mohammad Hasan Rahmani, Farshad Almasganj, Seyyed Ali Seyyedsalehi Digital Signal Processing . 2018,第期

机译：通过深度神经网络进行视听功能融合，用于自动语音识别
2. Audio-visual feature fusion via deep neural networks for automatic speech recognition [J] . Mohammad Hasan Rahmani, Farshad Almasganj, Seyyed Ali Seyyedsalehi Digital Signal Processing . 2018,第期

机译：通过深度神经网络进行视听功能融合，用于自动语音识别
3. Emotion recognition from speech using deep recurrent neural networks with acoustic features [J] . Byun Sung-Woo, Shin Bo-Ra, Lee Seok-Pil, Basic & clinical pharmacology & toxicology. . 2019,第S7期

机译：使用深度经常性神经网络具有声学特征的情感认识
4. Audio Visual Speech Recognition Using Deep Recurrent Neural Networks [C] . Abhinav Thanda, Shankar M. Venkatesan IAPR TC 9 Workshop on Multimodal Pattern Recognition of Social Signals in Human-Computer-Interaction . 2017

机译：视听语音识别使用深度经常性神经网络
5. Dysarthric Speech Recognition and Offline Handwriting Recognition using Deep Neural Networks. [D] . Pillai, Suhas Balkrishna. 2017

机译：使用深度神经网络的表情异常语音识别和离线手写识别。
6. Multi-resolution speech analysis for automatic speech recognition using deep neural networks: Experiments on TIMIT [O] . Doroteo T. Toledano, María Pilar Fernández-Gallego, Alicia Lozano-Diez 2012

机译：基于深度神经网络的自动语音识别的多分辨率语音分析：TIMIT实验
7. Audio Visual Speech Recognition using Deep Recurrent Neural Networks [O] . Thanda, Abhinav, Venkatesan, Shankar M 2016

机译：基于深度递归神经网络的视听语音识别

Audio Visual Speech Recognition Using Deep Recurrent Neural Networks

摘要

著录项

相似文献

相关主题

期刊订阅