Improved Robustness to Disfluencies in Rnn-Transducer Based Speech Recognition

机译：基于RNN传感器的语音识别的鲁棒性改善了对不发狂的鲁棒性

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Automatic Speech Recognition (ASR) based on Recurrent Neural Network Transducers (RNN-T) is gaining interest in the speech community. We investigate data selection and preparation choices aiming for improved robustness of RNN-T ASR to speech disfluencies with a focus on partial words. For evaluation we use clean data, data with disfluen- cies and a separate dataset with speech affected by stuttering. We show that after including a small amount of data with disfluencies in the training set the recognition accuracy on the tests with disfluencies and stuttering improves. Increasing the amount of training data with disfluencies gives additional gains without degradation on the clean data. We also show that replacing partial words with a dedicated token helps to get even better accuracy on utterances with disfluencies and stutter. The evaluation of our best model shows 22.5% and 16.4% relative WER reduction on those two evaluation sets.

机译：基于经常性神经网络传感器（RNN-T）的自动语音识别（ASR）正在兴趣在语音界中获得兴趣。我们调查数据选择和准备选择，旨在提高RNN-T ASR的鲁棒性与言语混乱的统一性，重点放在部分单词上。对于评估，我们使用清洁数据，具有DISFLUEN的数据和具有口吃影响的单独数据集。我们表明，在培训中包括少量数据，培训中的少量数据设定了对破坏和口吃的测试的识别准确性。随着清洁数据的情况，增加了带有无风化的培训数据的数量在不降临的情况下提供额外的增益。我们还表明，用专用令牌替换部分单词有助于在具有无风化和口吃的话语上获得更好的准确性。对我们最好的模型的评估显示了这两个评估集的相对行为的22.5％和16.4％。

著录项

来源
《IEEE International Conference on Acoustics, Speech and Signal Processing》|2021年|6878-6882|共5页
会议地点
作者
Valentin Mendelev; Tina Raissi; Guglielmo Camporese; Manuel Giollo;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Training; Degradation; Transducers; Recurrent neural networks; Training data; Speech recognition; Signal processing;

机译：培训;退化;传感器;经常性神经网络;培训数据;语音识别;信号处理;

相似文献

外文文献
中文文献
专利

1. Combination of GMM-Based Speech Estimation Method and Temporal Domain SVD-Based Speech Enhancement for Noise Robust Speech Recognition [J] . Masakiyo Fujimoto, Yasuo Ariki Systems and Computers in Japan . 2007,第3期

机译：基于GMM的语音估计方法与基于时域SVD的语音增强相结合的噪声鲁棒语音识别
2. Improved Noise Robustness of Word HMMs Based on Weighted variance Expansion for Noisy Speech Recognition [J] . Sukeyasu Kanno, Tetsuo Funada Systems and Computers in Japan . 2005,第13期

机译：基于加权方差扩展的改进型词HMM噪声鲁棒性
3. Towards improving speech detection robustness for speech recognition in adverse conditions [J] . Lamia Karray, Arnaud Martin Speech Communication . 2003,第3期

机译：旨在提高语音检测的鲁棒性，以在不利条件下进行语音识别
4. Cascade RNN-Transducer: Syllable Based Streaming On-Device Mandarin Speech Recognition with a Syllable-To-Character Converter [C] . Xiong Wang, Zhuoyuan Yao, Xian Shi, Spoken Language Technology Workshop . 2021

机译：Cascade RNN-Cransducer：基于音节的流式媒体，具有音节到字符转换器的语音识别
5. Robust speech processing based on microphone array, audio-visual, and frame selection for in-vehicle speech recognition and in-set speaker recognition. [D] . Zhang, Xianxian. 2005

机译：基于麦克风阵列，视听和帧选择的强大语音处理功能，可实现车载语音识别和内置说话人识别。
6. A Multistream Feature Framework Based on Bandpass Modulation Filtering for Robust Speech Recognition [O] . Sridhar Krishna Nemala, Kailash Patil, Mounya Elhilali -1

机译：在带通滤波调制多流功能根据框架鲁棒语音识别
7. Rnn-transducer With Language Bias For End-to-end Mandarin-English Code-switching Speech Recognition [O] . Shuai Zhang, Jiangyan Yi, Zhengkun Tian, 2021

机译：具有语言偏见的RNN-Cransducer用于端到端的普通话 - 英语代码切换语音识别
8. Robust Speech Processing & Recognition: Speaker ID, Language ID, Speech Recognition/Keyword Spotting, Diarization/Co-Channel/Environmental Characterization, Speaker State Assessment. [R] . Hansen, J. H. 2015

机译：强大的语音处理和识别：说话者ID，语言ID，语音识别/关键字识别，Diarization / Co-Channel /环境表征，说话者状态评估。

Improved Robustness to Disfluencies in Rnn-Transducer Based Speech Recognition

摘要

著录项

相似文献

相关主题

期刊订阅