Semi-supervised Training for Sequence-to-Sequence Speech Recognition Using Reinforcement Learning

机译：使用强化学习的序列到序列语音识别的半监督训练

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper proposes a reinforcement learning based semi-supervised training approach for sequence-to-sequence automatic speech recognition (ASR) systems. Most recent semi-supervised training approaches are based on multi-loss functions such as cross-entropy loss for speech-to-text paired data and reconstruction loss for speech-text unpaired data.Although these approaches show promising results, some considerations still remain: (a) different loss functions are used for paired and unpaired data separately even though the purpose is classification accuracy improvement, and (b) several methods need auxiliary networks that increase the complexity of a semi-supervised training process.To address these issues, a reinforcement learning based approach is proposed. The proposed approach focuses on rewarding ASR to generate more correct sentences for both paired and unpaired speech data. The proposed approach is evaluated on the Wall Street Journal task domain. The experimental results show that the proposed method is effective by reducing the character error rate from 10.4% to 8.7%.

机译：本文提出了一种用于序列到序列自动语音识别（ASR）系统的基于强化学习的半监督训练方法。最新的半监督训练方法基于多损失函数，例如语音-文本配对数据的交叉熵损失和语音-文本非配对数据的重建损失，尽管这些方法显示出令人鼓舞的结果，但仍需考虑以下因素：（a）不同的损失函数分别用于配对和未配对的数据，即使目的是提高分类精度，并且（b）几种方法需要辅助网络，这会增加半监督训练过程的复杂性。提出了基于强化学习的方法。提出的方法侧重于奖励ASR，以为配对和非配对的语音数据生成更正确的句子。建议的方法在《华尔街日报》的任务域中进行了评估。实验结果表明，该方法可以有效地将字符错误率从10.4％降低到8.7％。

著录项

来源
《International Joint Conference on Neural Networks》|2020年|1-6|共6页
会议地点
作者
Hoon Chung; Hyeong-Bae Jeon; Jeon Gue Park;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Training; Decoding; Learning (artificial intelligence); Data models; Error analysis; Speech recognition; Task analysis;

机译：培训;解码;学习（人工智能）;数据模型;错误分析;语音识别;任务分析;

相似文献

外文文献
中文文献
专利

1. Active learning and semi-supervised learning for speech recognition: A unified framework using the global entropy reduction maximization criterion [J] . Dong Yu, Balakrishnan Varadarajan, Li Deng, Computer speech and language . 2010,第3期

机译：主动学习和半监督学习的语音识别：使用全局熵减少最大化准则的统一框架
2. Maximum Entropy-Based Reinforcement Learning Using a Confidence Measure in Speech Recognition for Telephone Speech [J] . Molina C., Yoma N. B., Huenupan F., Audio, Speech, and Language Processing, IEEE Transactions on . 2010,第5期

机译：电话语音识别中基于置信度的最大熵增强学习
3. Regularized Urdu Speech Recognition with Semi-Supervised Deep Learning [J] . Mohammad Ali Humayun, Ibrahim A. Hameed, Syed Muslim Shah, Applied Sciences . 2019,第9期

机译：具有半监督深度学习的正则化乌尔都语语音识别
4. Acoustic model training using committee-based active and semi-supervised learning for speech recognition [C] . Tsutaoka Takuya, Shinoda Koichi 2012 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. . 2012

机译：使用基于委员会的主动和半监督学习进行语音模型的声学模型训练
5. Semi-Supervised Training for Automatic Speech Recognition [D] . Manohar, Vimal. 2019

机译：半监督自动演讲识别培训
6. Robust Semi-Supervised Traffic Sign Recognition via Self-Training and Weakly-Supervised Learning [O] . Obed Tettey Nartey, Guowu Yang, Sarpong Kwadwo Asare, 2020

机译：通过自我训练和弱监督学习实现可靠的半监督交通标志识别
7. End-to-End Speech Recognition Sequence Training With Reinforcement Learning [O] . Andros Tjandra, Sakriani Sakti, Satoshi Nakamura 2019

机译：钢筋学习的端到端语音识别序列训练

Semi-supervised Training for Sequence-to-Sequence Speech Recognition Using Reinforcement Learning

摘要

著录项

相似文献

相关主题

期刊订阅