首页> 外文会议>First workshop on speech-centric natural language processing >Spoken Term Discovery for Language Documentation using Translations
【24h】

Spoken Term Discovery for Language Documentation using Translations

机译:使用翻译的语言文档的语音术语发现

获取原文
获取原文并翻译 | 示例

摘要

Vast amounts of speech data collected for language documentation and research remain untranscribed and unsearchable, but often a small amount of speech may have text translations available. We present a method for partially labeling additional speech with translations in this scenario. We modify an unsupervised speech-to-translation alignment model and obtain prototype speech segments that match the translation words, which are in turn used to discover terms in the unlabelled data. We evaluate our method on a Spanish-English speech translation corpus and on two corpora of endangered languages, Arapaho and Ainu, demonstrating its appropriateness and applicability in an actual very-low-resource scenario.
机译:收集用于语言文档和研究的大量语音数据仍未转录且不可搜索,但通常少量语音可能具有可用的文本翻译。我们提出了一种在这种情况下用翻译部分标记其他语音的方法。我们修改了无监督的语音到翻译对齐模型,并获得了与翻译单词匹配的原型语音片段,这些原型语音片段又被用于发现未标记数据中的术语。我们在西班牙语-英语语音翻译语料库以及两个濒危语言语料库Arapaho和Ainu上评估了我们的方法,证明了它在实际资源非常匮乏的情况下的适用性和适用性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号