【24h】

複数のバックオフN-gramを動的補間する言語モデルの高精度化

机译:动态内插多个退避N元语法的高精度语言模型

获取原文
获取原文并翻译 | 示例
           

摘要

本稿では複数N-gramモデルを動的補間する言語モデルとその高精度化手法について述べる。 複数のN-gamモデルを動的補間する言語モデルは二つの要素技術から成り立つ。 それは学習テキスト内のドメイン毎に最適化されたサブ言語モデル群と、各言語モデルの動的補間比を認識仮説や履歴から推定するための手法である。 モデル学習に関しては、繰り返しアルゴリズムを用いるが、バックオフN-gram を構築していく際に、通常の学習アルゴリズムではオープンデータに対する精度が確保出来ない。 そこで本稿では新たにスムージングとの組み合せを考慮した学習手順を提案している。 補間比推定に関しては、Dirichlet分布を事前分布としたベイズ推定を用いる。 モデルの評価は補正パープレキシティ及び大語彙音声認識における認識率の双方から行った。 その結果、trigramモデルを動的補間した場合でオープンデー夕に対して約5%の補正パープレキシティ低下を得た。 認識率に関しては従来のtrigramモデルより若干低下または上昇した。
机译:本文介绍了一种可动态插值多个N-gram模型的语言模型及其高精度方法。动态内插多个N-gam模型的语言模型包含两种基本技术。它是一种从识别假设和历史估计每种语言模型和针对学习文本中每个域优化的子语言模型组的动态插值比率的方法。对于模型学习,使用迭代算法,但是在构造退避N-gram时,使用常规学习算法无法确保开放数据的准确性。因此,本文提出了一种新的学习过程,该过程考虑了与平滑的结合。对于插值比估计,使用以Dirichlet分布为先验分布的贝叶斯估计。从纠正的困惑度和大词汇量语音识别中的识别率对模型进行了评估。结果,当对三字母组合模型进行动态插值时,相对于开放日晚上,校正困惑度降低了约5%。识别率略低于或高于常规Trigram模型。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号