複数のバックオフN-gramを動的補間する言語モデルの高精度化

高橋力矢; 峯松信明; 広瀬啓吉; Rikiya TAKAHASHI; Nobuaki MINEMATSU; Keikichi HIROSE

首页> 外文期刊>電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication >複数のバックオフN-gramを動的補間する言語モデルの高精度化

【24h】

複数のバックオフN-gramを動的補間する言語モデルの高精度化

机译：动态内插多个退避N元语法的高精度语言模型

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本稿では複数N-gramモデルを動的補間する言語モデルとその高精度化手法について述べる。複数のN-gamモデルを動的補間する言語モデルは二つの要素技術から成り立つ。それは学習テキスト内のドメイン毎に最適化されたサブ言語モデル群と、各言語モデルの動的補間比を認識仮説や履歴から推定するための手法である。モデル学習に関しては、繰り返しアルゴリズムを用いるが、バックオフN－gram を構築していく際に、通常の学習アルゴリズムではオープンデータに対する精度が確保出来ない。そこで本稿では新たにスムージングとの組み合せを考慮した学習手順を提案している。補間比推定に関しては、Dirichlet分布を事前分布としたベイズ推定を用いる。モデルの評価は補正パープレキシティ及び大語彙音声認識における認識率の双方から行った。その結果、trigramモデルを動的補間した場合でオープンデー夕に対して約5％の補正パープレキシティ低下を得た。認識率に関しては従来のtrigramモデルより若干低下または上昇した。

机译：本文介绍了一种可动态插值多个N-gram模型的语言模型及其高精度方法。动态内插多个N-gam模型的语言模型包含两种基本技术。它是一种从识别假设和历史估计每种语言模型和针对学习文本中每个域优化的子语言模型组的动态插值比率的方法。对于模型学习，使用迭代算法，但是在构造退避N-gram时，使用常规学习算法无法确保开放数据的准确性。因此，本文提出了一种新的学习过程，该过程考虑了与平滑的结合。对于插值比估计，使用以Dirichlet分布为先验分布的贝叶斯估计。从纠正的困惑度和大词汇量语音识别中的识别率对模型进行了评估。结果，当对三字母组合模型进行动态插值时，相对于开放日晚上，校正困惑度降低了约5％。识别率略低于或高于常规Trigram模型。

著录项

来源
《電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication》 |2003年第517期|共6页
作者
高橋力矢; 峯松信明; 広瀬啓吉; Rikiya TAKAHASHI; Nobuaki MINEMATSU; Keikichi HIROSE;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类通信;
关键词
大語葉音声認識; 複数の言語モデル; 動的補間; バックオフスムージング; LVCSR; Multiple LMs; TV-gram; Dynamic interpolatoion; Back-off smoothing;

机译：大词叶语音识别;多语言模型;动态插值;后退平滑;LVCSR;多个LM;电视报;动态插值;后退平滑;

相似文献

外文文献
中文文献
专利

1. 複数のバックオフN-gramを動的補間する言語モデルの高精度化 [J] . 高橋力矢, 峯松信明, 広瀬啓吉, 電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication . 2003,第517期

机译：动态内插多个退避N元语法的高精度语言模型
2. 複数のバックオフN-gramを動的補間する言語モデルの高精度化 [J] . 高橋力矢, 峯松信明, 広瀬啓吉, 電子情報通信学会技術研究報告. 音声. Speech . 2003,第519期

机译：语言模型的高精度，动态地插值多个退避n-grams
3. 複数のバックオフN-gramを動的補間する言語モデルの高精度化 [J] . 高橋力矢, 峯松信明, 広瀬啓吉, 電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication . 2003,第517期

机译：语言模型的高精度，动态地插值多个退避n-grams
4. バイオフィリックデザインをとり入れたオフィス共用空間の利用行動モデル化に関する検討その3 利用行動モデルの多様性に関する検討 [C] . 小島倫直, 岩崎寛, 花里真道, 日本建築学会大会;日本建築学会 . 2020

机译：办公室共享空间的使用行为建模研究介绍了杀菌设计第3部分使用行为模型的多样性研究
5. 液体クロマトグラフ : 質量分析計によるバイオマーカーの高感度測定法の開発とヒト化モデル動物への応用 [D] . 墳﨑, 靖子 2019

机译：液相色谱仪：通过质谱法开发生物标志物的高灵敏度测量方法，并将其应用于人性化模型动物
6. 蛋白質のデザインおよび進化 : 生命と物質の間のボトルネックを抜ける(複雑な多谷ポテンシャルエネルギー面上で生起する動力学的諸問題-力学的決定性と統計性の中間領域を探る(第1回)-,研究会報告) [O] . 時田恵一郎 2001

机译：蛋白质设计与进化：摆脱生命与物质之间的瓶颈（复杂的多谷势能表面上发生的运动学问题-探索机械确定性与统计性之间的中间区域（一）） -，研究组报告）

複数のバックオフN-gramを動的補間する言語モデルの高精度化

摘要

著录项

相似文献

相关主题

期刊订阅