首页> 外文会议>22nd International Conference on Computational Linguistics >Bayesian Semi-Supervised Chinese Word Segmentation for Statistical Machine Translation
【24h】

Bayesian Semi-Supervised Chinese Word Segmentation for Statistical Machine Translation

机译:统计机器翻译的贝叶斯半监督中文分词

获取原文
获取原文并翻译 | 示例

摘要

Words in Chinese text are not naturally separated by delimiters, which poses a challenge to standard machine translation (MT) systems. In MT, the widely used approach is to apply a Chinese word seg-menter trained from manually annotated data, using a fixed lexicon. Such word segmentation is not necessarily optimal for translation. We propose a Bayesian semi-supervised Chinese word segmentation model which uses both monolingual and bilingual information to derive a segmentation suitable for MT. Experiments show that our method improves a state-of-the-art MT system in a small and a large data environment.
机译:中文文本中的单词不会自然地由分隔符分隔,这对标准机器翻译(MT)系统构成了挑战。在MT中,广泛使用的方法是使用固定的词典应用从人工注释数据中训练的中文分词导师。这种词分割对于翻译不一定是最佳的。我们提出了一种贝叶斯半监督中文分词模型,该模型使用单语和双语信息来得出适合MT的分词。实验表明,我们的方法改进了小型和大型数据环境中最先进的MT系统。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号