首页> 外文期刊>International journal of computational linguistics and applications >OCR Error Correction Using Statistical Machine Translation
【24h】

OCR Error Correction Using Statistical Machine Translation

机译:使用统计机器翻译的OCR纠错

获取原文
获取原文并翻译 | 示例
           

摘要

In this paper, we explore the use of a statistical machine translation system for optical character recognition (OCR) error correction. We investigate the use of word and character-level models to support a translation from OCR system output to correct french text. Our experiments show that character and word based machine translation correction make significant improvements to the quality of the text produced through digitization. We test the approach on historical data provided by the National Library of France. It shows a relative Word Error Rate reduction of 60% at the word-level, and 54% at the character level.
机译:在本文中,我们探索了使用统计机器翻译系统进行光学字符识别(OCR)纠错的用途。我们调查了单词和字符级模型的使用,以支持从OCR系统输出到正确的法语文本的翻译。我们的实验表明,基于字符和单词的机器翻译校正可以显着提高通过数字化生成的文本的质量。我们对法国国家图书馆提供的历史数据进行了测试。它显示出在单词级别的相对单词错误率减少了60%,在字符级别的减少了54%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号