首页> 中文学位 >基于语言模型的OCR识别后蒙古文文档错误校正方法的研究
【6h】

基于语言模型的OCR识别后蒙古文文档错误校正方法的研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 错误校正研究现状

1.3 研究内容

1.4 结构安排

第二章 相关理论及技术

2.1 错误校正概述

2.1.1 OCR错误类型分析

2.1.2 常见错误校正方法

2.2 语言模型

2.2.1 N元语言模型

2.2.2 马尔科夫模型

2.2.3 最大熵模型

2.3 数据平滑技术

2.3.1 加法平滑

2.3.2 Good-Turing平滑

2.3.3 Katz平滑

2.3.4 Jelinek-Mercer平滑

第三章 蒙古文OCR识别后文档错误校正方法的研究

3.1 蒙古文OCR识别后文档错误校正流程

3.2 蒙古文特点

3.3 语料库的建立

3.3.1 语料简介

3.3.2 语料处理

3.4 OCR字符混淆模型

3.4.1 错误类型分析

3.4.2 字符混淆概率

3.4.3 易错字符统计

3.5 错误校正

第四章 实验

4.1 系统评价指标

4.2 语料库

4.3 语料训练

4.4 实验结果

第五章 结论及展望

5.1 结论

5.2 进一步研究方向

参考文献

致谢

展开▼

摘要

随着互联网的不断发展,网络已经成为人们共享信息的一个大平台。文献资料数字化技术的出现满足了人们获取信息的需求。将纸制版和图片形式的蒙古文文献资料进行数字化处理有利于蒙古文资料的管理、利用和传播。在数字化处理过程中,OCR(Optical Character Recognition)识别后的蒙古文字符会发生识别错误。因此,对蒙古文文档进行错误校正具有非常重要的研究意义。
  本文首先根据蒙古文的语言特点制定规则库,将大量国标码形式的语料根据规则转换为智能编码形式的语料,完成蒙古文语料库的构建。其次,对语料库进行训练,建立N-gram语言模型,并用平滑算法解决数据稀疏问题。然后,对比原始蒙古文文档和对应的识别结果,统计字符识别情况,建立OCR字符混淆模型,将混淆概率较高的字符作为易错字符。最后采用语言模型对OCR识别后蒙古文文档中的易错字符进行错误校正。实验结果表明基于语言模型的错误校正有着较好的校正效果,校正后OCR的系统错误率由1.91%降低到0.66%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号