基于语言模型的OCR识别后蒙古文文档错误校正方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的不断发展，网络已经成为人们共享信息的一个大平台。文献资料数字化技术的出现满足了人们获取信息的需求。将纸制版和图片形式的蒙古文文献资料进行数字化处理有利于蒙古文资料的管理、利用和传播。在数字化处理过程中，OCR（Optical Character Recognition）识别后的蒙古文字符会发生识别错误。因此，对蒙古文文档进行错误校正具有非常重要的研究意义。
　　本文首先根据蒙古文的语言特点制定规则库，将大量国标码形式的语料根据规则转换为智能编码形式的语料，完成蒙古文语料库的构建。其次，对语料库进行训练，建立N-gram语言模型，并用平滑算法解决数据稀疏问题。然后，对比原始蒙古文文档和对应的识别结果，统计字符识别情况，建立OCR字符混淆模型，将混淆概率较高的字符作为易错字符。最后采用语言模型对OCR识别后蒙古文文档中的易错字符进行错误校正。实验结果表明基于语言模型的错误校正有着较好的校正效果，校正后OCR的系统错误率由1.91％降低到0.66％。

著录项

作者
王霈珺;
展开▼
作者单位

内蒙古大学;

展开▼
授予单位内蒙古大学;
学科计算机科学与技术
授予学位硕士
导师姓名高光来;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
OCR识别; 蒙古文文档; 规则库; 语言模型; 错误校正;

相似文献

中文文献
外文文献
专利

1. 融合主题与语言模型的蒙古文信息检索方法研究 [J] . 斯日古楞 ,林民 ,田长波 . 计算机应用研究 . 2016,第012期
2. 浅析蒙古文电子文档中的文本错误 [J] . 杨利润 ,斯琴巴图 . 电脑知识与技术 . 2019,第011期
3. 一种基于连通域的蒙古文文档图像版面分析方法 [J] . 魏宏喜 ,高光来 . 内蒙古大学学报：自然科学版 . 2007,第5期
4. 基于Web网页与PDF文档自动构建更新语言模型 [J] . 张强 ,陶宏才 . 成都信息工程学院学报 . 2009,第005期
5. 基于混合语言模型的文档相似性计算模型 [J] . 李晓光 ,于戈 ,王大玲 . 中文信息学报 . 2006,第004期
6. 基于统计语言模型蒙古文词汇分析校正器的设计与实现 [C] . 赵军 ,敖其尔 ,吉仁尼格 . 第十一届全国民族语言文字信息学术研讨会 . 2007
7. 基于视觉语言模型的蒙古文古籍图像检索技术研究 [A] . 郭星 . 2017

基于语言模型的OCR识别后蒙古文文档错误校正方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅