首页> 中文学位 >复杂版面文档图像中公式与文本的提取及分析
【6h】

复杂版面文档图像中公式与文本的提取及分析

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

符号对照表

缩略语对照表

目录

第一章 绪论

1.1 研究背景和意义

1.2 数据库介绍

1.3 公式和文本提取所遇到的困难

1.4 主要工作和创新点

1.5 本文结构安排

第二章 预处理

2.1 图像二值化

2.2 文档去噪

2.3 倾斜校正

2.4 本章小结

第三章 公式和文本提取预处理

3.1 横纵排文档分析

3.2 标题区域识别

3.3 页码识别

3.4 栏数识别

3.5 实验结果和性能分析

3.6 本章小结

第四章 复杂中文版面公式提取

4.1 引言

4.2 传统的公式提取方法

4.3 基于非文本域优先的公式提取

4.4 实验结果和性能分析

4.5 本章小结

第五章 复杂中文版面文本行提取及合并

5.1 引言

5.2 基于非文本域优先的中文版面文本提取

5.3 文档图像文本行合并算法研究

5.4 实验结果和性能分析

5.5 本章小结

第六章 总结与展望

6.1 工作总结

6.2 后期工作展望

参考文献

致谢

作者简介

展开▼

摘要

随着信息时代的来临,人们处理信息更加智能化和高效化。传统的文档信息主要记录在纸质文档上,OCR技术实现了纸质文档信息的数字化,版面分析是OCR实现的前提。由于中文版面研究历史较短,在字符形态和排版方式上与英文版面不同,因此中文版面分析的研究有其自身重要的价值。中文版面包括图、表格、公式和文本四个组成元素,其中公式和文本是主要的部分。由于公式和文本的结构与成分相似,因此版面分析中公式和文本的提取具有一定的困难。
  本研究主要内容包括:⑴首先采用投影轮廓分析法实现边界噪声的去除。然后采用连通区域标记和中值滤波相结合的方法去除椒盐噪声。与传统的中值滤波去除椒盐噪声相比,实验证明了本文方法的有效性。最后采用Hough变换实现文档图像倾斜校正。⑵文档图像公式和文本提取时,其版面结构(横纵排、栏数)和内容(标题、页码)会严重影响提取结果。针对这一问题,本文在公式和文本提取前,首先采用连通域提取法和最近邻合并法相结合的算法实现横纵排判断,然后采用投影法和形态学算法相结合的方法实现标题和页码的提取,最后采用投影法和连通域提取法相结合的方法实现文档栏数判断。以上部分是公式和文本的预处理,这是实现公式和文本提取的保障。⑶采用投影法、游程平滑算法、连通域轮廓提取算法和改进的规则定义法相结合的方法,实现复杂中文版面独立行公式提取。与传统的机器学习方法实现公式提取相比较,本文采用的方法,对于低分辨率文档图像,实现了独立行公式的提取,其提取准确率达到80%以上。⑷采用连通域分析和游程平滑算法相结合的方法,实现了文档图像文本行提取,其提取准确率达到81%以上。然后将Sobel算子和形态学算法相结合,实现了文本行的合并。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号