首页> 中文学位 >模型序列方法与文档版面结构理解
【6h】

模型序列方法与文档版面结构理解

代理获取

目录

文摘

英文文摘

致谢

插图目录

表格目录

第一章引言

1.1文档处理和文档处理系统

1.2文档理解

1.3文档重建与本文的定位

1.4本文的组成

第二章预处理

2.1倾斜校正

2.1.1基于投影轮廓(Projection Profie)的方法

2.1.2 Hough变换与中文名片倾斜校正

2.1.3斜率直方图与文本谱

2.2二值化

2.3文字和语言识别

第三章版面拆解与区域识别

3.1文档几何结构模型

3.2版面拆解

3.2.1连通体分析

3.2.2自底向上方法

3.2.3自顶向下方法

3.2.4综合方法

3.3基于纹理分析的区域识别方法

3.4假设,验证和反馈与文档图像分析

3.5多值文档处理

第四章基于模型的文档版面结构理解

4.1信函类文档理解

4.2表格处理

4.2.1表格分析与理解

4.2.2表格识别

4.3文档版面结构理解的模型序列方法

4.3.1问题的提出

4.3.2文档模型序列的建立

4.3.3仿真实验的结果

4.3.4结论

第五章文档模型识别

5.1文档模型识别流程

5.2文档图像的层次概念

5.3排版信息分析

5.3.1字号分析

5.3.2线条信息分析

5.4投影轮廓分析与版面结构基元的获取

5.5基元检测算法的评估

5.5.1基于OCR识别结果的方法

5.5.2基于区域比较的性能评估方法

5.5.3算法自身的测试

5.5.4与其它系统的比较测试

5.6模型识别算法的性能分析

第六章结束语

参考文献:

作者在攻读博士学位期间发表和完成论文题录

展开▼

摘要

文档图像处理(DIP-Document Image Processing)的研究目的就是要利用计算机从文档图像中获取需要的信息,或者说,是要让计算机模拟人类自身对文档图像进行理解.我们首先提出了问题可解性的概念.当给定一个问题,它可以分解为一系列的模型;该模型序列在一定的测度下是收敛的;而且对于给定的常数t(t<1),存在一个远小于无穷的正数C,使得该序列前C个模型之和对整个问题的覆盖程度大于t,那么,我们就称该问题是模型可解的.其次,我们通过仿真实验表明了版面结构理解问题是模型可解的.我们构造了一个文档版面结构模型序列.在表明版面结构的模型可解性的同时,我们也完成了模型的建立.然后,我们设计了一个文档版面结构模型的识别算法.该算法的功能主要是识别上面模型序列中的十二个结构模型.该算法从文档分层的思想出发,利用投影轮廓分析方法和一些排版方面的知识,首先确定出我们定义的文档版面结构空间模型中的基元.此外,我们还介绍了文档图像处理中其它一些方向的研究工作,包括预处理,版面拆解和区域识别.其中,我们详细介绍了我们在文档倾斜校正和区域识别方面的研究成果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号