首页> 中文学位 >表格识别预处理技术与表格字符提取算法的研究
【6h】

表格识别预处理技术与表格字符提取算法的研究

代理获取

目录

文摘

英文文摘

第一章绪论

1.1引言

1.2表格识别的研究现状及存在问题

1.3本文的研究内容及组织结构

第二章表格图像二值化

2.1概述

2.2三种二值化方法的介绍

2.2.1 Ridler和Calvard的聚类方法(RC方法)

2.2.2 Sauvola和Pietaksinen的局部自适应阈值选取方法

2.2.3 Hwang和Fu的基于多尺度Canny边缘的二值化方法

2.3基于非线性对比度增强及LoG算子的混合二值化方法

2.3.1线性对比度增强

2.3.2非线性对比度增强

2.3.3 LoG算子

2.3.4 RC迭代阈值选取

2.4实验结果及讨论

2.5小结

第三章自动倾斜校正算法

3.1图像自动倾斜矫正算法的提出

3.2文档图像倾斜角度自动检测算法的研究

3.2.1现有倾斜角度检测算法的介绍

3.2.2传统的Hough变换方法

3.2.3带参数约束条件的Hough变换——HTPC方法的提出

3.3图像旋转算法的研究

3.3.1传统的图像旋转方法介绍

3.3.2改进的快速图像旋转方法

3.3.3两种图像旋转方法的一致性证明

3.4实验及结果分析

3.5小结

第四章表格字符定位与提取

4.1概述

4.2基于数学形态学的表格线检测及信息恢复算法

4.2.1数学形态学变换的基本知识

4.2.2基于数学形态学变换的表格线检测算法

4.2.3基于数学形态学变换的信息恢复算法

4.3基于COI提取及断裂笔划局部分类恢复的表格字符定位与提取方法

4.3.1提取表格单元格的CTF过程

4.3.2提取单元格字符图像的ECCEA方法

4.3.2提取单元格字符图像的ECCEA方法 4.3.2.1 COI提取

4.3.2提取单元格字符图像的ECCEA方法 4.3.2.2去除COI边框线

4.3.2提取单元格字符图像的ECCEA方法 4.3.2.3断裂笔划恢复

4.3.3字符图像去噪

4.3.4字符图像平滑化

4.4实验

4.5小结

第五章成绩单自动识别系统

5.1 OCR系统的组成

5.2《成绩单自动识别系统》的工作流程

5.3《成绩单自动识别系统》的另外三个组成部分

5.3.1字符分割模块

5.3.2特征提取模块

5.3.3分类器设计模块

5.4系统综合介绍及小结

参考文献

致谢

声明

展开▼

摘要

OCR是模式识别中最热门的研究领域之一,而表格识别是OCR的一个重要的研究和应用方向。本文主要讨论表格识别中的两个问题,即表格识别预处理技术与表格字符提取算法。  二值化是图像处理和字符识别中相当重要的一个环节。本文在现有的图像二值化算法的基础上,针对手写表格文档提出了一种基于非线性对比度增强及LoG算子的混合二值化方法,基本上克服了现有方法所存在的对噪声敏感、速度较慢、易导致笔划断裂等缺点。实验证明该方法比传统方法有显著改进。  待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像,在Hough变换的基础上提出了一种带参数约束条件的Hough变换——HTPC,有效降低了传统Hough变换的计算复杂度,并结合一种快速图像旋转方法,实现了对表格文档图像的快速倾斜角检测及校正。  本文研究的重点之一是如何解决表格文档中手写字符经常重叠表格边框线的问题。为此,我们提出了一种新方法来准确定位和完整地提取重叠边框线的字符,即先通过CTF过程准确地定位并提取出表格的所有单元格,再通过ECCEA方法完整地提取出表格中的字符,然后利用基于连通区域检测的去噪算法对图像进行去噪,最后对字符图像进行平滑化处理。实验表明了我们的方法的有效性。  最后,我们利用本文提出的表格文档预处理及字符提取算法,并结合我们对字符分割、特征提取以及分类器设计等问题的最新研究,研制开发了Windows平台上适用的《成绩单自动识别系统》,其总体识别率达85%以上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号