表格识别预处理技术与表格字符提取算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

OCR是模式识别中最热门的研究领域之一，而表格识别是OCR的一个重要的研究和应用方向。本文主要讨论表格识别中的两个问题，即表格识别预处理技术与表格字符提取算法。　　二值化是图像处理和字符识别中相当重要的一个环节。本文在现有的图像二值化算法的基础上，针对手写表格文档提出了一种基于非线性对比度增强及LoG算子的混合二值化方法，基本上克服了现有方法所存在的对噪声敏感、速度较慢、易导致笔划断裂等缺点。实验证明该方法比传统方法有显著改进。　　待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像，在Hough变换的基础上提出了一种带参数约束条件的Hough变换——HTPC，有效降低了传统Hough变换的计算复杂度，并结合一种快速图像旋转方法，实现了对表格文档图像的快速倾斜角检测及校正。　　本文研究的重点之一是如何解决表格文档中手写字符经常重叠表格边框线的问题。为此，我们提出了一种新方法来准确定位和完整地提取重叠边框线的字符，即先通过CTF过程准确地定位并提取出表格的所有单元格，再通过ECCEA方法完整地提取出表格中的字符，然后利用基于连通区域检测的去噪算法对图像进行去噪，最后对字符图像进行平滑化处理。实验表明了我们的方法的有效性。　　最后，我们利用本文提出的表格文档预处理及字符提取算法，并结合我们对字符分割、特征提取以及分类器设计等问题的最新研究，研制开发了Windows平台上适用的《成绩单自动识别系统》，其总体识别率达85％以上。

著录项

作者
谢亮;
展开▼
作者单位

中山大学;

展开▼
授予单位中山大学;
学科计算数学
授予学位硕士
导师姓名关履泰,李小福;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;算法理论;
关键词
OCR; 表格识别; 二值化; 倾斜校正; 重叠边框线; 字符提取;

相似文献

中文文献
外文文献
专利

1. 表格字符识别系统的分层特征提取算法 [J] . 周凤香 . 智慧工厂 . 2016,第002期
2. 印刷文档中表格字符的自动提取算法 [J] . 田学东 ,李新福 ,郭宝兰 . 河北大学学报（自然科学版） . 2001,第001期
3. 基于表格自动识别的预处理技术研究 [J] . 邵珠贵 ,杨惠英 . 长春师范学院学报（自然科学版） . 2012,第006期
4. 基于表格自动识别的预处理技术研究 [J] . 邵珠贵 ,杨惠英 . 长春师范大学学报 . 2012,第006期
5. 基于表格的手写体字符识别技术研究 [J] . 王君 ,柳清瑞 ,藤淑娟 . 小型微型计算机系统 . 2002,第007期
6. 表格中字符块的提取 [C] . 任鲲鹏 . 第七届全国汉字识别学术会议 . 1999
7. 基于自学习的手写表格数字字符串快速识别方法的研究 [A] . 仲小挺 . 2014

表格识别预处理技术与表格字符提取算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅