复杂版面文档图像中公式与文本的提取及分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息时代的来临，人们处理信息更加智能化和高效化。传统的文档信息主要记录在纸质文档上，OCR技术实现了纸质文档信息的数字化，版面分析是OCR实现的前提。由于中文版面研究历史较短，在字符形态和排版方式上与英文版面不同，因此中文版面分析的研究有其自身重要的价值。中文版面包括图、表格、公式和文本四个组成元素，其中公式和文本是主要的部分。由于公式和文本的结构与成分相似，因此版面分析中公式和文本的提取具有一定的困难。
　　本研究主要内容包括：⑴首先采用投影轮廓分析法实现边界噪声的去除。然后采用连通区域标记和中值滤波相结合的方法去除椒盐噪声。与传统的中值滤波去除椒盐噪声相比，实验证明了本文方法的有效性。最后采用Hough变换实现文档图像倾斜校正。⑵文档图像公式和文本提取时，其版面结构（横纵排、栏数）和内容（标题、页码）会严重影响提取结果。针对这一问题，本文在公式和文本提取前，首先采用连通域提取法和最近邻合并法相结合的算法实现横纵排判断，然后采用投影法和形态学算法相结合的方法实现标题和页码的提取，最后采用投影法和连通域提取法相结合的方法实现文档栏数判断。以上部分是公式和文本的预处理，这是实现公式和文本提取的保障。⑶采用投影法、游程平滑算法、连通域轮廓提取算法和改进的规则定义法相结合的方法，实现复杂中文版面独立行公式提取。与传统的机器学习方法实现公式提取相比较，本文采用的方法，对于低分辨率文档图像，实现了独立行公式的提取，其提取准确率达到80％以上。⑷采用连通域分析和游程平滑算法相结合的方法，实现了文档图像文本行提取，其提取准确率达到81％以上。然后将Sobel算子和形态学算法相结合，实现了文本行的合并。

著录项

作者
贺景宇;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科信息与通信工程
授予学位硕士
导师姓名卢朝阳;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类图像处理软件;
关键词
文档图像; 图像识别; 版面分析; 图像处理;

相似文献

中文文献
外文文献
专利

1. 文档图像检索系统中的版面提取及内容分析方法 [J] . 刘劼 . 科技创新导报 . 2009,第008期
2. 复杂彩色文本图像中字符的提取 [J] . 陈又新 ,刘长松 ,丁晓青 . 中文信息学报 . 2003,第005期
3. 数学公式中数学符号的特征分析及提取 [J] . 徐晓蓉 ,陈洪波 ,王强 . 兰州理工大学学报 . 2012,第005期
4. 文本分类中特征提取方法的比较与分析 [J] . 屈军 ,林旭 . 现代计算机（专业版） . 2007,第004期
5. 复杂地质矿产勘查中的数据提取方法分析 [J] . 路春霞 . 世界有色金属 . 2021,第013期
6. 基于版面特征的文档图像的文本定位方法 [C] . 钟辉 ,黄洋 . 2008年中国信息技术与应用学术论坛 . 2008
7. 文档图像的版面分析与文本行提取算法研究 [A] . 张青 . 2018

复杂版面文档图像中公式与文本的提取及分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅