首页> 中文学位 >基于单词全局特征的印刷体英文单词识别系统研究
【6h】

基于单词全局特征的印刷体英文单词识别系统研究

代理获取

目录

文摘

英文文摘

第一章绪论

1.1 OCR概述

1.2 OCR技术及分类

1.3本文的主要研究内容及章节安排

第二章印刷体英文字符识别

2.1印刷体英文字符识别系统介绍

2.2字符分割现状及存在问题

2.3字符识别中的特征提取方法

第三章基于单词全局特征的特征提取方法

3.1引言

3.2单词的粗分类

3.3特征提取

3.4分类器设计

3.5结论

第四章《图文翻译好帮手》的研制

4.1问题的提出

4.2系统的组成

4.3工作流程

4.4系统演示

4.5实验小结

参考文献

致谢

原创性声明

展开▼

摘要

本文的研究重点是印刷体英文识别技术。传统的印刷体英文识别系统很大程度上依赖于字符分割的好坏。字符分割的难点在于如何解决粘连字符的分割问题,特别是对小字号的字符,目前还没有一个有效的解决方法。  本文提出了一种基于单词全局特征的特征提取方法。该方法通过对截取的单词二值图像提取全局特征并进行多级的分类和识别,避免了字符分割这一复杂的过程,针对实际应用中常用的且字符粘连情况严重的12号TimesNewRoman字体进行识别得到了较好的识别效果。通过对特征库中的14877个单词进行测试,识别率达到99.7%。基于该方法本人研制开发了在Windows平台上适用的《图文翻译好帮手》系统,它可以帮助金山词霸截取PDF文档中图片格式的单词并进行翻译。该系统具有使用方便、实用性强的特点,通过对大量实际PDF文档进行测试,识别率高达95%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号