【24h】

Automated Labeling in Document Images

机译:文档图像中的自动标记

获取原文
获取原文并翻译 | 示例

摘要

The National Library of Medicine (NLM) is developing an automated system to produce bibliographic records for its MEDLINE~(circle R) database. This system, named Medical Article Record System (MARS), employs document image analysis and understanding techniques and optical character recognition (OCR). This paper describes a key module in MARS called the Automated Labeling (AL) module, which labels all zones of interest (title, author, affiliation, and abstract) automatically. The AL algorithm is based on 120 rules that are derived from an analysis of journal page layouts and features extracted from OCR output. Experiments carried out on more than 11,000 articles in over 1,000 biomedical journals show the accuracy of this rule-based algorithm to exceed 96 percent.
机译:国家医学图书馆(NLM)正在开发一个自动系统,以为其MEDLINE〜(circle R)数据库生成书目记录。该系统名为医学物品记录系统(MARS),采用文件图像分析和理解技术以及光学字符识别(OCR)。本文介绍了MARS中的一个关键模块,称为自动标记(AL)模块,该模块会自动标记所有感兴趣的区域(标题,作者,隶属关系和摘要)。 AL算法基于120条规则,这些规则是从对OCR输出中提取的期刊页面布局和功能的分析得出的。在1,000多种生物医学期刊上对11,000篇文章进行的实验表明,这种基于规则的算法的准确性超过96%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号