首页> 外国专利> Table of contents extraction based on textual similarity and formal aspects

Table of contents extraction based on textual similarity and formal aspects

机译:基于文本相似度和形式方面的目录提取

摘要

An initial organizational table for a document is determined based on textual similarity between entries of the organizational table and target text fragments and not taking into account text formatting. A classifier is trained to identify text fragment pairs consisting of entries of the organizational table and corresponding target text fragments based at least in part on text formatting features. The training employs a training set of examples annotated based on the initial organizational table. The initial organizational table is updated using the trained classifier.
机译:基于组织表的条目和目标文本片段之间的文本相似性来确定文档的初始组织表,而不考虑文本格式。训练分类器以至少部分地基于文本格式化特征来识别由组织表的条目和相应的目标文本片段组成的文本片段对。该培训采用了一组基于初始组织表注释的示例培训。使用受过训练的分类器更新初始组织表。

著录项

  • 公开/公告号US9224041B2

    专利类型

  • 公开/公告日2015-12-29

    原文格式PDF

  • 申请/专利权人 HERVE DEJEAN;JEAN-LUC MEUNIER;

    申请/专利号US20070923904

  • 发明设计人 HERVE DEJEAN;JEAN-LUC MEUNIER;

    申请日2007-10-25

  • 分类号G06F17/27;G06K9;

  • 国家 US

  • 入库时间 2022-08-21 14:28:32

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号