首页> 中国专利> PDF不完整框线表格提取方法、装置、设备及存储介质

PDF不完整框线表格提取方法、装置、设备及存储介质

摘要

本公开提供了一种PDF不完整框线表格处理方法,包括:S1、对PDF页面进行解析,解析出PDF页面的元素;S2、判断解析出的元素中是否至少包含水平线段元素和/或垂直线段元素,至少基于水平线段元素的特征判断PDF页面中是否包含表格;S3、如果PDF页面中包含表格,至少基于垂直线段元素的特征判断表格为完整框线表格或者不完整框线表格;S4、如果表格为不完整框线表格,则获取PDF页面中的所有文本块以及每个文本块的位置信息,至少基于每个文本块的位置信息获取PDF页面中的初步表格区域;以及S5、基于水平线段元素和/或垂直线段元素,对初步表格区域进行修正,获得修正表格区域。本公开还提供了PDF不完整框线表格处理装置、电子设备以及存储介质。

著录项

  • 公开/公告号CN112380812A

    专利类型发明专利

  • 公开/公告日2021-02-19

    原文格式PDF

  • 申请/专利权人 北京中科凡语科技有限公司;

    申请/专利号CN202011073584.7

  • 发明设计人 周玉;李小青;

    申请日2020-10-09

  • 分类号G06F40/163(20200101);G06F40/174(20200101);G06F40/18(20200101);G06K9/00(20060101);

  • 代理机构11807 北京庚致知识产权代理事务所(特殊普通合伙);

  • 代理人韩德凯;李晓辉

  • 地址 100190 北京市海淀区知春路63号51号楼10层1006

  • 入库时间 2023-06-19 09:55:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-08

    著录事项变更 IPC(主分类):G06F40/163 专利申请号:2020110735847 变更事项:发明人 变更前:周玉李小青 变更后:周玉

    著录事项变更

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号