首页> 中国专利> 一种面向公共资源交易数据的清洗去重方法及其系统

一种面向公共资源交易数据的清洗去重方法及其系统

摘要

本发明涉及一种面向公共资源交易数据的清洗去重方法及其系统,该公共资源交易数据所对应的文本以文本数据记录形式存储在数据集中;其中,按照预设规则对数据集进行分组,控制每个分组内的文本数据记录数量;基于最长公共子序列计算每一分组内各个文本数据记录之间的数据相似度;当两条文本数据记录之间的数据相似度大于预定阈值时,进一步对比这两条文本数据记录的命名实体信息,当这两条文本数据记录的命名实体信息相同时,判断属于重复数据,否则判断属于非重复数据。通过多维度的交叉验证方式来确定来自公共资源交易数据中的重复信息,能够在提高文本处理性能的基础上进一步防止误判重复数据。

著录项

  • 公开/公告号CN110196848B

    专利类型发明专利

  • 公开/公告日2022-04-12

    原文格式PDF

  • 申请/专利权人 广联达科技股份有限公司;

    申请/专利号CN201910278683.X

  • 发明设计人 刘全超;祝华令;付永晖;

    申请日2019-04-09

  • 分类号G06F16/215(20190101);G06F16/951(20190101);

  • 代理机构11015 北京英特普罗知识产权代理有限公司;

  • 代理人程超

  • 地址 100193 北京市海淀区西北旺东路10号院东区13号楼广联达信息大厦

  • 入库时间 2022-08-23 13:27:17

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号