首页> 中国专利> 企业名称与系统用户名称优化匹配的方法及系统

企业名称与系统用户名称优化匹配的方法及系统

摘要

本发明涉及内部数据与外部数据关联的技术,为企业名称与系统用户名称优化匹配的方法及系统,其方法包括:基于强逻辑关系对企业名称与系统用户名称进行精准匹配;基于杰卡德系数计算企业名称与用户名称的相似度并将相似度与阈值对比进行一次判定;基于一次判定结果对通过判定的企业名称对应的企业地址与对应的系统用户地址进行正则分析,具有相同县(区)或相同镇(街道)的则确认匹配,输出对应用户的用户编号信息。本发明结合用户名称精确匹配、相似度计算和地址验证的方法,辅助外部数据中企业名称与内部数据中系统用户名称的匹配关联,建立数据共享融合关联关系桥梁。

著录项

  • 公开/公告号CN112330342A

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 佰聆数据股份有限公司;

    申请/专利号CN202011254087.7

  • 发明设计人 漆浩;桂媛;孟禹;

    申请日2020-11-11

  • 分类号G06Q30/00(20120101);G06F16/2457(20190101);G06F16/25(20190101);G06F16/28(20190101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人林梅繁

  • 地址 510663 广东省广州市高新技术产业开发区科学城科学大道162号创意大厦B3栋1301单元

  • 入库时间 2023-06-19 09:49:27

说明书

技术领域

本发明涉及内部数据与外部数据关联的技术,具体涉及企业名称与系统用户名称优化匹配的方法及系统。

背景技术

在当今的大数据时代,数据融合的实质是针对多来源、多维度、多形态的复杂海量数据进行碰撞关联以及线索分析,寻求和发掘数据的价值,进而提取优化的管理模式和技术路线,以发掘提取低价值密度数据的价值,提高数据的可利用率。为此,电网企业需立足自身数据资产以及与外部数据的关联能力,将大数据技术与具体业务场景相借鉴,发挥数据挖掘的巨大作用。

新客户在申请用电时需要填写用户名称、用电地址、通信地址、负责人姓名、电话、报装容量等信息,然后由业务人员在营销系统中进行新用户录入,营销系统将自动为新客户生成唯一的用户编号信息。

在面对多种常规和突发事件时,许多政府公权力单位要求电网企业共享用电数据,面对政府单位的要求,电网企业在积极响应的同时,也存在一些问题。首要问题则是面对政府单位提供的需要获取电力数据的主体清单,该如何与电力系统中的用户进行匹配关联。

综上所述,现有的基于主体清单的企业名称与电力营销系统中的用户名称进行精确匹配、关联分析,是目前开展电力系统与外部数据进行融合的主流手段,但此方法存在一定的问题。

基于企业名称与电力营销系统中的用户名称精确匹配关联的主要缺点为营销系统中用户名称受客户人工填写影响,因此营销系统中的企业用户名称存在少字、错字或者非居用户按居用户报装,用户名称为法人姓名等问题,从而导致用户名称精确匹配的方法在准确性方面存在一定的影响。

Jaccard index,又称为Jaccard相似系数(Jaccard similarity coefficient,杰卡德相似系数)用于比较有限样本集之间的相似性与差异性。Jaccard相似系数值越大,样本相似度越高。两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德相似系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合相似度的一种指标。

发明内容

针对现有技术不足,本发明提出企业名称与系统用户名称优化匹配的方法及系统,结合用户名称精确匹配、相似度计算和地址验证的方法,辅助外部数据中企业名称与内部数据中系统用户名称的匹配关联,建立数据共享融合关联关系桥梁。

本发明企业名称与系统用户名称优化匹配的方法,包括以下步骤:

(1)基于强逻辑关系对企业名称与系统用户名称进行精准匹配,若匹配成功则输出对应用户的唯一用户编号信息,否则转入步骤(2);

(2)基于杰卡德相似系数计算企业名称与用户名称的相似度并将相似度与阈值对比进行一次判定;若一次判定的结果为相似度大于阈值,则转入步骤(4),否则转入步骤(3);

(3)对企业名称所对应的企业法人名称与系统用户名称进行匹配,如果匹配成功,转入步骤(4);

(4)对企业名称所对应的企业地址与对应的系统用户地址用正则分析方法进行比对,若比对结果为地址一致则确认匹配,输出对应用户的用户编号信息。

本发明企业名称与系统用户名称优化匹配的系统,包括:

数据接收模块,用于接收外部提供的企业信息;企业信息包括企业名称、企业法人名称、企业地址和企业统一社会信用代码;

数据匹配模块,用于将接收到的企业信息与系统数据库中的用户信息进行关联匹配;用户信息包括用户名称、用户地址;

数据统计与展示模块,用于汇总企业名称与系统数据库中的用户名称匹配结果并进行可视化展示;

数据导出模块,用于将匹配结果进行导出。

与现有技术相比,本发明具有如下优点和有益效果:

1、本发明结合用户名称精确匹配、相似度计算和地址验证的方法,辅助外部数据中企业名称与内部数据中系统用户名称的匹配关联,建立数据共享融合关联关系桥梁,使政府部门或其他外部主体通过企业名称模糊匹配技术与内部数据(如电力营销系统)中的客户基础档案进行关联,进而实现内部电网数据与政务、运营商、水利、天然气等外部数据的融合共享,支撑电网公司的数字服务和数字赋能工作。

2、本发明通过对匹配算法的升级,可以在后期优化提升整体的匹配度,让外部数据与内部电网数据的关联匹配度得以提高,解决现有方法匹配度低,必须名称一致才能匹配的问题。

附图说明

图1为本发明实施例提供的企业名称与电力系统用户优化匹配方法的总体流程图;

图2为基于Jaccard计算两个名称相似度的具体流程图;

图3为本发明实施例提供的匹配系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明作进一步详细说明。但本发明的实施方式并不限于此。

实施例

本实施例将企业名称文本依次进行精确匹配、模糊匹配,辅助外部数据中企业名称与内部数据中用户名称的匹配关联。图1示出了本发明实施例提供的企业名称与电力营销系统中用户名称优化匹配方法实现流程,详述如下。

步骤S101、接收政府单位提供的外部企业信息,并保存为文本信息。

在本实施例中,政府单位提供的企业信息包括“企业名称”、“企业法人名称”、“企业地址”和“企业统一社会信用代码”等信息。

步骤S102、将上述文本信息中的“企业名称”信息逐项与电力营销系统中的用电客户表中的用户名称信息使用精确匹配方法进行匹配,如果可以匹配成功则输出对应用户的唯一用户编号信息,否则转入步骤S103。

其中,精准匹配方法采用数据库语言强逻辑关联来实现,即“企业名称”等于“用户名称”,两者完全相同。

步骤S103、对接收到的文本信息中的企业名称进行分词处理后,计算其与数据库中用户名称的Jaccard(杰卡德)相似系数,如果相似系数(即相似度)大于预设阈值则进行匹配关联转入步骤S105,否则转入步骤S104。

杰卡德相似系数,也叫杰卡德相似度、Jaccard相似度,用于比较有限样本集之间的相似性与差异性。相似系数值越大,样本相似度越高。实际上它的计算方式非常简单,就是两个样本交集除以两个样本并集得到的数值,当两个样本完全一致时,结果为1,当两个样本完全不同时,结果为0。再计算两个样本交集与两个样本并集的商,即为样本的杰卡德相似系数。该方法的计算公式为:

其中|A∩B|为样本A与样本B的交集,|A∪B|为样本A与样本B的并集。

在本实施例中按图2所示流程计算“企业名称”与“用户名称”之间的Jaccard相似系数。例如有企业名称:广东省创A有限公司,用户名称:广东创A有限公司,选定企业名称和用户名称作为特征词,计算特征词的TF分词矩阵向量,即[‘广’,’东’,’省’,’创’,’A’,’有’,’限’,’公’,’司’],再转化为词频向量为[[1,1,1,1,1,1,1,1,1],[1,1,0,1,1,1,1,1,1]];然后依次计算P:企业名称的TF分词矩阵向量A与用户名称的TF分词矩阵向量B都是1的维度的个数,Q:分词矩阵向量A是1、分词矩阵向量B是0的维度的个数,R:分词矩阵向量A是0、分词矩阵向量B是1的维度的个数。这里求和P+Q+R可理解为分词矩阵向量A与分词矩阵向量B的并集的元素个数,而P是分词矩阵向量A与分词矩阵向量B的交集的元素个数。因此Jaccard相似系数可表示为:

因此,本实施例中企业名称“广东省创A有限公司”与用户名称“广东创A有限公司”的Jaccard相似度为0.89。

步骤S104、对接收到的企业名称对应的企业法人名称与数据库中的用户名称进行匹配,如果可以匹配成功,再转入步骤S105对地址进行比对;否则转入步骤S106。

步骤S105、对企业名称对应的地址与数据库中的用户地址利用正则表达式方法,分别提取对应的省、市、县(区)、镇(街道)信息,对地址用正则分析方法进行比对,如果县(区)或镇(街道)地址一致则输出对应用户的用户编号信息,否则转入步骤S106。

步骤S106、根据企业名称进行人工匹配完成该数据项的关联匹配。

如图3所示,基于相同的发明构思,本实施例还提供企业名称与系统用户名称优化匹配的系统。该匹配系统运行于电网公司大数据平台中,具体包括:

数据接收模块21,用于接收外部提供的企业信息;

数据匹配模块22,用于将接收到的企业信息与系统数据库中的用户信息进行关联匹配;企业信息包括企业名称、企业法人名称、企业地址和企业统一社会信用代码;用户信息包括用户名称、用户地址;

数据统计与展示模块23,用于汇总企业名称与电力系统数据库中的用户名称匹配结果并进行可视化展示;

数据导出模块24,用于将匹配结果进行导出。

数据接收模块21包括:数据导入子模块211,用于将政府单位提供的需要匹配的企业信息导入到系统数据库(例如电网公司大数据平台);数据存储子模块212,用于存储导入的企业信息和系统用户的档案信息(如电网系统用电客户档案信息)。

数据匹配模块22包括:精确匹配子模块221,用于精确匹配筛选可以直接通过强逻辑关联即可完成匹配的企业;模块匹配子模块222,用于计算企业名称和用户名称之间的Jaccard相似度;地址验证子模块223,用户验证Jaccard相似度达到设定阈值的外部企业地址与电网系统用户地址之间的对应关系。

数据统计与展示模块23包括:汇总计数模块231,用于计算各匹配企业数、未匹配的企业数等;可视化子模块232,用于将分析结果可视化,方便业务人员查看与分析。

数据导出模块24包括:电力数据关联子模块241,用于根据企业名称匹配的用户名称对应的用户编号关联外部需要的数据(诸如政府单位需要的用户用电量等数据);数据导出子模块242,用于将关联的电力数据从电力大数据平台中导出,方面数据提供部门交付政府单位使用。

本发明实施例将精确匹配、模糊匹配等多种匹配方法结合并优化,利用杰卡德方法计算企业名称与用户名称之间的相似度,大大增加企业名称与电力用户名称的匹配率,释放了大量人工匹配工作量。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号