首页> 中国专利> 一种基于企业网络的企业业务相似度计算方法与系统

一种基于企业网络的企业业务相似度计算方法与系统

摘要

本发明公开了一种基于企业网络的企业业务相似度计算方法与系统,将数据集中的每个企业作为节点加入到图数据库中,根据每条企业关系,在图数据库中查询到表示相关企业的节点,在节点间建立一条类型为供应关系的边,从而构造出企业网络;通过已经构造出来的企业网络,计算任意两个制造商之间的共用供应商在总的供应商中所占的比例,从而得到企业业务相似度;建立一条从一个企业指向另一个企业的边,其关系类型为Similar;构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相连,边的属性SIM即为业务相似度。基于企业网络,依据制造商共用供应商数目,进行企业业务相似度计算的方法能够得到更可靠的结果。

著录项

  • 公开/公告号CN105183767A

    专利类型发明专利

  • 公开/公告日2015-12-23

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN201510464248.8

  • 发明设计人 刘士军;潘丽;武蕾;

    申请日2015-07-31

  • 分类号G06F17/30(20060101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人张勇

  • 地址 250061 山东省济南市历下区经十路17923号

  • 入库时间 2023-12-18 12:59:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-20

    授权

    授权

  • 2016-01-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150731

    实质审查的生效

  • 2015-12-23

    公开

    公开

说明书

技术领域

本发明涉及一种基于企业网络的企业业务相似度计算方法与系统。

背景技术

社交网络的迅速发展,为人们解决问题提供了一种新的视角和工具。当前社交网络主要 限制在人与人之间交际的网络,涉及到的实体和关系类型比较少,实体主要是人,而关系类 型主要是人之间的社会关系。将社交网络的思想应用于企业网络,可以让我们以一个全新的 视角来研究传统企业商业网络中存在的问题。企业网络中的实体涉及企业、产品和员工等, 并且存在供应、分销、代理、投资和OEM等多种关系类型。实体种类多和关系复杂为挖掘有 价值信息提供了丰富的原材料。当前,企业网络研究的目标也主要是对增值信息的挖掘。

在企业发展过程中,往往需要时刻关注竞争对手,并与自身相比较,从而向竞争对手学 习,最终获得更好的发展。而其中很重要的一方面是,业务相似的企业构成了较强的竞争关 系,这些企业也就成为了同行业相互关注的焦点。所以如何找到与自己业务最相似的企业成 为了一个很有价值的问题。

现在找业务相似企业的一般方法是通过企业业务描述,寻找同行业企业,或者与自身行 业领域地位相近的企业。存在的技术缺点如下:

1.在互联网上直接搜索相似企业,掌握的数据会比较局限,不够全面;而关键词选取精 确度的差别,也不利于找到真正所需的数据。

2.现有的信息搜索,只是单纯的将结果罗列,不能形成良好的数据可视化展示,因此, 分析同行业的企业时,需要人工不断重复地比较和分析,数据处理效率低。

3.现有的相似企业寻找方法,仅仅是通过主营业务的描述进行比较,由于文字描述的多 样性,结果不够精确,误差较大;另外,业务的描述只能反映企业属于同一个行业,并不能 真正反映企业业务的相似程度。

因此,亟需一种操作简便,数据精确,便于展示的基于企业网络的企业业务相似度计算 方法与系统。

发明内容

为解决现有技术存在的不足,本发明公开了一种基于企业网络的企业业务相似度计算方 法与系统,本发明基于企业网络,企业网络是一张有向图,企业是图中的节点,企业和企业 之间的供应关系是节点之间的边,边是从供应商指向制造商。通过企业网络,我们可以找到 一个制造商的所有供应商,以及一个供应商的所有制造商。制造商之间共用的供应商可以反 映企业业务的相似度。制造商之间共用的供应商数目越多,可以认为这两个制造商在业务上 越相似,反之,认为业务相似度较低。通过计算制造商之间共用供应商的数目,并经过归一 化处理,即可得到制造商之间的业务相似度。

为实现上述目的,本发明的具体方案如下:

一种基于企业网络的企业业务相似度计算方法,包括以下步骤:

步骤一:数据集爬取和构建:通过爬虫将网站页面上的企业信息爬取下来,对爬取下来 的配套信息进行分词匹配,并为企业信息对应的供应商和匹配出来的制造商建立供应关系;

步骤二:构建企业网络:企业网络的数据结构为有向图,采用的数据集主要包括企业信 息和企业之间的供应关系信息,因此可以将数据集转换成有向图结构,并导入到图数据库中, 将数据集中的每个企业作为节点加入到图数据库中,根据数据集中每条企业的供应关系在图 数据库中查询到表示相关企业的节点,在节点间建立一条类型为供应关系的边;

步骤三:企业业务相似度计算:根据已经构造出来的企业网络,通过计算任意两个制造 商之间的共用供应商在总的供应商中所占的比例进行企业业务相似度计算;建立一条从一个 企业指向另一个企业的边,其关系类型为Similar;

步骤四:构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型 的边相连,边的属性SIM即为业务相似度,基于新的图S进行企业业务相似度查询。

企业信息包括企业名称、主营产品、配套客户、厂家地址等信息。网站页面指的是B2B 电子商务网站页面,对配套信息进行分词匹配采用的是现有的字典分词算法。

将数据集中的每个企业(包含企业名称,为方便检索,其他信息可选择性加入)作为节 点加入到图数据库中。根据数据集中每条企业的供应关系(包含供应商名称和制造商名称, 供应关系的其他信息选择性加入),在图数据库中查询到表示相关企业的节点。

所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过 程,主要步骤如下:

1)通过爬虫技术(标准爬虫技术,此处不做讨论)将B2B网站的相关信息爬取下来,主 要包括企业名称、主营产品、配套客户、厂家地址等信息。

2)将所有爬取到的企业名称保存为分词字典,用于下一步的企业匹配。

3)针对爬取下来的每个供应商的配套客户信息,利用现有的分词算法(已有的利用字典 的分词算法,此处不做讨论)将配套客户信息中的企业名称匹配出来,在一条记录中保存供 应商名称和制造商名称,从而建立供应商到制造商的供应关系。

所述企业网络构建采用图数据库Neo4j保存和处理图数据,企业网络的构建工作主要用 于在图数据库中建立企业节点和企业之间的关系边。

所述企业业务相似度计算,定义P(ENTi)为制造商i的供应商集合,P(ENTj)为制造商j 的供应商集合,SHARE即为制造商i和j所共用的供应商数目,定义SIMij为制造商i和j的 业务相似度,计算公式为:

SHARE=|P(ENTi)∩P(ENTj)|

SIMij=SHAREMIN(|P(FNTi)|,|P(FNTj)|).

在图数据库中计算企业业务相似度主要步骤如下:

1)去除供应商数目过少制造商,由于数据集是从网络爬取的,存在一些噪音数据,将供 应商数目少于设定量的作为噪音数据去掉,并将符合要求的制造商标签设为“OK”;

2)针对每一个标签为“OK”的企业,获取其id,进行3)-6);

3)取制造商P,其编号为pid,计算其拥有的供应商数目pnum;

4)根据制造商P,取与其有共用供应商的其他每一制造商Q,并获得共用供应商数目 SHARE,针对每一制造商Q,进行5)-6);

5)根据制造商Q的qid,计算该制造商的拥有的供应商数目qnum;

6)计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关 系类型为Similar,其相似度属性名为SIM,值为SIMpq

SIMpq=SHAREMIN(pnum,qnum);

7)最终构造出来一个新的图S:任意两个有共用供应商的制造商,有一条Similar类型的 边相连,边的属性SIM即为业务相似度。

一种基于企业网络的企业业务相似度计算系统,包括数据集爬取和构建模块,企业网络 构建模块、企业业务相似度计算模块和查询模块。

数据集爬取和构建模块,通过爬虫,将B2B电子商务网站页面上的企业信息爬取下来, 并使用字典分词算法对配套信息进行分词匹配,并为供应商和匹配出来的制造商建立供应关 系;

企业网络构建模块,根据经过爬取来的企业关系数据,将企业网络构建出来,采用图数 据库存储和处理企业网络数据;

企业业务相似度计算模块,在企业网络之上,对任意两个有共用供应商的制造商计算其 业务相似度,并在两点之间建立一条边,其相似度作为边的一个属性,最终构造成新的图S;

业务相似度查询模块,在图S上,根据用户的需求进行相似度排序、企业相似度查询操作。

所述数据集的爬取和构建工作主要分为B2B网站数据爬取和企业供应关系匹配两个过 程,主要步骤如下:

1)通过爬虫技术(标准爬虫技术,此处不做讨论)将B2B网站的相关信息爬取下来,主 要包括企业名称、主营产品、配套客户、厂家地址等信息。

2)将所有爬取到的企业名称保存为分词字典,用于下一步的企业匹配。

3)针对爬取下来的每个供应商的配套客户信息,利用现有的分词算法(已有的利用字典 的分词算法,此处不做讨论)将配套客户信息中的企业名称匹配出来,在一条记录中保存供 应商名称和制造商名称,从而建立供应商到制造商的供应关系。

所述企业网络构建采用图数据库Neo4j保存和处理图数据,企业网络的构建工作主要为 在图数据库中建立企业节点和企业之间的关系边。

所述企业业务相似度计算,定义P(ENTi)为制造商i的供应商集合,P(ENTj)为制造商j 的供应商集合,SHARE即为制造商i和j所共用的供应商数目,定义SIMij为制造商i和j的 业务相似度,计算公式为:

SHARE=|P(ENTi)∩P(ENTj)|

SIMij=SHAREMIN(|P(ENTi)|,|P(ENTj)|).

在图数据库中计算企业业务相似度主要步骤如下:

1)去除供应商数目过少制造商,由于数据集是从网络爬取的,存在一些噪音数据,将供 应商数目少于设定量的作为噪音数据去掉,并将符合要求的制造商标签设为“OK”;

2)针对每一个标签为“OK”的企业,获取其id,进行3)-6);

3)取制造商P,其编号为pid,计算其拥有的供应商数目pnum;

4)根据制造商P,取与其有共用供应商的其他每一制造商Q,并获得共用供应商数目 SHARE,针对每一制造商Q,进行5)-6);

5)根据制造商Q的qid,计算该制造商的拥有的供应商数目qnum;

6)计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其关 系类型为Similar,其相似度属性名为SIM,值为SIMpq

SIMpq=SHAREMIN(pnum,qnum);

7)最终构造出来一个新的图S:任意两个有共用供应商的制造商,有一条Similar类型的 边相连,边的属性SIM即为业务相似度。

本发明通过爬虫将B2B网站上的企业信息爬取下来,并通过已有分词算法匹配企业关系; 将数据集中的每个企业作为节点加入到图数据库中,根据每条企业关系,在图数据库中查询 到表示相关企业的节点,在节点间建立一条类型为供应关系的边,从而构造出企业网络;通 过已经构造出来的企业网络,计算任意两个制造商之间的共用供应商在总的供应商中所占的 比例,从而得到企业业务相似度;建立一条从一个企业指向另一个企业的边,其关系类型为 Similar;构造出一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型的边相 连,边的属性SIM即为业务相似度。基于企业网络,依据制造商共用供应商数目,进行企业业 务相似度计算的方法能够得到更可靠的结果。

本发明的有益效果:

本发明在企业网络的基础上,以一个全新的方法进行企业业务相似度计算,最终可以根 据用户需求寻找业务相似的企业或者按照业务相似度进行排名。与传统的仅仅以主营业务为 相似度判断依据的方法相比,基于企业网络的企业业务相似度计算方法具有以下优势:

基于企业网络,依据制造商共用供应商数目,进行企业业务相似度计算的方法能够得到 更可靠的结果。企业间的共用供应商数目可以较好的反映企业之间业务的相似程度,与仅仅 以主营业务描述为判断依据的方法相比,可以为企业提供更精确、更有实用价值的企业相似 度数据。

用户查询更加方便。采用图数据库对企业网络进行存储和处理,提高了处理速度。将生 成的业务相似度结果构建成新的图S,可以让用户根据自己的需求进行快速的查询。

附图说明

图1为企业关系网络构建算法。

具体实施方式:

下面结合附图对本发明进行详细说明:

本发明的目的就是为了解决传统企业业务相似度计算方法仅仅依赖企业主营业务描述, 造成查找到的相似企业不准确等问题,提出一个全新的方法来计算企业业务相似度,它是基 于企业网络的。首先利用从网络上爬取的企业数据匹配企业关系,构建企业网络;然后在企 业网络之上,利用制造商之间共用的供应商在总的供应商中所占的比例来衡量制造商之间的 业务相似度;最后我们在图数据库Neo4j中构造一个新的图S,其中节点为企业,企业之间 用Similar类型的边连接,边上有代表企业相似度的属性SIM,在S中可以方便的查询制造 商之间的业务相似度。

本计算方法是在企业网络之上进行的,所使用的企业数据是通过互联网进行爬取得到的, 并使用分词算法进行企业匹配,具体爬取方法和分词算法不在此进行说明。

一种基于企业网络的企业业务相似度计算方法:

1)数据集爬取和构建

①企业信息爬取。通过爬虫技术将B2B网站的相关信息爬取下来,主要爬取了企业名称、 主营产品、配套客户、厂家地址等信息。

②将所有爬取到的企业名称保存为分词字典,例如爬取到中通客车有限公司、上海大众、 康明斯发动机、潍柴动力等企业名称,可以将这几个名称保存在字典文档中。另外 企业简称可以通过人工筛选与企业全称对应起来,提高简称匹配能力。

③利用现有的分词算法建立供应商到制造商的供应关系。例如,康明斯发动机的配套客 户信息中包含“中通客车有限公司、上海大众”及其他一些信息,通过分词算法, 使用企业名称字典,可以将中通客车有限公司和上海大众匹配出来,那么就可以建 立康明斯发动机分别和中通客车有限公司与上海大众的供应关系。

2)企业关系网络构建

企业网络是一张有向图。图数据库比较适合存储和处理这种图数据结构的数据。Neo4j 就是其中一种图数据库,采用图数据库Neo4j保存和处理图数据,从而提高数据处理的速度。 采用cypher语言进行数据库查询和操作。用Neo4j存储从网络上爬取的企业信息和企业之间 的供应关系。

构造企业网络主要是对点和边的建立。

①企业节点建立。从爬取到的数据中将每个企业取出,然后按如下Cypher语句插入到 Neo4j中

Cypher语句:create(n:Enterprise{id:’企业id’,mc:’企业mc’,qt:’其他企业属性’})

②企业之间关系边的建立。从爬取到的数据中将每条关系取出,分别得到供应商gid和 制造商zid。按如下Cypher插入到Neo4j中:

Cypher语句:match(n:Enterprise{id:’gid’}),(m:Enterprise{id:’zid’})create n-[:Supply_to]->m

(企业标签为Enterprise,供应关系类型为Supply_to)

3)企业业务相似度计算

企业网络已将企业之间的关系构建出来,在这基础上进行企业业务相似度计算,主要方 法就是计算任意两个制造商之间的共用供应商在总的供应商中所占的比例。

在Neo4j中计算企业业务相似度主要步骤如下:

①去除供应商数目过少制造商。我们将供应商数目少于30的作为噪音数据去掉。并将 符合要求的制造商标签设为“OK”。

Cypher语句:match(n:Enterprise)<-[:Supply_to]-(m:Enterprise)withcount(m)asc,nwhere c>29setn:OK。

②针对每一个标签为“OK”的企业,获取其id,进行③-⑥。

Cypher语句:match(n:OK)returnid(n)。

③取制造商P,其编号为pid,计算其供应商数目pnum。

Cypher语句:startn=node(pid)match(n)<-[r:Supply_to]-(h:Enterprise)return count(distincth)。

④根据制造商P,取与其有共用供应商的其他每一制造商Q,并计算共用供应商数目 SHARE。针对每一制造商Q,进行⑤-⑥。

Cypher语句:startn=node(id)matchn<-[r:Supply_to]-(h:Enterprise)-[t:Supply_to]->(m:OK) returnid(m),count(distincth)。

⑤根据制造商Q的qid,查找该制造商的供应商数目qnum。

Cypher语句:startn=node(qid)match(n)<-[r:Supply_to]-(h:Enterprise)return count(distincth)。

⑥计算企业P和企业Q的业务相似度SIMpq,并建立一条从企业P指向企业Q的边,其 关系类型为Similar,其相似度属性名为SIM,值为SIMpq

SIMpq=SHAREMIN(pnum,qnum)

Cypher语句:startn=node(pid),m=node(qid)createn-[:Similar{SIM:’SIMpq’}]->m。

⑦最终构造出来一个新的图S,任意两个有共用供应商的制造商,有一条Similar类型 的边相连,边的属性SIM即为业务相似度。

4)任意两制造商业务相似度查询。

经过上述步骤,我们构造了一个新的图S,在这张图里面我们可以查询任意两制造商之 间的业务相似度。这里我们举例列出和某一制造商最相似的前十个制造商。

Cypher语句:match(n:Enterprise)-[r:Similar]-(m:Enterprise)wheren.mc=’某企业’return r.SIM,m.mcorderbyr.SIMdesclimit10。

经过以上步骤,可以计算两个制造商的业务相似度,如果想要计算供应商的业务相似度 只要按上述过程将制造商和供应商互换就可以。与传统企业业务相似度计算相比,以企业网 络为基础的企业业务相似度计算方法并不仅仅是以主营业务描述为依据,而是以更深层次的 共用供应商为计算依据,从而能够让得到的业务相似度更加精确。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限 制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付 出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号