首页> 中国专利> 一种用于垂直爬虫数据分类整合的策略

一种用于垂直爬虫数据分类整合的策略

摘要

一种用于垂直爬虫数据分类整合的策略,包括分类体系及其映射机制和动态分类数据整合机制两部分,其中的分类体系及其映射机制包括如下步骤:1)基准类别体系的构建;2)爬虫目标网站的类别体系的构建;3)类别体系映射机制的构建。该策略可以有效整合通过垂直爬虫进行数据抓取并对数据进行非结构化解析后得到的类别体系,并保持源分类体系的完整性,同时还可以实现对源分类体系进行动态跟踪。

著录项

  • 公开/公告号CN104133868A

    专利类型发明专利

  • 公开/公告日2014-11-05

    原文格式PDF

  • 申请/专利权人 厦门大学;

    申请/专利号CN201410347438.7

  • 发明设计人 洪志令;吴梅红;

    申请日2014-07-21

  • 分类号G06F17/30;

  • 代理机构厦门市首创君合专利事务所有限公司;

  • 代理人张松亭

  • 地址 361000 福建省厦门市思明南路422号

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-09

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20180105 终止日期:20180721 申请日:20140721

    专利权的终止

  • 2018-01-05

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20140721

    著录事项变更

  • 2018-01-05

    授权

    授权

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140721

    实质审查的生效

  • 2014-11-05

    公开

    公开

说明书

技术领域

本发明涉及垂直搜索引擎技术领域,尤其是涉及一种用于垂直爬虫数据分类整合的策略。

背景技术

随着网页信息的爆炸性增长,搜索引擎的使用价值也越来越高,成为网络用户必不可少的工具,为用户提供信息导航和查询服务。它整合了互联网上众多的网页资源,根据用户查询的关键词提供相关性网页,并按照相关性排序,是整个互联网的入口。目前,综合搜索引擎是为用户提供查询服务的主力军,但它的综合性,决定了其不能满足专业人群对专门领域的精准化信息需求服务。用户对信息的需求是多元化的,因此搜索引擎的服务模式也必将出现细分,针对不同领域提供更加精确的行业信息,这就促进了垂直搜索的蓬勃发展。

应用综合搜索引擎进行一次搜索,返回给用户的查询结果可能有上万甚至上亿条,尽管相对于浩瀚无比的Web信息,已经进行了很大限度的过滤,但返回的信息仍然是用户不可能全部浏览的海量信息,从而在用户查询请求和网络搜索服务之间造成的巨大浪费和反差。而垂直搜索引擎则是针对这一问题而出现,作为更有专业针对性的搜索引擎,它只搜索特定领域内的信息。由于覆盖的学科领域专一,信息量相对会大大减少,这就降低了采集信息的难度,同时提高了信息的质量

垂直搜索引擎是针对某一个领域的专业搜索引擎,它通过对互联网上的某类专业的信息进行采集、整合,然后按照专业信息相应的结构进行定向抽取,将非结构化的信息处理成结构化的信息,再以信息列表的形式返回给用户。

搜索引擎中最关键的一部分是网页搜索器,它由一个爬虫(Crawler,又称网页抓取器、网络机器人、网络蜘蛛)程序组成。所谓爬虫程序是指会自动地、永不停止地在网络上搜索网页的程序。运行网络爬虫时,只要提供极少量的起始网页,信息采集器就能够按一定的规则沿着网页上的超级链接在网络上漫游,收集资源信息,直至遍历整个网站。它的性能在很大程度上影响了搜索引擎站点的规模。

就目前互联网的规模来说,单台机器运行的网络爬虫远远不能完成在有效的时间内搜索整个web网络的任务,因此现在采用的网络爬虫都是分布式在多机上并行运行的,称为分布式爬虫。爬虫控制器起着集中控的作用,它管理所有的爬虫端,保证web资源能均衡、不重复的由各爬虫爬取。网页分析器对爬取的网页资源进行分析过滤,滤除大量的html标签以及垃圾信息,最终得到有价值的网页内容信息。

现有的通用搜索的策略是尽量获取数据,但是对数据的处理水平比较低,突出问题就是:无效信息过多(噪音数据多)、有效信息不足、有效信息非结构化、返回结果无个性化优化机制。

例如,目前不同的分类网址导航网站有各自的网址分类体系,如hao123.com,2345.com等。当我们想对这些网站的资源进行整合,通过垂直爬虫进行数据抓取并对数据进行非结构化解析后会得到一系列的类别数据,这时我们面临这样一些问题:如何有效的整合这些类别体系?如何保持源分类体系的完整性?如何对源分类体系进行动态跟踪?解决这些问题是现阶段研究的重点和难点。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷,提出一种用于垂直爬虫数据分类整合的策略。

本发明采用如下技术方案:

一种用于垂直爬虫数据分类整合的策略,其特征在于:包括分类体系及其映射机制和动态分类数据整合机制两部分,其中的分类体系及其映射机制包括如下步骤:

1)基准类别体系的构建;

2)爬虫目标网站的类别体系的构建;

3)类别体系映射机制的构建。

优选的,所述步骤1)采用三层次类别应用构建基准类别体系,该体系包括类别ID、大类别、中类别和小类别,该基准类比体系有其对应的类别内容。

优选的,所述步骤2)采用三层次类别应用构建多个爬虫目标网站的类别体系,每个爬虫目标网站的类别体系包括类别ID、大类别、中类别和小类别,且每个爬虫目标网站的类别体系有其对应的类别内容。

优选的,在步骤2)中,对于每个待爬虫的目标网站,都各自创建一个相应的爬虫目标网站的类别体系;在爬虫过程中,将非结构化解析获得的分类数据放入各自的爬虫目标网站类别体系,而对于具体内容的详细信息则放入各自对应的类别内容里。

优选的,所述的类别内容包括有网站的具体信息及其来源网站。

优选的,在步骤3)中,类别体系映射机制的构建是指,基准类别体系提供其最小类别的分类名称,爬虫目标网站的类别体系也提供其最小类别的分类名称,通过二者最小类别的分类名称进行匹配来建立映射关系。

优选的,所述的动态分类数据整合机制是指,将爬虫得到的类别按照以下几种情况进行整合操作:

A新添加的分类在基准类别体系中已经存在的情况下的处理:在基准类别体系中添加分类并将得到的新的类别ID填入构建的映射体系中对应的映射位置;

B新添加的分类在基准类别体系中不存在的情况下的处理:首先添加类别并得到新的类别ID,根据类别名称寻找语义相似的类别,若能获得高相似语义的类别,则将新的类别ID填入构建的映射体系中对应的映射位置;否则,添加新的类别,并在构建的映射体系中添加新的映射关系;

C基准类别体系中的类别合并情况下的处理:在对应的构建的映射体系中合并相应的类别;

D基准类别体系中类别分裂情况下的处理:d1.将基准类别体系中的类别分裂成两个类别,其中一类别替换原来的类别,另外再重新添加一个类别;d2.将各爬虫目标网站中与原基准类别映射的类别重新进行手工分类,映射到新的两个类别中;

E基准类别体系中类别添加和删除情况下的处理:在基准类别体系中添加新类别后,将添加完后的新类别ID及其最小类别放到对应的映射体系中;而对于删除情况,则只需在基准类别体系中删除相关类别即可。

优选的,在所述情况B中,所述的高相似语义类别的判断方法主要根据两个类别名称的相似度计算得到:对于两个类别名称W1和W2,W1包括概念集合{S11,S12,…,S1m},W2包括概念集合{S21,S22,…,S2n},则W1和W2的相似度如下所示:>similarity(W1,W2)=maxi=1...n,j=1...msimilarity(S1i,S2j);>m,n分别代表待比较的两个类别名称对应的概念实词的个数;概念集合的每个概念实词包括以下四个义原特征:第一基本义原描述、其它基本义原描述、关系义原描述、关系符号描述;两个概念实词的相似度记为上述四个义原特征的部分相似度的加权和,即根据义原之间的路径距离来计算两个概念实词的的相似度:>similarity(S1,S2)=Σi=14(βi×similarityi(S1,S2));>其中,βi分别代表概念实词的四个特征对应的加权系数i=1、2、3、4,其为可调节的参数且满足:>Σi=14βi=1,β1β2β3β4.>

由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:

通过本发明的方法,可以为互联网用户提供准确有效的信息,避免用户进行多次搜索,消耗更多的能源。本发明用于垂直爬虫数据分类整合的新方法为解决网络爬虫采集的数据杂乱无章缺乏层次,采集过程不稳定、效率较低的问题提供了新策略。

附图说明

图1为本发明策略体系结构图。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

参照图1,一种用于垂直爬虫数据分类整合的策略,包括分类体系及其映射机制和动态分类数据整合机制两部分,其中的分类体系及其映射机制包括如下步骤:

1)基准类别体系的构建;

2)爬虫目标网站的类别体系的构建;

3)类别体系映射机制的构建。

步骤1)中。基准类别体系为整合后网站系统的类别体系,具有基准作用,其他网站的类别体系与它靠齐。可采用的三层次类别应用进行构建,其体系结构如下表1所示。主要有四维属性:类别ID、大类别、中类别和小类别。其中,类别ID在类别添加时自动生成,大/中/小类别分别用MAi,MBj,MCk表示,此处的i,j,k分别代表大/中/小类的自动增长顺序号。大/中/小类别的构建可以通过手动输入实现,也可以以某一带爬虫网站的类别作为参考,而后在此基础上进行修改。

在基准类别体系下,有其对应的类别内容信息,具体如表2所示。该类别内容将作为整合网站具体信息的来源。表2中的X,Y,Z等代表来源网站。这里类别内容信息还包括该具体信息的来源网站,这在后面将有利于信息的溯源。

步骤2)对于多个待爬虫的目标网站,我们尽可能的保持其完整的分类体系结构。这里采用与基准体系类似的结构,如表3所示。主要也有四维属性:类别ID、大类别、中类别和小类别。其中,类别ID在类别添加时自动生成,大/中/小类别分别用MAi,MBj,MCk表示,此处的i,j,k分别代表大/中/小类的自动增长顺序号。对于每个待爬虫的目标网站,都各自创建一个相应的爬虫目标网站类别体系。在爬虫过程中,对非结构化解析获得的分类数据首先放入各自相应的爬虫目标网站类别体系,而对于具体内容等详细信息则放入对应的类别内容里如表4所示。该类别内容包括有网站的具体信息及其来源网站。

在步骤3)中,在构建基准类别体系和目标网站类别体系的基础上,最后构建类别体系映射关系。如表5所示,类别体系映射关系主要是针对各类别体系中的最小类别,基准类别体系提供其类别ID及其最小类别,而对于每个待爬虫目标网站的爬虫目标网站类别体系,如X,Y,Z网站,也皆提供其类别ID及其最小类别,最后根据类别名称匹配(相等或相似匹配)构建映射关系。

通过上述的分类体系及其映射机制,即可以完整保存爬虫解析得到的所有数据,保证数据不缺失;同时也使得信息内容和类别都是可以追溯来源的,这为后期系统的维护和管理提供了极大的方便。

表5 类别体系映射关系

本发明的动态分类数据整合机制是指,将爬虫得到的类别按照以下几种情况进行整合操作:

A新添加的分类在基准类别体系中已经存在的情况下的处理:在基准类别体系中添加分类并将得到的新的类别ID填入构建的映射体系中对应的映射位置。即为对于爬虫得到的类别在基准类别体系中已经存在的情况,只需在表3结构中添加类别并将得到的新类别ID填入表5结构中对应的映射位置。

B新添加的分类在基准类别体系中不存在的情况下的处理:对于爬虫得到的分类在基准类别中不存在的情况,首先在表3中添加类别并得到新的类别ID,再在表1中根据类别名称寻找语义相似的类别,若能获得高相似语义的类别,则将新的类别ID填入表5构建的映射体系中对应的映射位置;否则,在表1中添加新的类别,并在表6中构建的映射体系中添加新的映射关系。

高相似语义类别的计算主要根据两个类别名称的相似度计算得到。具体计算过程描述如下。计算过程主要利用了知网(HowNet)提供的计算方式。在知网中,“概念”和“义原”是语义表达的两个重要方式。每个词可以表达为多个概念,而每个概念使用义原进行描述,义原是最基本的、不能再分割的用于描述概念的最小意义单位。

对于两个类别名称W1和W2,如果W1由概念集合{S11,S12,…,S1m}组成,W2由概念集合{S21,S22,…,S2n}组成,那么W1和W2的相似度如下所示:

>similarity(W1,W2)=maxi=1...n,j=1...msimilarity(S1i,S2j)---(1)>

这样,就把两个词之间的相似度问题归结为两个概念之间的相似度问题。对于概念实词的描述可表示为一个特征结构,该特征结构含有以下四个特征:第一基本义原描述、其它基本义原描述、关系义原描述、关系符号描述。于是,两个概念实词的整体相似度记为上述四个特征的部分相似度的加权和,即

>similarity(S1,S2)=Σi=14(βi×similarityi(S1,S2))---(2)>

其中,βi分别代表概念实词的四个特征对应的加权系数i=1、2、3、4,其为可调节的参数且满足:而所有的概念又都是由义原来描述的,所以该问题最终归结为义原之间的相似度问题。由于所有的义原根据上下位关系构成了一个树状层次体系,对于树型结构,任何两个结点之间有且只有一条路径,因此可以根据义原之间的路径距离来计算两者的相似度。

C基准类别体系中的类别合并情况下的处理:对基准类别体系中的两个类别进行合并,那边只需在表5中的结构中合并相应的基准类别即可。假设如表5所述结构中,MC5和MC6进行类别合并,那边只需将MC5和MC6赋于同样名称,ID5和ID6赋于合并后的新ID值即可。

D基准类别体系中类别分裂情况下的处理:d1.将基准类别体系中的类别分裂成两个类别,其中一类别替换原来的类别,另外再重新添加一个类别;d2.将各爬虫目标网站中与原基准类别映射的类别重新进行手工分类,映射到新的两个类别中。如果需要对基准分类中的类进行分裂处理,这种情况下处理起来比较繁琐。假设如表5结构中,对MC8进行类分裂处理,那边需要完成下面两步:

d1.将基准分类分裂成两类,其中一类别替换原来的类别MC8,而后,另外再添加一个类别,如MC9

d2.将各爬虫目标网站中与原基准类别映射的类别重新进行手工分类,并映射到新的MC8,MC9类别。

这种情况比较特殊,一般不建议做分裂处理。故在构建基准分类时需要尽量参考已有的分类体系,将分类粒度尽量的细化。

E基准类别体系中类别添加和删除情况下的处理:在基准类别体系中添加新类别后,将添加完后的新类别ID及其最小类别放到表5对应的映射体系中;而对于删除情况,则只需在基准类别体系中删除相关类别即可。

上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号