首页> 中国专利> 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置

对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置

摘要

本申请提供一种对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置。该网页抓取的控制方法包括:预先存储黑名单和白名单,在黑名单中指示有禁止出现在搜索网页上的敏感关键词,在白名单中指示有允许出现在搜索网页上的非敏感关键词,响应于对网站网页的抓取请求,从网站网页中提取出关键词;判断关键词是否在黑名单中,如果在黑名单中,拒绝抓取请求,如果不在黑名单中,判断关键词是否在白名单中,如果在白名单中,允许抓取请求,如果不在白名单中,拒绝抓取请求。通过本申请,可以有效控制网页抓取的范围,尽量避免在抓取到的网站网页上出现敏感关键词,一方面提高搜索质量,另一方面提高搜索引擎对信息收录的及时性和有效性。

著录项

  • 公开/公告号CN105653563A

    专利类型发明专利

  • 公开/公告日2016-06-08

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201410721388.4

  • 申请日2014-12-02

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人李靓;王宝筠

  • 地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱

  • 入库时间 2023-12-18 15:42:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-02

    授权

    授权

  • 2016-07-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141202

    实质审查的生效

  • 2016-06-08

    公开

    公开

说明书

技术领域

本申请涉及计算机应用领域,特别是涉及对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置。

背景技术

搜索引擎将所有万维网上的信息收录并整理在一个平台上供网民使用。网络爬虫是一种自动抓取网页的程序,它为搜索引擎从万维网上抓取网页,是搜索引擎的重要组成部分。传统的网络爬虫从一个或若干个初始网页的URL(UniformResourceLocator,统一资源定位符)开始,抓取初始网页的URL,并且,在抓取过程中,不断地从当前网页上抽取新的URL,直到满足系统设定的停止条件为止。

各种类型的网站(如,电子商务网站或门户网站)可以对外提供大量的网站网页的URL,以供网络爬虫抓取。例如,在电子商务网站,其对外提供的网站网页的URL为各种商品网页的URL;在门户网站,其对外提供的网站网页的URL为各种新闻网页的URL。

但是,在实现本申请的过程中,本申请的发明人发现现有技术中至少存在如下问题:一些恶意分子很可能会根据某个网站对外提供的网站网页的URL,而破解出URL的拼装规则,并根据拼装规则为某个网站伪造出一些垃圾网站网页的URL,通常,这些垃圾网站网页会带有一些敏感关键词,如,低俗的黄色关键词或者与政治相关的关键词等。

如果网络爬虫从各类网站提供的网站网页的URL中抓取到这些伪造的垃圾网站网页的URL,一方面,搜索引擎有可能会将这些垃圾网站网页作为搜索网页提供给搜索用户,但实际上,这些垃圾网站网页的并不是搜索用户想要得到的搜索结果,这样就会影响搜索结果的相关性,最终导致搜索质量变差;另一方面,网络爬虫的抓取能力是有限的,如果网络爬虫抓取了某个网站内海量的垃圾网站网页的URL,就要花费更长的时间才能抓取到该网站内正常网站网页的URL,甚至是根本无力再抓取该网站内正常网站网页的URL,这会影响搜索引擎对信息收录的及时性以及有效性。

发明内容

为了解决上述技术问题,本申请实施例提供了对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置,可以有效控制网页抓取的范围,以尽量避免在抓取到的网站网页上出现敏感关键词,一方面可以提高搜索质量,另一方面也可以提高搜索引擎对信息收录的及时性以及有效性。

本申请实施例公开了如下技术方案:

一种对网页抓取的控制方法,预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词,所述方法包括:

响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;

判断所述关键词是否在所述黑名单中,如果在所述黑名单中,拒绝对所述网站网页的抓取请求,如果不在所述黑名单中,则判断所述关键词是否在所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如果不在所述白名单中,拒绝对所述网站网页的抓取请求。

一种动态更新黑名单和白名单的方法,包括:

将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;

判断所述待分类关键词是否在所述白名单中,如果在所述白名单中,则判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈值,将所述待分类关键词归入到所述白名单中。

一种对网页抓取的控制装置,包括:

存储单元,用于预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;

提取单元,用于响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;

第一响应单元,用于判断所述关键词是否在所述黑名单中,如果不在所述黑名单中,判断所述关键词是否在所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如果不在所述白名单中,拒绝对所述网站网页的抓取请求;

第二响应单元,用于如果在所述黑名单中,拒绝对所述网站网页的抓取请求。

一种动态更新黑名单和白名单的装置,包括:

第一计算单元,用于将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;

第一分类单元,用于判断所述待分类关键词是否在所述白名单中,如果在所述白名单,则判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈值,将所述待分类关键词归入到所述白名单中。

由上述实施例可以看出,与现有技术相比,本申请的优点在于:

在本申请中,建立一种黑名单和白名单相结合的机制,并在网络爬虫抓取网站网页之前,通过黑名单和白名单来确定该网站网页上是否是存在敏感关键词的垃圾网站网页,如果是,就拒绝网络爬虫抓取该网站网页,如果不是,就允许网络爬虫抓取该网站网页。因此,有效控制网页抓取的范围,以尽量避免在抓取到的网站网页上出现敏感关键词,一方面可以提高搜索质量,另一方面也可以提高搜索引擎对信息收录的及时性以及有效性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示意性地示出了本申请的实施方式可以在其中实施的示例性应用场景;

图2示意性地示出了本申请一种对网页抓取的控制方法的一个实施例的流程图;

图3示意性地示出了本申请一种在一个更新周期对黑名单和白名单进行更新的方法的一个实施例的流程图;

图4示意性地示出了本申请一种对网页抓取的控制装置的一个实施例的结构框图;

图5示意性地示出了本申请一种对网页抓取的控制装置的另一个实施例的结构框图;

图6示意性地示出了本申请一种对网页抓取的控制装置的另一个实施例的结构框图;

图7示意性地示出了本申请一种对网页抓取的控制装置的另一个实施例的结构框图;

图8示意性地示出了本申请一种对网页抓取的控制装置的另一个实施例的结构框图。

具体实施方式

首先参考图1,图1示意性地示出了本申请的实施方式可以在其中实施的示例性应用场景。其中,在电子商务网站10一侧,包括网页服务器11、网页数据库12以及控制服务器13,在搜索网站20一侧,包括网络爬虫21以及搜索数据库22。网页服务器11将网站网页111的URL存储在网页数据库12中,网络爬虫21向控制服务器13提交对网站网页111的抓取请求消息211,作为响应,控制服务器13判断网站网页111是否为不应该抓取的垃圾网站网页,并根据判断结果控制网络爬虫是否可以对网站网页111进行抓取。当控制服务器13判定网站网页111不是垃圾网站网页时,从网页数据库12中提取网站网页111的URL,并向网络爬虫21返回携带网站网页111的URL的允许抓取响应消息212A;当控制服务器13判定网站网页111是垃圾网站网页时,向网络爬虫21返回拒绝抓取响应消息212B。网络爬虫21将抓取到的网站网页111的URL作为搜索网页的URL存储在搜索数据库22中。本领域技术人员可以理解,图1所示的示意图仅是本发明的实施方式可以在其中得以实现的一个示例。本发明实施方式的应用范围不受到该框架任何方面的限制。例如,网页服务器11和控制服务器13可以为同一个服务器。

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。

方法实施例

请参考图2,图2示意性地示出了本申请一种对网页抓取的控制方法的一个实施例的流程图,例如,该方法可以由控制服务器13执行,该方法包括以下步骤:

步骤200:预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词。

步骤201:响应于对网站网页的抓取请求,从所述网站网页中提取出关键词。

步骤202:判断所述关键词是否在所述黑名单中,如果否,进入步骤203,如果是,进入步骤205。

步骤203:判断所述关键词是否在所述白名单中,如果是,进入步骤204,否则,进入步骤205。

步骤204:允许对所述网站网页的抓取请求,结束流程。

步骤205:拒绝对所述网站网页的抓取请求,结束流程。

其中,在初始状态下,可以预先设定一些禁止出现在搜索网页上的敏感关键词,例如,低俗的黄色关键词或者与政治相关的关键词等,并将除敏感关键词之外的其它关键词作为非敏感关键词。在本申请中,并不限定具体将哪些关键词作为敏感关键词。

例如,从用户访问日志和/或网络爬虫日志中可以查找到被访问的网站网页的URL,对查找到的URL进行反向解析后,就可以解析出给每个网站网页带来访问流量的关键词,这些关键词就是流量关键词。将所有流量关键词进行去重后得到原始关键词集合,在原始关键词集合中,除预先设定一些敏感关键词之外的其它关键词都为非敏感关键词。

另外,也可以先从用户访问日志和/或网络爬虫日志中提取出关键词,然后从关键词中提取出关键词分词和关键词中心词,对提取出的关键词分词和关键词中心词进行去重后得到原始关键词集合。当然,也可以同时采用上述两种方式来分别获得一个原始关键词的集合,然后将两个集合进行合并和去重后得到最终的原始关键词集合。

其中,在英文中,单词之间是以空格作为自然分解符的,而在中文中,只有字、句和段能通过明显的分界符来简单划界,而词却没有一个形式上的分界符。分词处理就是将连续的字序列按照一定的规范分解成一个一个单独的词的过程。例如,将关键词“连衣裙批发”进行分词处理后,可以得到“连衣裙”和“批发”两个关键词分词。关键词中心词就是指关键词中的词干,即,关键词分词中的核心词。例如,在“连衣裙”和“批发”两个关键词分词中,“连衣裙”就是其中的核心词,也就是关键词中心词。

在本申请的一个优选实施方式中,根据黑名单和白名单中各个关键词在最近一个周期内的属性,重新确定每个关键词应该归入到黑名单中还是应该归入到白名单中,这样,原来在黑名单中的关键词有可能会被归入到白名单中,而原来在白名单中的关键词有可能会被归入到黑名单中,从而达到动态地对黑名单和白名单进行内部更新的目的。

请参见图3,图3示意性地示出了本申请一种在一个更新周期对黑名单和白名单进行更新的方法的一个实施例的流程图,例如,该方法可以由控制服务器13执行,该方法包括以下步骤:

步骤301:将黑名单和白名单中的关键词作为待分类关键词,并计算所述待分类关键词的当前引流能力值。

当前引流能力就是指待分类关键词在最近的一个引流能力计算周期内给网站网页带来访问流量的能力。例如,待分类关键词的当前引流能力可以通过当前引流能力值来表示,即,一个待分类关键词的当前引流能力值=该待分类关键词在最近的一个引流能力计算周期内给网站网页所带来的总访问流量/一个引流能力计算周期。

步骤302:判断所述待分类关键词是否在所述白名单中,如果是,进入步骤303,如果否,进入步骤306。

步骤303:判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于,进入步骤304,如果大于,进入步骤305。

步骤304:将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,结束流程。

步骤305:将所述待分类关键词归入到所述白名单中,结束流程。

步骤306,判断所述待分类关键词的当前引流能力值是否大于或等于预定的强引流能力阈值,如果大于或等于,进入步骤305,如果小于,进入步骤307。

步骤307:判断所述待分类关键词是否符合预定的作弊关键词的条件,如果是,进入步骤308,否则,进入步骤309。

其中,预定的作弊关键词的条件可以为:在一个访问流量统计周期内,如果一个关键词对应的网站网页的抓取频率高,但该关键词没有给网站网页带来任何访问流量(即,访问流量为零)。关键词对应的网站网页的抓取频率可以通过抓取频率值来表述,关键词对应的网站网页的抓取频率值=关键词对应的网站网页在一个访问流量统计周期内被抓取的总次数/(关键词对应的网站网页在一个访问流量统计周期内最后一次被抓取时间-第一次抓取时间),如果关键词对应的网站网页的抓取频率值大于预定的抓取频率阈值,说明该关键词对应的网站网页的抓取频率高,如果关键词对应的网站网页的抓取频率值小于预定的抓取频率阈值,说明该关键词对应的网站网页的抓取频率低。

步骤308:将所述待分类关键词归入到所述黑名单中,结束流程。

步骤309:判断所述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,如果是,进入步骤304,否则,进入步骤310。

其中,所述预定的至少一个低质量关键词条件包括:所述待分类关键词包含乱码、所述待分类关键词的长度大于预定的长度阈值或者小于预定的长度阈值,所述待分类关键词在网站内的搜索结果数小于预定的搜索结果数阈值和所述待分类关键词在一个访问流量统计周期内没有访问流量中的任意一个或任意多个组合。

步骤310:计算所述待分类关键词的综合反向权重值。

其中,可以为预定的至少一个低质量关键词条件中的每个条件设置一个综合反向权重值和一个系数值,先分别计算符合条件的反向权重值与系数值的乘积值,再将计算的乘积值求和,该和值即为待分类关键词的综合反向权重值。

例如,如果预定的至少一个低质量关键词条件为上述四个低质量关键词条件,并且,为第一个低质量关键词条件(即,待分类关键词包含乱码)设定的反向权重值为D1,系数值为A1,为第二个低质量关键词条件(即,待分类关键词的长度大于预定的长度阈值或者小于预定的长度阈值)设定的反向权重值为D2,系数值为A2,为第三个低质量关键词条件(即,待分类关键词在网站内的搜索结果数小于预定的搜索结果数阈值)设定的反向权重值为D3,系数值为A3,为第四个低质量关键词条件(即,待分类关键词在一个访问流量统计周期内没有访问流量)设定的反向权重值为A4,系数值为D4。当待分类关键词符合上述四个低质量关键条件时,该待分类关键词的综合反向权重值为A1×D1+A2×D2+A3×D3+A4×D4。

步骤311:判断所述综合反向权重值是否小于或等于预定的权重阈值,如果小于或等于,进入步骤305,如果大于,进入步骤304。

另外,弱引流能力阈值和强引流能力阈值可以相同,也可以不同。并且,可以根据实际需要,任意设定弱引流能力阈值和强引流能力阈值。

在本申请中,对于黑名单和白名单来说,虽然按照图3所示的方法可以对黑名单和白名单中的关键词重新进行分类,进而动态更新黑名单和白名单,但是,黑名单和白名单包含的总关键词的范围是固定的,考虑到网站内会随时产生一些新的网站网页,并随之产生一些新的关键词,而这些新的关键词可能并不包含在黑名单和白名单中,因此,还需要将这些新产生的关键词按照图3所示的方法进行分类后相应地放入到黑名单或白名单中。其中,周期性地从用户访问日志和/或网络爬虫日志中提取出关键词,在图3所示的步骤301中,将提取出的这些关键词作为待分类关键词,其它步骤保持不变,最终就可以利用新产生的关键词对黑名单和白名单进行外部更新。

本申请实施例还提供了一种动态更新黑明和白名单的方法。该动态更新既可以是动态地对黑名单和白名单进行内部更新,即,重新确定在已有的黑名单中每个关键词应该归入到黑名单中还是应该归入到白名单中,同样,重新确定在已有的白名单中每个关键词应该归入到黑名单中还是应该归入到白名单中;也可以是利用新产生的关键词对黑名单和白名单进行外部更新,即,将网站内因一些新的网站网页而新产生的关键词补充到已有的黑名单和白名单中。

在本申请的一种动态更新黑名单和白名单的方法中,例如,该方法可以由控制服务器13执行,该方法包括以下步骤:

将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;以及,

判断所述待分类关键词是否在所述白名单中,如果在所述白名单中,则判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈值,将所述待分类关键词归入到所述白名单中。

在本申请的一个优选实施方式中,该方法还包括:

如果不在所述白名单中,判断所述待分类关键词的当前引流能力值是否大于或等于预定的强引流能力阈值,如果大于或等于预定的强引流能力阈值,将所述待分类关键词归入到所述白名单中。

在本申请的另一个优选实施方式中,该方法还包括:

如果小于预定的强引流能力阈值,判断所述待分类关键词是否符合预定的作弊关键词的条件,如果符合预定的作弊关键词的条件,将所述待分类关键词归入到所述黑名单中,如果不符合预定的作弊关键词的条件,则判断所述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,如果符合预定的至少一个低质量关键词条件中的任意一个,将所述待分类关键词既不加入所述黑名单中也不加入所述白名单中。

在本申请的另一个优选实施方式中,该方法还包括如果不符合预定的至少一个低质量关键词条件中的任意一个,计算所述待分类关键词的综合反向权重值;

判断所述综合反向权重值是否小于或等于预定的权重阈值,如果小于或等于预定的权重阈值,将所述待分类关键词归入到所述白名单中,如果大于预定的权重阈值,将所述待分类关键词既不加入所述黑名单中也不加入所述白名单中。

其中,所述预定的至少一个低质量关键词条件包括:所述待分类关键词包含乱码、所述待分类关键词的长度大于预定的长度阈值或者小于预定的长度阈值、所述待分类关键词在网站内的搜索结果数小于预定的搜索结果数阈值和所述待分类关键词在一个访问流量统计周期内没有访问流量中的任意一个或任意多个组合。

由上述实施例可以看出,与现有技术相比,本申请的优点在于:

在本申请中,建立一种黑名单和白名单相结合的机制,并在网络爬虫抓取网站网页之前,通过黑名单和白名单来确定该网站网页上是否是存在敏感关键词的垃圾网站网页,如果是,就拒绝网络爬虫抓取该网站网页,如果不是,就允许网络爬虫抓取该网站网页。因此,有效控制网页抓取的范围,以尽量避免在抓取到的网站网页上出现敏感关键词,一方面可以提高搜索质量,另一方面也可以提高搜索引擎对信息收录的及时性以及有效性。

装置实施例

与上述一种对网页抓取的控制方法相对应,本申请实施例还提供了一种对网页抓取的控制装置。请参考图4,图4示意性地示除了本申请一种对网页抓取的控制装置的一个实施例的结构框图,该装置包括存储单元401、提取单元402、第一响应单元403和第二响应单元404。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。

存储单元401,用于预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;

提取单元402,用于响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;

第一响应单元403,用于判断所述关键词是否在所述黑名单中,如果不在所述黑名单中,判断所述关键词是否在所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如果不在所述白名单中,拒绝对所述网站网页的抓取请求;

第二响应单元404,用于如果在所述黑名单中,拒绝对所述网站网页的抓取请求。

在本申请的一个优选实施方式中,如图5所示(图5中仅示除了增加的部分以及增加的部分与图4所示结构的连接关系),该装置还包括:

第一计算单元405,用于将所述黑名单和所述白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流能力值;

第一分类单元406,用于判断所述待分类关键词是否在所述白名单中,如果在所述白名单,则判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈值,将所述待分类关键词归入到所述白名单中。

在本申请的另一个优选实施方式中,如图6所示,在图5所示的结构的基础上,该装置还包括:

第二分类单元407,用于如果不在所述白名单中,判断所述待分类关键词的当前引流能力值是否大于或等于预定的强引流能力阈值,如果大于或等于预定的强引流能力阈值,将所述待分类关键词归入到所述白名单中。

在本申请的另一个优选实施方式中,如图7所示,在图6所示的结构的基础上,该装置还包括:

第三分类单元408,用于如果小于预定的强引流能力阈值,判断所述待分类关键词是否符合预定的作弊关键词的条件,如果符合预定的作弊关键词的条件,将所述待分类关键词归入到所述黑名单中,如果不符合预定的作弊关键词的条件,则判断所述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,如果符合预定的至少一个低质量关键词条件中的任意一个,将所述待分类关键词既不加入所述黑名单中也不加入所述白名单中。

在本申请的另一个优选实施方式中,如图8所示,在图7所示的结构的基础上,该装置还包括:

第二计算单元409,用于如果不符合预定的低质量关键词条件中的任意一个,计算所述待分类关键词的综合反向权重值;

第四分类单元410,用于判断所述综合反向权重值是否小于或等于预定的权重阈值,如果小于或等于预定的权重阈值,将所述待分类关键词归入到所述白名单中,如果大于预定的权重阈值,将所述待分类关键词既不加入所述黑名单中也不加入所述白名单中。

在本申请的另一个优选实施方式中,所述预定的至少一个低质量关键词条件包括:所述待分类关键词包含乱码、所述待分类关键词的长度大于预定的长度阈值或者小于预定的长度阈值、所述待分类关键词在网站内的搜索结果数小于预定的搜索结果数阈值和所述待分类关键词在一个访问流量统计周期内没有访问流量中的任意一个或任意多个组合。

本申请实施例还提供了一种动态更新黑名单和白名单的装置。该装置包括:

第一计算单元,用于将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;以及,

第一分类单元,用于判断所述待分类关键词是否在所述白名单中,如果在所述白名单,则判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈值,将所述待分类关键词归入到所述白名单中。

在本申请的一个优选实施方式中,该装置还包括:

第二分类单元,用于如果不在所述白名单中,判断所述待分类关键词的当前引流能力值是否大于或等于预定的强引流能力阈值,如果大于或等于预定的强引流能力阈值,将所述待分类关键词归入到所述白名单中。

在本申请的一个优选实施方式中,该装置还包括:

第三分类单元,用于如果小于预定的强引流能力阈值,判断所述待分类关键词是否符合预定的作弊关键词的条件,如果符合预定的作弊关键词的条件,将所述待分类关键词归入到所述黑名单中,如果不符合预定的作弊关键词的条件,则判断所述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,如果符合预定的至少一个低质量关键词条件中的任意一个,将所述待分类关键词既不加入所述黑名单中也不加入所述白名单中。

在本申请的一个优选实施方式中,该装置还包括:

第二计算单元,用于如果不符合预定的低质量关键词条件中的任意一个,计算所述待分类关键词的综合反向权重值;

第四分类单元,用于判断所述综合反向权重值是否小于或等于预定的权重阈值,如果小于或等于预定的权重阈值,将所述待分类关键词归入到所述白名单中,如果大于预定的权重阈值,将所述待分类关键词既不加入所述黑名单中也不加入所述白名单中。

其中,所述预定的至少一个低质量关键词条件包括:所述待分类关键词包含乱码、所述待分类关键词的长度大于预定的长度阈值或者小于预定的长度阈值、所述待分类关键词在网站内的搜索结果数小于预定的搜索结果数阈值和所述待分类关键词在一个访问流量统计周期内没有访问流量中的任意一个或任意多个组合。

由上述实施例可以看出,与现有技术相比,本申请的优点在于:

在本申请中,建立一种黑名单和白名单相结合的机制,并在网络爬虫抓取网站网页之前,通过黑名单和白名单来确定该网站网页上是否是存在敏感关键词的垃圾网站网页,如果是,就拒绝网络爬虫抓取该网站网页,如果不是,就允许网络爬虫抓取该网站网页。因此,有效控制网页抓取的范围,以尽量避免在抓取到的网站网页上出现敏感关键词,一方面可以提高搜索质量,另一方面也可以提高搜索引擎对信息收录的及时性以及有效性。

所述领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述到的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,可以采用软件功能单元的形式实现。

需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

以上对本申请所提供的对网页抓取的控制方法和装置进行了详细介绍,本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号