首页> 中国专利> 一种视听网站库构建方法、视听网站巡检方法和系统

一种视听网站库构建方法、视听网站巡检方法和系统

摘要

本申请实施例公开了一种视听网站库构建方法、视听网站巡检方法和系统,通过至少一种扫描方式,准确获取本地视听网站,构建本地视听网站库,确定了本地视听网站的巡检监测目标。根据已构建的本地视听网站库,创建本地视听网站的巡检队列,对本地视听网站库中的视听网站进行数据监测,然后将数据监测结果保存至巡检历史信息库,更新本地视听网站库。当对一个本地视听网站完成监测后,根据巡检队列监测下一个网站,实现循环监测巡检队列中的本地视听网站,从而,降低了网站监测时的网络资源和硬件资源的消耗,解决了现有技术中监测效率低、监测不及时、或出现遗漏监测等问题,实现了对本地互联网视听网站进行全面及时地监测。

著录项

  • 公开/公告号CN107819781A

    专利类型发明专利

  • 公开/公告日2018-03-20

    原文格式PDF

  • 申请/专利权人 北京市博汇科技股份有限公司;

    申请/专利号CN201711173735.4

  • 发明设计人 李国华;白冰;张兆磊;申强;

    申请日2017-11-22

  • 分类号

  • 代理机构北京弘权知识产权代理事务所(普通合伙);

  • 代理人逯长明

  • 地址 100094 北京市海淀区永丰产业基地丰贤中路7号孵化楼B座501

  • 入库时间 2023-06-19 04:49:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-31

    授权

    授权

  • 2018-04-13

    实质审查的生效 IPC(主分类):H04L29/06 申请日:20171122

    实质审查的生效

  • 2018-03-20

    公开

    公开

说明书

技术领域

本申请涉及互联网信息处理技术领域,尤其涉及一种视听网站库构建方法、视听网站巡检方法和系统。

背景技术

随着互联网视听技术的发展,互联网视听网站的数量不断增加,视听内容愈加丰富,用户通过视听网站获取视听内容的需求逐渐提高,互联网视听节目的影响力迅速扩大,迫切地需要对视听网站和互联网视听节目进行监管和引导,以促进互联网视听行业的健康发展。而对视听网站和互联网视听节目进行监管,首先要实现对互联网视听网站的监测。

现有技术的互联网视听网站监测方法,主要通过在互联网释放爬虫来发现新的本地网站,并通过网页源代码中“title”标签内的关键词来判断网站的类型,属于无目的性的监测,通过上述现有技术采集网站数据的方式单一,爬虫覆盖的网站也不够全面,导致一些本地网站没有被获取到或者获取本地网站的效率很低;并且,由于“title”标签里的关键词信息有限,也无法准确地判断网站类型,例如,某视听网站的“title”标签中的内容为“优酷–这世界很酷”,此时,无法通过“title”标签中的关键词来准确判断该网站是否为视听网站。

此外,现有技术中,对互联网视听网站的监测采用的是全站实时监测的方式,即对所有已知的互联网视听网站的数据进行实时监控,但是,由于在一个监测区域范围内,视听网站的数量会有时会非常巨大,当本地视听网站的数量较大时,现有技术的全站实时监测的方式会消耗大量的网络资源和硬件资源,导致既有的网络资源和硬件资源无法承载全站实时监测的需求,导致监测效率低,监测不及时等问题。

因此,现有技术的互联网视听网站监测方法无法实现对本地互联网视听网站进行全面及时地监测。

发明内容

本申请实施例提供了一种视听网站库构建方法、视听网站巡检方法和系统,以解决现有技术中存在的问题。

第一方面,本申请实施例提供了一种视听网站库构建方法,所述方法包括:从至少一种扫描方式的域名扫描结果中,获取本地域名库;根据所述本地域名库,获取本地网站的分类信息,所述分类信息至少包括网页关键词和网页描述信息;根据所述分类信息,对所述本地网站进行分类,生成本地视听类待审网站库;根据所述本地视听类待审网站库,从本地视听类待审网站的网页中获取网站许可信息,所述网站许可信息至少包括ICP备案信息;根据所述本地视听类待审网站库和所述网站许可信息,构建本地视听网站库。

第二方面,本申请实施例提供了一种视听网站巡检方法,所述方法包括:根据本地视听网站库,创建本地视听网站的巡检队列;从所述巡检队列中获取当前被检网站,采集所述当前被检网站的网站信息,所述网站信息包括分类信息、网页截屏和全部链接文本信息中的至少一项;根据所述网站信息,对所述当前被检网站进行数据监测,所述数据监测包括网站类型监测、网站版面监测、网站有效性监测和网站内容监测中的至少一项;根据所述数据监测结果,更新所述当前被检网站的巡检历史信息库,如果所述巡检历史信息库不存在,则创建所述巡检历史信息库;根据所述巡检历史信息库,更新所述本地视听网站库。

第三方面,本申请实施例提供了一种视听网站巡检系统,所述系统包括:存储器和处理器;所述存储器,用于存储本地视听网站库、巡检历史信息库、网站信息,以及所述处理器的可执行程序;所述处理器被配置为:根据所述本地视听网站库,创建本地视听网站的巡检队列;从所述巡检队列中获取当前被检网站,采集所述当前被检网站的所述网站信息,所述网站信息包括分类信息、网页截屏和全部链接文本信息中的至少一项;根据所述网站信息,对所述当前被检网站进行数据监测,所述数据监测包括网站类型监测、网站版面监测、网站有效性监测和网站内容监测中的至少一项;根据所述数据监测结果,更新所述当前被检网站的所述巡检历史信息库,如果所述巡检历史信息库不存在,则创建所述巡检历史信息库;根据所述巡检历史信息库,更新所述本地视听网站库。

本申请实施例提供的技术方案,为了解决现有技术的互联网视听网站监测方法无法全面地对本地互联网视听网站进行准确监测的问题,通过至少一种扫描方式,准确获取本地视听网站,能够及时而准确地发现本地新出现的视听网站,构建本地视听网站库,确定了本地视听网站的巡检监测目标。本申请实施例提供的视听网站巡检方法,根据已构建的本地视听网站库,创建本地视听网站的巡检队列,对本地视听网站库中的视听网站进行周期性的数据监测,包括网站类型监测、网站版面监测、网站有效性监测和网站内容监测,然后根据数据监测结果创建巡检历史信息库,并在每轮巡检后更新巡检历史信息库,并根据数据监测结果更新本地视听网站库。当对一个本地视听网站完成监测后,根据巡检队列监测下一个网站,循环监测巡检队列中的本地视听网站,从而,大大降低了网站监测时的网络资源和硬件资源的消耗,解决了现有技术中监测效率低、监测不及时、或出现遗漏监测等问题,实现了对本地互联网视听网站进行全面及时地监测。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视听网站库构建方法的流程图;

图2为本申请实施例提供的一种视听网站库构建方法步骤S110的流程图;

图3为本申请实施例提供的另一种视听网站库构建方法的流程图;

图4为本申请实施例提供的一种视听网站巡检方法的流程图;

图5为本申请实施例提供的一种视听网站巡检方法网站版面监测的流程图;

图6为本申请实施例提供的一种视听网站巡检方法网站内容监测的流程图;

图7为本申请实施例提供的另一种视听网站巡检方法网站版面监测的流程图;

图8为本申请实施例提供的一种视听网站巡检系统框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

随着互联网视听技术的发展,互联网视听网站的数量不断增加,视听内容愈加丰富,视听内容种类繁多,更新迅速。越来越多的网民习惯通过视听网站在线收看收听视听节目,用户通过视听网站获取视听内容的需求逐渐提高,互联网视听节目的影响力迅速扩大。此外,除了传统视听网站以外,各类型直播网站和短视频分享网站如雨后春笋般产生,这些网站允许用户制造视听内容,并通过对应的网站平台进行传播,导致互联网视听网站的视听内容更加丰富,更新更加迅速,因此,迫切地需要对视听网站和互联网视听节目进行监管和引导,以促进互联网视听行业的健康发展。而对视听网站和互联网视听节目进行监管,首先要实现对互联网视听网站的监测。

现有技术的互联网视听网站监测方法,主要通过在互联网释放网站蔓延爬虫来发现新的本地网站,并通过识别网页源代码中“title”标签内的关键词来判断网站的类型,属于无目的性的监测;并且,现有技术中,由于采集数据的方式单一,获取新网站的结果不够全面,导致很多本地网站没有被获取到或者获取效率低;同时,由于“title”标签里的关键词信息有限,仅通过“title”标签也无法准确地判断网站类型,例如,某视听网站的“title”标签中的内容为“优酷–这世界很酷”,此时,无法通过“title”标签中的关键词来准确判断该网站是否为视听网站,并且,由于视听网站随着互联网热点的变化更替,视听网站内容的更新等因素,其“title”标签中的内容也会不时发生变化,因此,现有技术中通过网页源代码中“title”标签内的关键词来判断网站的类型的方法得到的判断结果也不稳定。

此外,现有技术中,对互联网视听网站的监测采用的是全站实时监测的方式,即对所有已知的互联网视听网站的数据进行实时监控,但是,由于在一个监测区域范围内,视听网站的数量有时会非常巨大,当本地视听网站的数量较大时,现有技术的全站实时监测的方式会消耗大量的网络资源和硬件资源,导致既有的网络资源和硬件资源无法承载全站实时监测的需求,导致监测效率低,监测不及时等问题。

为了解决现有技术中存在的问题,本申请实施例提供了一种视听网站库构建方法,图1为本申请实施例提供的一种视听网站库构建方法的流程图,如图1所示,所述方法包括以下步骤:

S110,从至少一种扫描方式的域名扫描结果中,获取本地域名库。

本申请为了使本地域名库中的域名覆盖更全面,使用至少一种扫描方式进行本地域名扫描,以避免现有技术中由于采取单一的扫描方法,扫描结果覆盖网站不全面,导致一些本地网站未被获取到,以及单一扫描方式导致的获取效率低的问题。

为了使本申请每种域名扫描方式获取的域名扫描结果能够实现充分的互补,以综合每种域名扫描结果获得全面的本地域名库,本申请在步骤S110中优选使用三种或三种以上的域名扫描方式。

图2为本申请实施例提供的一种视听网站库构建方法步骤S110的流程图,如图2所示,在一种可选择的实施方式中,步骤S110包含以下步骤:

步骤S111,根据IP端口扫描,域名库定向扫描,以及全网蔓延扫描方式,获取所述域名扫描结果。

在步骤S111中,使用IP端口扫描,域名库定向扫描,以及全网蔓延扫描这三种扫描方式,进行域名扫描,以获取全面的本地域名库。

在步骤S111中,IP端口扫描包括:在本地互联网中释放IP地址库爬虫,进行本地IP地址的爬取,获取本地IP地址库;然后,根据获取到的本地IP地址库进行IP端口扫描,获取IP地址对应的本地域名,本申请中使用的IP端口扫描手段可以包括TCP扫描,SYN扫描,NULL扫描,FIN扫描,ACK扫描中的一种或几种。

在步骤S111中,域名库定向扫描包括:根据已有域名库,在本地互联网中释放域名库爬虫,对本地互联网进行域名定向扫描,获取本地IP-域名库,其中本地IP-域名库中包括域名和域名所指向的本地IP地址。

在步骤S111中,使用全网蔓延爬虫对本地互联网进行浅层的、快速地广泛搜索,获取本地网站的IP地址和域名,尤其是新网站的IP地址和域名。

本申请实施例在步骤S111中,通过IP端口扫描,域名库定向扫描,以及全网蔓延扫描这三种扫描方式,获取三组域名扫描结果,与现有技术的单一扫描方式相比,本申请实施例中的三组域名扫描结果实现内容综合,相互补充,例如:IP端口扫描获取的域名能够补充域名库定向扫描中由于域名库不完整而导致的结果缺失,域名库定向扫描获取的IP能够补充IP端口扫描中由于IP地址库不完整而导致的结果缺失,而全网蔓延扫描更侧重于发现本地新域名。从而,使用本申请实施例中的三组域名扫描结果获取到的本地域名库能够更全面地覆盖本地网站。

步骤S112,对所述域名扫描结果进行数据合并,取交集,以及数据清洗,去除非本地域名,生成本地域名库。

在步骤S112中,对步骤S111中获取的三组域名扫描结果进行合并,取其结果的交集并保留,例如:对于重复的结果,仅保留一个,对于不同扫描方式的域名扫描结果中涉及同一个IP或同一个域名的结果,保留一个完整结果;以及,对三种扫描方式的域名扫描结果进行数据清洗,例如:去除扫描结果中,IP地址不属于本地的非本地域名,以及去除结果中的噪音,包括不完整结果、与本申请需求无关的结果等。

本申请实施例在步骤S112中,生成的本地域名库,本地域名覆盖的本地网站更加全面,并包含了本地新网站的域名。

S120,根据所述本地域名库,获取本地网站的分类信息,所述分类信息至少包括网页关键词和网页描述信息。

在步骤S120中,根据已获取的本地域名库,访问其中的本地域名,并从本地域名指向的本地网站中获取分类信息。在一种可选择的实施方式中,分类信息包括网页关键词和网页描述信息,其中,网页关键词和网页描述信息可通过爬取网页源代码中的指定标签内容获得。

例如,以域名www.iqiyi.com为例,从网页源代码“title”标签中获取网页关键词。

示例地,某网页源代码“title”标签的内容为:

<title>爱奇艺-全球领先的在线视频网站-海量正版高清视频在线观看</title>

从该“title”标签中可以获取关键词“爱奇艺”“在线视频”“高清视频”“在线观看”。

此外,还可以从网页源代码中“keywords”字段所在标签中获取关键词。

示例地,某网页源代码中有以下字段:

<meta name="keywords"lang="zh-CN"content="爱奇艺视频,视频,视频网站,高清视频,电影,电视剧,动漫,综艺,音乐"/>

从该标签中可以获取“视频”“电影”“电视剧”“综艺”“音乐”等关键词。

此外,可以从网页源代码中“description”字段所在标签中获取网页描述信息。

示例地,某网页源代码中有以下字段:

<meta name="description"lang="zh-CN"content="爱奇艺(iQIYI.COM)是全球领先的提供海量、优质、高清的网络视频服务的大型视频网站,网络视频播放首选平台。爱奇艺影视内容丰富多元,涵盖电影、电视剧、动漫、综艺、生活、音乐、搞笑、财经、军事、体育、片花、资讯、微电影、儿童、母婴、教育、科技、时尚、原创、公益、游戏、旅游、拍客、汽车、纪录片、爱奇艺自制剧等剧目。视频播放清晰流畅,操作界面简单友好,真正为用户带来“悦享品质”的在线观看体验。"/>

从该标签中可以获取content中的内容作为网页描述信息。

S130,根据所述分类信息,对所述本地网站进行分类,生成本地视听类待审网站库。

在步骤S130中,根据在步骤S120中获取的网页关键词和网页描述信息等分类信息,可以对本地域名指向的本地网站进行分类,根据本申请对视听类网站的监测需求,本地网站至少应该包括视听类网站和其他类网站,同时为了便于使用本申请的技术方案对其他类型的网站进行监测,在分类时,除视听类网站以外,网站类型还可以包括新闻类、财经类、购物类等。

示例地,步骤S120的示例中,从“title”标签中获取到了“爱奇艺”“在线视频”“在线观看”等网页关键词,从网页关键词中可以确定,域名www.iqiyi.com所指的网站为爱奇艺,网站类型为视听类网站。需要补充说明的是,确定网站类型的具体方式,可以通过预设网站类型关键词库,并将网页关键词与预设网站类型关键词库中的预设关键词进行匹配,如果匹配到相同关键词,则该网站即与预设网站类型关键词库所对应的网站类型相同。

示例地,对于有些网站来说,其“title”标签中不包含能够用于网站分类的关键词,以域名www.youku.com为例,其网页源代码“title”标签的内容为:

<title>优酷-这世界很酷</title>

因此,如果需要对该网站进行分类,需要借助网页描述信息中的内容,该网站的网页源代码中,包含网页描述信息的字段为:

<meta name="description"content="视频服务平台,提供视频播放,视频发布,视频搜索,视频分享"/>

从上述字段中包含的网页描述信息中,可以确定该网站为视听类网站。

示例地,本申请实施例中的网站类别还可以包括其他类型的网站,例如财经类。

以域名www.10jqka.com为例,其网页源代码“title”标签的内容为:

<title>同花顺财经__让投资变得更简单</title>

从“title”标签中能够提取到关键词“财经”和“投资”,由此能确定出该网站为财经类网站。

由步骤S120和步骤S130可以看出,本申请根据网站的分类信息对本地域名库所指的本地网站进行分类,其中分类信息中包含网页关键词和网页描述信息,与现有技术的仅从网页源代码的“title”中获取关键词来判断网站类型的方法相比。本申请结合网页关键词和网页描述信息进行网站分类的方法能够实现更准确的分类,能够避免当“title”中不包含网页关键词时,无法正确对网站进行分类的情况发生。

S140,根据所述本地视听类待审网站库,从本地视听类待审网站的网页中获取网站许可信息,所述网站许可信息至少包括ICP备案信息。

本申请中,网站的许可信息可以包括ICP备案信息,对于视听类网站来说,网站许可信息还可以包括网络文化经营许可证信息、信息网络传播视听节目许可证信息、出版物经营许可证信息中的一种或几种。

本申请中,可以通过爬取网站的网页源代码的相应字段的内容获取网站许可证信息。

示例地,从爱奇艺网首页的网页源代码中获取到以下字段:

title="京ICP证110636号"

title="京网文[2015]0652-282号-1"

从以上字段中可以获取到该网站的ICP备案信息为:京ICP证110636号,网络文化经营许可证信息为:京网文[2015]0652-282号-1。

本申请中,网站许可信息可用于在视听网站的巡检过程中,判断域名所指的网站是否发生变化,以及判断网站的ICP备案是否有效等。

S150,根据所述本地视听类待审网站库和所述网站许可信息,构建本地视听网站库。

本申请中,本地视听网站库中可以包括域名、网站名称、网站许可信息等项目。

示例地,本地视听网站库为以下形式:

网站名称域名网站许可信息爱奇艺www.iqiyi.com京ICP证110636号暴风影音www.baofeng.com京ICP证070364号搜狐视频tv.sohu.com京ICP证030367号乐视tv.le.com京ICP证060072号………………

图3为本申请提供的另一种视听网站库构建方法的流程图,如图3所示,在一种可选择的实施方式中,在步骤S150之前,还包括:

步骤S149,校验所述许可信息,当所述许可信息有误时,更正所述许可信息。

由于网页未及时更新、网页中未公示网站许可信息等原因,在步骤S140中可能会获取到错误的网站许可信息或不完整的许可信息,例如:过期的ICP备案信息或未获取到ICP备案信息等。因此,在步骤S149中,对网站许可信息进行校验。本申请实施例中采用的校验方式可以是:设置与工信部等相关监管部门的查询平台相连的查询接口,通过查询接口查询获取监管部门记录的网站许可信息,如果查询获得的结果与步骤S140中获取的结果不相符,则步骤S140获取到信息有误,并更正有误的许可信息。

由以上技术方案可知,本申请实施例提供的一种视听网站库构建方法,为了解决现有技术的互联网视听网站监测方法无法全面地对本地互联网视听网站进行准确监测的问题,从至少一种扫描方式的域名扫描结果中,获取本地域名库,多种扫描方式获取的结果可以实现综合互补,使本地域名库更全面地覆盖本地网站,然后,根据本地域名库获取本地网站的分类信息,并根据分类信息,对本地网站进行分类,生成本地视听类待审网站库,然后从本地视听类待审网站的网页中获取网站许可信息,并构建本地视听网站库。本申请构建的本地视听网站库,确定了本地视听网站的巡检监测目标,可用于对本地视听网站进行有目的监测,解决了现有技术中无目的的监测方法导致监测不准确、不全面的问题。

本申请实施例还提供了一种视听网站巡检方法,图4为本申请实施例提供的一种视听网站巡检方法的流程图,如图4所示,所述方法包括以下步骤:

步骤S210,根据本地视听网站库,创建本地视听网站的巡检队列。

为了确定本地视听网站的巡检次序,本申请在步骤S210中创建本地视听网站的巡检队列,在巡检过程中,根据巡检队列中本地视听网站的顺序,依次进行巡检。

示例地,可以使用MySQL等数据库管理系统存储本地视听网站库,当需要对本地视听网站进行巡检时,将本地视听网站库中存储的域名信息按序存储至Redis等键值对存储数据库中,从而形成本地视听网站的巡检队列。

步骤S220,从所述巡检队列中获取当前被检网站,采集所述当前被检网站的网站信息,所述网站信息包括分类信息、网页截屏和全部链接文本信息中的至少一项。

在步骤S220中,根据本地视听网站的巡检队列确定当前被检网站,获取当前被检网站的域名,然后释放爬虫以获取网站信息。

示例地,分类信息可至少包含网页关键词和网页描述信息,其中,网页关键词可以从被检网站网页源代码的“title”标签和“keywords”字段所在的标签中获得;网页描述信息可以从网页源代码的“Description”字段所在的标签中获得。获取全部链接文本信息的方式可以是:从网页源代码中查找<a href=""></a>标签,并从中提取链接文本信息。

步骤S230,根据所述网站信息,对所述当前被检网站进行数据监测,所述数据监测包括网站类型监测、网站版面监测、网站有效性监测和网站内容监测中的至少一项。

在步骤S230中,网站类型监测用于监测网站类型是否发生变化,在一种可选择的实施方式中,网站类型监测包括以下步骤:

步骤S2311,根据所述分类信息,获取所述当前被检网站是否为视听类网站。

在步骤S2311中可根据分类信息中的网页关键词确定当前被检网站的网站类型,如果在步骤S220中,未获取到网页关键词,则从网页描述信息中确定当前被检网站的类型。如果当前被检网站的网站类型不为视听类网站,则网站类型发生变化,并记录当前被检网站变化后的网站类型。

在步骤S230中,网站版面监测用于监测网站版面是否发生变化,图5为本申请实施例提供的一种视听网站巡检方法网站版面监测的流程图,如图5所示,在一种可选择的实施方式中,网站版面监测包括以下步骤:

步骤S2321,从所述首页截屏中获取所述当前被检网站的版面信息。

本申请中,可通过图像识别方式,识别网页截屏中的版面窗口,并根据识别结果,对网页截屏进行切块处理,记录各个切块的位置、尺寸和相对关系,生成当前被检网站的版面信息。或者,对网页截屏进行归一化处理,例如处理成灰度图像,以归一化图像的形式记录当前被检网站的版面信息,可用于进行图像之间的相似度匹配。

步骤S2322,将所述版面信息与所述当前被检网站的预存版面信息进行一致性比对。

本申请中的预存版面信息,可在创建本地视听网站库时,通过网页爬虫采集网页截屏,并进行切块处理或归一化处理,以获得预存版面信息,对应地存储在本地视听网站库中。

当进行一致性比对时,可选的一种比对方法是:获取当前被检网站以切块形式表示的预存版面信息,将预存版面信息与步骤S2321中获取的网页截屏进行切块比对,根据切块的位置、尺寸和相对关系确定相同切块的占比。

或者,可选的另一种比对方法是,根据预设版面信息中切块的数量生成用于表示预设版面信息的多维向量,其中,每个切块对应向量的一个维度,并根据切块的位置、尺寸等确认每个切块的权重,对参考向量的各个维度的值进行对应的加权处理,以加权后的多维向量作为一致性比对的参考向量,当需要对当前被检网站的网页截屏进行一致性比对时,根据网页截屏的切块内容和各个切块的位置、尺寸信息生成网站版面信息的特征向量,然后计算参考向量和特征向量的余弦相似度。

或者,可选的又一种比对方法是,从预设版面信息中获取当前被检网站预存的网页截屏预设归一化图像,将当前被检网站在步骤S2321中获取的归一化图像与预存的归一化图像计算图元相似度。

步骤S2323,如果一致性低于预设阈值,则网站版面发生变化。

本申请实施例中,可以针对不同的一致性比对方法,设定不同的阈值,以一致性比对的结果是否低于阈值的方式,判断网站版面是否发生变化。如果一致性低于预设阈值,则网站版面发生变化,如果一致性未低于预设阈值,则网站版面未发生变化。

示例地,根据步骤S2322中示出的一致性比对方法,阈值可以是相同切块的占比的阈值、参考向量和特征向量的余弦相似度的阈值、图元相似度的阈值等,在上述一致性比对方法中,如果比对的结果小于阈值,则网站版面发生变化。

在步骤S230中,网站有效性监测用于监测网站是否能够正常运行,在一种可选择的实施方式中,网站有效性监测包括以下步骤:

步骤S2331,分析采集所述网站信息时,是否返回失败信息。

在对网站进行信息采集时,如果返回失败信息,说明该网站已无法正常访问,即网站已失效,其中,失败信息包括返回了表示特定错误信息的HTTP代码等,例如:403Forbidden、404Not Found、502Bad Gateway等;或者,网站可以正常访问,但是网页的内容已经被移除,仅剩下网站维护或关闭公告等信息,如果在采集网站信息时,采集到了上述网站维护或关闭公告等信息,即认为返回了失败信息。当采集网站信息返回会失败信息时,则网站有效性监测的结果为当前被检网站已失效。

在步骤S230中,网站内容监测用于监测网站中是否存在有害内容,图6为本申请实施例提供的一种视听网站巡检方法网站内容监测的流程图,如图6所示,在一种可选择的实施方式中,网站内容监测包括以下步骤:

步骤S2341,根据预设敏感词信息库,从所述链接文本信息中获取敏感文本。

本申请实施例中,预设敏感词信息库可包含互联网中已知的敏感词,例如色情、性暗示、辱骂、不文明的网络用语,涉及暴力、恐怖、反动等信息的词语,以及其谐音词、汉语拼音、汉语拼音与文字组合等,并可根据本地舆论风向、突发事件、公众活动等情况实时更新预设敏感词信息库中的内容。

本申请实施例中,通过从当前被检网站首页的网页源代码中查找<a href=""></a>标签,获取链接文本信息,例如,某网站中存在的下述源代码:

<a href="http://www.iqiyi.com/v_19rre3arf0.html">一段别人无法代替的旅程</a>

其中位于开始标签<a>和结束标签</a>之间的文本为链接文本,即对于上述的网站源代码中获取的链接文本信息为:一段别人无法代替的旅程。

本申请实施例中,根据预设敏感词信息库,对所有获取到的链接文本信息进行敏感词匹配,以从链接文本信息中获取敏感文本。

需要说明的是,本申请实施例中,为了便于对当前被检网站中可能存在的有害内容进行分类,在预设敏感词信息库中,可以对预设敏感词进行类存储,并可以设置每个敏感词或每个敏感词的分类设定敏感级别,以实现根据敏感级别的不同,对网页中是否存在有害信息进行差异化的判断。

步骤S2342,如果获取到所述敏感文本,分析所述当前被检网站中是否存在有害内容。

如果在步骤S2341中获取到敏感文本,意味着敏感文本所在标签的链接所指向的内容可能为有害内容,在步骤S2342中,通过分析带有敏感文本的链接文本信息判断当前被检网站中是否存在有害内容。

示例地,由于包含敏感文本的不一定是有害内容,例如链接文本信息为:“XX警方成功挫败一起恐怖袭击”,虽然其中包含“恐怖袭击”,但其表达的内容并非有害内容。因此,为了从链接文本信息中发现有害内容,作为一种可选择的实施方式,对包含敏感文本的链接文本信息进行语义分析,根据语义分析结果,判断是否包含有害内容。

步骤S2343,如果存在所述有害内容,获取所述有害内容的类型,生成有害内容分类统计结果。

本申请实施例中,如果在步骤S2342中确定了当前被检网站中包含有害内容,则根据预设敏感词信息库中的敏感词分类,确定有害内容的类型,例如:色情内容、爆恐内容等,然后根据当前被检网站中包含有害内容的数量和类型,对有害内容进行分类统计,生成有害内容分类统计结果,有害内容分类统计结果可通过扇形图、柱状图等方式进行展示。

此外,根据当前被检网站中有害内容的数量、类型和敏感级别等信息,还可以设定有害内容预警条件,当有害内容的数量、类型或敏感级别达到预警条件时,发出预警。

步骤S240,根据所述数据监测结果,更新所述当前被检网站的巡检历史信息库,如果所述巡检历史信息库不存在,则创建所述巡检历史信息库。

巡检历史信息库用于记录本地视听网站库中每个本地视听网站的巡检历史,能够记录网站的过去一段时间内的网站在被巡检中所采集到的网站信息以及数据监测的结果,通过巡检历史信息库,可以统计出网站在过去一段时间的网站信息变更情况、数据监测变化情况、数据监测中各项监测结果的变化趋势等信息。

此外,在步骤S2311中,还可以获取当前被检网站的网站许可信息,并根据本地视听网站库中存储的网站许可信息,判断网站的ICP备案信息等是否发生了变化,如果发生变化,说明当前监测域名所指向的网站可能发生了变化,此时根据分类信息判断当前网站是否依然为视听网站,如果依然是视听网站,则更新本地视听网站库中的对应项目,并继续执行后续数据监测等步骤。

步骤S250,根据所述数据监测结果,更新所述本地视听网站库。

根据数据监测结果,分析当前被检网站在本地视听网站库中存储的信息是否发生变化,如果发生变化,使用变化后的内容替换掉原有的内容,更新本地视听网站库。

在一种可选择的实施方式中,本申请实施例提供的方法还可以包括:

步骤S2324,当所述网站版面发生变化时,保存所述网页截屏,并对所述网页截屏添加截屏时间戳。

本申请实施例中,当网站版面未发生变化时,在网站版面监测结束之后,删除网页截屏;当网站版面发生变化时,保存所述网页截屏,并对所述网页截屏添加截屏时间戳。带有时间戳的网页截屏能够直观的呈现网页截屏时间,便于查找和比对。同时,由于在网站版面未发生变化时,删除网页截屏,能够降低巡检过程中网页截屏占用的存储空间,减少网页截屏存储的数量,有利于提高检索效率。

需要说明的是,在本申请实施例提供的技术方案中,当对巡检队列中当前被检网站完成一次监测之后,即执行了步骤S250之后,在巡检队列中,选择下一个网站作为新的当前被检网站,并对新的当前被检网站执行本申请实施例提供的巡检方法,直至循环监测巡检队列中的所有本地视听网站,完成一轮巡检。

由以上技术方案可知,本申请实施例提供的一种视听网站巡检方法,为了解决现有技术中存在的问题,根据本地视听网站库,创建本地视听网站的巡检队列,然后依据巡检队列中本地视听网站的顺序,依次对每个本地视听网站进行监测,包括采集当前被检网站的网站信息,根据网站信息,对当前被检网站进行网站类型监测、网站版面监测、网站有效性监测和网站内容监测中的至少一项,并根据数据监测结果,更新或创建当前被检网站的巡检历史信息库,以及更新本地视听网站库。本申请实施例提供的技术方案,根据本地视听网站库,实现了对本地视听网站有目的性监测,此外,本申请实施例提供的技术方案,创建了本地视听网站的巡检队列,并根据巡检队列对本地视听网站进行有次序地巡检,从而,大大降低了网站监测时的网络资源和硬件资源的消耗,避免了现有技术中监测效率低、监测不及时、或出现遗漏监测等问题,实现了对本地互联网视听网站进行全面及时地监测。

本申请实施例还提供了一种视听网站巡检系统,图8为本申请实施例示出的一种视听网站巡检系统的框图,如图8所示,所述系统包括:

存储器310和处理器320;

所述存储器310,用于存储本地视听网站库、巡检历史信息库、网站信息,以及所述处理器320的可执行程序;

所述处理器320被配置为:

根据所述本地视听网站库,创建本地视听网站的巡检队列;

从所述巡检队列中获取当前被检网站,采集所述当前被检网站的所述网站信息,所述网站信息包括分类信息、网页截屏和全部链接文本信息中的至少一项;

根据所述网站信息,对所述当前被检网站进行数据监测,所述数据监测包括网站类型监测、网站版面监测、网站有效性监测和网站内容监测中的至少一项;

根据所述数据监测结果,更新所述当前被检网站的所述巡检历史信息库,如果所述巡检历史信息库不存在,则创建所述巡检历史信息库;

根据所述巡检历史信息库,更新所述本地视听网站库。

由以上技术方案可知,本申请实施例提供的一种视听网站巡检系统,为了解决现有技术中存在的问题,根据本地视听网站库,创建本地视听网站的巡检队列,然后依据巡检队列中本地视听网站的顺序,依次对每个本地视听网站进行监测,包括采集当前被检网站的网站信息,根据网站信息,对当前被检网站进行网站类型监测、网站版面监测、网站有效性监测和网站内容监测中的至少一项,并根据数据监测结果,更新或创建当前被检网站的巡检历史信息库,以及更新本地视听网站库。本申请实施例提供的技术方案,根据本地视听网站库,实现了对本地视听网站有目的性监测,此外,本申请实施例提供的技术方案,创建了本地视听网站的巡检队列,并根据巡检队列对本地视听网站进行有次序地巡检,从而,大大降低了网站监测时的网络资源和硬件资源的消耗,避免了现有技术中监测效率低、监测不及时、或出现遗漏监测等问题,实现了对本地互联网视听网站进行全面及时地监测。

申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号