首页> 中国专利> 用于记录最新的网络文件、用于修改搜索结果的装置方法

用于记录最新的网络文件、用于修改搜索结果的装置方法

摘要

本发明公开了一种用于记录最新的网络文件的装置和方法以及一种用于修改搜索结果的装置和方法,其中,用于记录最新的网络文件方法包括如下步骤:检测小说网站所包括的小说章节列表页;定期分析所述小说章节列表页而记录所述小说章节列表页中最新创立或修改的小说章节的信息。通过监测小说网站所包括的小说章节页列表,能够准确地识别小说章节页列表;通过定期分析小说章节页列表,分析得到最新的小说章节,从而能够记录最新创立或修改的小说章节的信息。方便使用者快速地找到最新的小说章节,节约了时间。

著录项

  • 公开/公告号CN104050273A

    专利类型发明专利

  • 公开/公告日2014-09-17

    原文格式PDF

  • 申请/专利号CN201410287448.6

  • 发明设计人 崔代超;

    申请日2014-06-24

  • 分类号G06F17/30;

  • 代理机构北京市隆安律师事务所;

  • 代理人权鲜枝

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2023-12-17 01:14:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-07-25

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2014102874486 登记生效日:20230713 变更事项:专利权人 变更前权利人:三六零科技集团有限公司 变更后权利人:北京鸿享技术服务有限公司 变更事项:地址 变更前权利人:300450 天津市滨海新区滨海科技园高新六路39号9-3-401号 变更后权利人:100015 北京市朝阳区酒仙桥路甲10号3号楼15层17层1765

    专利申请权、专利权的转移

  • 2022-08-09

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2014102874486 登记生效日:20220728 变更事项:专利权人 变更前权利人:北京奇虎科技有限公司 变更后权利人:三六零科技集团有限公司 变更事项:地址 变更前权利人:100088 北京市西城区新街口外大街28号D座112室(德胜园区) 变更后权利人:300450 天津市滨海新区滨海科技园高新六路39号9-3-401号 变更事项:专利权人 变更前权利人:奇智软件(北京)有限公司 变更后权利人:

    专利申请权、专利权的转移

  • 2018-07-10

    授权

    授权

  • 2014-10-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140624

    实质审查的生效

  • 2014-09-17

    公开

    公开

说明书

技术领域

本发明涉及网络文件信息管理领域,具体涉及一种用于记录最新的网络 文件的装置和方法以及一种用于修改搜索结果的装置和方法。

背景技术

当今互联网中,网络小说阅读是网络用户的一个重要需求,网络小说具 有更新频繁的特点,用户对最新章节的需求较强。现有的网络应用,缺少记 录网络小说网站最新创立或修改的小说章节的方案。

进一步地,搜索引擎是用户获得小说资源的最常见途径。现在的搜索引 擎在用户搜索小说时会给出正常的搜索结果,然而,用户根据正常的搜索结 果得到的结果页面,不能直观地了解特定网站的特定的小说在近期是否更新, 只有在点击搜索条目访问小说网站之后才能知道章节是否更新,这样使得用 户的搜索需求没有完全满足,效率不高,且搜索体验差。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的一种用于记录最新的网络文件的装置和方法以及一种用于 修改搜索结果的装置方法。

依据本发明的一个方面,提供了一种用于记录最新的网络文件的装置, 其中,该装置包括:列表页检测单元,适于检测小说网站所包括的小说章节 列表页;最新章节记录单元,适于定期分析所述小说章节列表页而记录所述 小说章节列表页中最新创立或修改的小说章节的信息。

其中,所述列表页检测单元,适于选取至少一个小说网站;对所述小说 网站域名下的网页分别进行结构分析,若网页中包括多个平行的a标签,则 判断该网页为小说章节列表页;其中,小说章节列表页中包括的多个平行的 a标签对应的文件目录相同且包括章节字段,其中所述章节字段包括章节表 征关键字和/或章节数。

其中,所述装置进一步包括列表页保存单元,所述列表页保存单元,适 于保存所述小说章节列表页。

其中,所述最新章节记录单元,适于定期获取所述平行的a标签对应的 HTML序号,根据对应的HTML序号最大的a标签记录所述小说章节列表页 中最新创立或修改的小说章节的信息;或,所述最新章节记录单元,适于定 期获取所述平行的a标签对应的文件的创立时间或修改时间,根据对应的创 立时间或修改时间最晚的a标签记录所述小说章节列表页中最新创立或修改 的小说章节的信息;或,所述最新章节记录单元,适于定期获取所述平行的 a标签包括的章节字段,选择对应的章节数最大的a标签,根据所选择的a 标签记录所述小说章节列表页中最新创立或修改的小说章节的信息。

依据本发明的另一个方面,提供了一种用于修改搜索结果的装置,其中, 该装置包括:章节选择模块,适于选取至少一个小说章节列表页中最新创立 或修改的小说章节的信息;结果修改模块,适于在根据用户的搜索请求得到 搜索结果时,判断搜索结果中是否存在上述的小说章节列表页,如果存在则 将所述小说章节列表页中最新创立或修改的小说章节的信息加入所述搜索结 果。

其中,所述章节选择模块包括列表页检测单元和最新章节记录单元;所 述列表页检测单元,适于检测小说网站所包括的小说章节列表页;所述最新 章节记录单元,适于定期分析所述小说章节列表页而获取所述小说章节列表 页中最新创立或修改的小说章节的信息。

其中,所述列表页检测单元,适于选取至少一个小说网站;对所述小说 网站域名下的网页分别进行结构分析,若网页中包括多个平行的a标签,则 判断该网页为小说章节列表页;其中,小说章节列表页中包括的多个平行的 a标签对应的文件目录相同且包括章节字段,其中所述章节字段包括章节表 征关键字和/或章节数。

其中,所述章节选择模块进一步包括列表页保存单元,所述列表页保存 单元,适于保存所述小说章节列表页。

其中,所述最新章节记录单元,适于定期获取所述平行的a标签对应的 HTML序号,根据对应的HTML序号最大的a标签记录所述小说章节列表页 中最新创立或修改的小说章节的信息;或,所述最新章节记录单元,适于定 期获取所述平行的a标签对应的文件的创立时间或修改时间,根据对应的创 立时间或修改时间最晚的a标签记录所述小说章节列表页中最新创立或修改 的小说章节的信息;或,所述最新章节记录单元,适于定期获取所述平行的 a标签包括的章节字段,选择对应的章节数最大的a标签,根据所选择的a 标签记录所述小说章节列表页中最新创立或修改的小说章节的信息。

其中,所述结果修改模块,适于将最新创立或修改的小说章节的链接加 入所述小说章节列表页对应的搜索结果的条目中。

其中,所述结果修改模块,进一步适于将最新创立或修改的小说章节的 创立时间或修改时间加入所述小说章节列表页对应的搜索结果的条目中。

依据本发明的另一个方面,提供了一种用于记录最新的网络文件的方法, 其中,该方法包括如下步骤:检测小说网站所包括的小说章节列表页;定期 分析所述小说章节列表页而记录所述小说章节列表页中最新创立或修改的小 说章节的信息。

其中,所述检测小说网站所包括的小说章节列表页包括:选取至少一个 小说网站;对所述小说网站域名下的网页分别进行结构分析,若网页中包括 多个平行的a标签,则判断该网页为小说章节列表页;其中,小说章节列表 页中包括的多个平行的a标签对应的文件目录相同且包括章节字段,其中所 述章节字段包括章节表征关键字和/或章节数。

其中,该方法还包括:在检测小说网站所包括的小说章节列表页之后, 保存所述小说章节列表页。

其中,所述定期分析所述小说章节列表页而记录所述小说章节列表页中 最新创立或修改的小说章节的信息包括:定期获取所述平行的a标签对应的 HTML序号,根据对应的HTML序号最大的a标签记录所述小说章节列表页 中最新创立或修改的小说章节的信息;或,定期获取所述平行的a标签对应 的文件的创立时间或修改时间,根据对应的创立时间或修改时间最晚的a标 签记录所述小说章节列表页中最新创立或修改的小说章节的信息;或,定期 获取所述平行的a标签包括的章节字段,选择对应的章节数最大的a标签, 根据所选择的a标签记录所述小说章节列表页中最新创立或修改的小说章节 的信息。

依据本发明的另一个方面,提供了一种用于修改搜索结果的方法,其中, 该方法包括如下步骤:选取至少一个小说章节列表页中最新创立或修改的小 说章节的信息;在根据用户的搜索请求得到搜索结果时,判断搜索结果中是 否存在上述的小说章节列表页,如果存在则将所述小说章节列表页中最新创 立或修改的小说章节的信息加入所述搜索结果。

其中,所述选取至少一个小说章节列表页中最新创立或修改的小说章节 的信息,包括:检测小说网站所包括的小说章节列表页;定期分析所述小说 章节列表页而记录所述小说章节列表页中最新创立或修改的小说章节的信 息。

其中,所述检测小说网站所包括的小说章节列表页包括:选取至少一个 小说网站;对所述小说网站域名下的网页分别进行结构分析,若网页中包括 多个平行的a标签,则判断该网页为小说章节列表页;其中,小说章节列表 页中包括的多个平行的a标签对应的文件目录相同且包括章节字段,其中所 述章节字段包括章节表征关键字和/或章节数。

其中,该方法还包括:在检测小说网站所包括的小说章节列表页之后, 保存所述小说章节列表页。

其中,所述定期分析所述小说章节列表页而记录所述小说章节列表页中 最新创立或修改的小说章节的信息包括:定期获取所述平行的a标签对应的 HTML序号,根据对应的HTML序号最大的a标签记录所述小说章节列表页 中最新创立或修改的小说章节的信息;或,定期获取所述平行的a标签对应 的文件的创立时间或修改时间,根据对应的创立时间或修改时间最晚的a标 签记录所述小说章节列表页中最新创立或修改的小说章节的信息;或,定期 获取所述平行的a标签包括的章节字段,选择对应的章节数最大的a标签, 根据所选择的a标签记录所述小说章节列表页中最新创立或修改的小说章节 的信息。

其中,所述将所述小说章节列表页中最新创立或修改的小说章节的信息 加入所述搜索结果,包括:将最新创立或修改的小说章节的链接加入所述小 说章节列表页对应的搜索结果的条目中。

其中,所述将所述小说章节列表页中最新创立或修改的小说章节的信息 加入所述搜索结果,进一步包括:将最新创立或修改的小说章节的创立时间 或修改时间加入所述小说章节列表页对应的搜索结果的条目中。

根据本发明的用于记录最新的网络文件的装置和方法一种用于修改搜索 结果的装置和方法,能记录网络小说网站最新创立或修改的小说章节,以及 将小说的最新章节展现于搜索结果中。可以方便使用者快速地找到最新的小 说章节,节约了时间。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:

图1示出了根据本发明一个实施例的用于记录最新的网络文件的方法的 流程图;

图2示出了根据本发明一个实施例的用于记录最新的网络文件的装置的 框图;

图3示出了根据本发明一个实施例的用于修改搜索结果的方法的流程 图;

图4示出了根据本发明一个实施例的用于修改搜索结果的方法的详细的 流程图;

图5示出了根据本发明一个实施例的用于修改搜索结果的装置的框图;

图6示出了小说章节列表页的源代码示意图;

图7示出了使用本发明的用于修改搜索结果的方法和装置而获取的搜索 结果的一示意图;以及

图8示出了使用本发明的用于修改搜索结果的方法和装置而获取的搜索 结果的另一示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。

依据本发明的一个方面,提供了一种用于记录最新的网络文件的方法。 图1示出了根据本发明一个实施例的用于记录最新的网络文件的方法的流程 图。其中,如图1所示的方法包括如下的步骤S100和S120:

S100、检测小说网站所包括的小说章节列表页。

S120、定期分析小说章节列表页而记录小说章节列表页中最新创立或修 改的小说章节的信息。

具体地,上述步骤S100中,检测小说网站所包括的小说章节列表页, 包括以下步骤S101和S102:

S101、选取至少一个小说网站。

本实施例之中选取小说网站的方法,能够是通过网络蜘蛛抓取多个网站 的数据,根据抓取的数据由人工配置的,比如由人工配置地选择知名的那些 小说站点。另外,通过网络蜘蛛抓取网站的数据,也能筛选得到一些创立时 间比较短的网站,可以通过自动的网页结构分析得出其是否是小说网站,例 如,监测网站中是否包括多个小说章节列表页,若监测到存在多个小说章节 列表页,则判断该网站是小说网站,进一步地通过网络蜘蛛抓取小说网站一 定时间周期,若发现其网络性能比较稳定,网络文件更新频率足够高,可以 将其作为步骤S101之中选取的小说网站。

S102、对小说网站域名下的网页分别进行结构分析,若网页中包括多个 平行的a标签,则判断该网页为小说章节列表页。其中,a标签是用于定义 超链接的标签。

其中,步骤S102所依据的事实是,小说章节列表页中包括有多个平行 的a标签,因此,通过执行步骤S102,对小说网站域名下的网页进行结构分 析,能够得到章节列表页。参阅图6可知,小说章节列表页中包括有多个平 行的a标签。

更具体地,参阅图6可知,小说章节列表页中包括的多个平行的a标签 的指向链接href(Hypertext Reference,超文本引用)存在高度类似关系,目 录相同而只有文件名不同。例如,图6之中的各个a标签的href属性包含的 目录4_4599均相同,而href属性包含的文件名不同,即由980818至980972, 均不相同。

参阅图6可知,小说章节列表页中包括的多个平行的a标签包括章节字 段,其中章节字段包括章节表征关键字和/或章节数。例如,图6之中,各个 a标签包括章节表征关键字“章”,当然章节表征关键字也能够包括“卷”、 “节”、“章节”等等。图6之中,各个a标签包括章节数“一”、“二”,至“二 十九”,当然章节数也能够以数字的形式保存,例如,章节数也能够是“1”、 “2”、“29”等等。

因此,步骤S120之中的定期分析小说章节列表页而记录小说章节列表 页中最新创立或修改的小说章节的信息包括至少三种方法:

(一)、定期获取平行的a标签对应的HTML序号,根据对应的HTML 序号最大的a标签记录小说章节列表页中最新创立或修改的小说章节的信 息。例如,参阅图6,平行的a标签文件名不同,不同的文件名分别对应于 HTML序号,对应的HTML序号(例如,图6之中的980818至980972)最 大的a标签所链接到的小说文件是最新创立或修改的小说章节,通过获取对 应的HTML序号最大的a标签能够记录小说章节列表页中最新创立或修改的 小说章节的信息(例如章节字段、名称、修改时间等等)。

(二)、定期获取所述平行的a标签对应的文件的创立时间或修改时间, 根据对应的创立时间或修改时间最晚的a标签记录所述小说章节列表页中最 新创立或修改的小说章节的信息。通过文件的创立时间或修改时间,当然能 够获取最新创立或修改的小说章节,通过对应的a标签,记录小说章节列表 页中最新创立或修改的小说章节的信息(例如章节字段、名称、修改时间等 等)。

(三)、定期获取所述平行的a标签包括的章节字段,选择对应的章节数 最大的a标签,根据所选择的a标签记录所述小说章节列表页中最新创立或 修改的小说章节的信息。

例如,参阅图6,平行的a标签包括章节字段,其中章节字段包括章节 表征关键字和/或章节数(例如,图6之中,各个a标签包括章节表征关键字 “章”,各个a标签包括章节数“一”、“二”,至“二十九”),章节数最大的 a标签所链接的小说文件就是最新的小说章节,通过选择对应的章节数最大 的a标签,根据所选择的a标签能够记录小说章节列表页中最新创立或修改 的小说章节的信息(例如章节字段、名称、修改时间等等)。

具体地,选择对应的章节数最大的a标签的方法是,首先将以中文数字 形式保存的章节数转换为阿拉伯数字形式(例如,将图6之中的章节数“一”、 “二”,转换为“1”、“2”等);第二步则是筛选章节表征关键字,例如若章 节字段的形式为“第XXX章”则章节表征关键字是“章”,若章节字段的形 式为“第XXX卷第XXX章”则章节表征关键字是“卷”和“章”;第三步, 若章节字段仅包括一个章节表征关键字(例如章节字段的形式为“第XXX 章”),则从按照阿拉伯数字形式的章节数之中选取最大的并选取对应的a标 签;若章节字段包括多于一个的章节表征关键字(例如章节字段的形式为“第 XXX卷第XXX章”),则先按照最靠前的章节表征关键字对应的章节数选择 章节数最大的a标签,进一步按照在后的章节表征关键字对应的章节数选择 章节数最大的a标签,直至按照最靠后的章节表征关键字对应的章节数选择 章节数最大的a标签(例如,先根据“第XXX卷”中的数字排序,然后根 据“第XXX章”的数字排序)。

进一步地,方法还包括(图1未示):在检测小说网站所包括的小说章节 列表页之后,保存小说章节列表页。通过保存小说章节列表页,能够供维护 人员或者使用者浏览已经进行上述页面分析的小说章节列表页,也能够供搜 索引擎判断搜索结果是否包括已经进行上述页面分析的小说章节列表页。

依据本发明的一个方面,提供了一种用于记录最新的网络文件的装置, 图2示出了根据本发明一个实施例的用于记录最新的网络文件的装置的框 图。用于记录最新的网络文件的装置包括列表页检测单元100和最新章节记 录单元200。

本实施例的列表页检测单元100适于检测小说网站所包括的小说章节列 表页。

最新章节记录单元200适于定期分析小说章节列表页而记录小说章节列 表页中最新创立或修改的小说章节的信息。

更具体地,列表页检测单元100适于选取至少一个小说网站;对小说网 站域名下的网页分别进行结构分析,若网页中包括多个平行的a标签,则判 断该网页为小说章节列表页。其中,小说章节列表页中包括的多个平行的a 标签对应的文件目录相同且包括章节字段,其中章节字段包括章节表征关键 字和/或章节数。

更具体地,参阅图6可知,小说章节列表页中包括的多个平行的a标签 的指向链接href(Hypertext Reference,超文本引用)存在高度类似关系,目 录相同而只有文件名不同。例如,图6之中的各个a标签的href属性包含的 目录4_4599均相同,而href属性包含的文件名不同,即由980818至980972, 均不相同。参阅图6可知,小说章节列表页中包括的多个平行的a标签包括 章节字段,其中章节字段包括章节表征关键字和/或章节数。例如,图6之中, 各个a标签包括章节表征关键字“章”,当然章节表征关键字也能够包括“卷”、 “节”、“章节”等等。图6之中,各个a标签包括章节数“一”、“二”,至“二 十九”,当然章节数也能够以数字的形式保存,例如,章节数也能够是“1”、 “2”、“29”等等。

由于小说章节列表页中包括有多个平行的a标签,因此,列表页检测单 元100通过分析网页中是否包括多个平行的a标签而对小说网站域名下的网 页进行结构分析,能够得到章节列表页。

本实施例之中列表页检测单元100选取小说网站的方法,能够是通过网 络蜘蛛抓取多个网站的数据,根据抓取的数据由人工配置的,比如由人工配 置地选择知名的那些小说站点。另外,通过网络蜘蛛抓取网站的数据,也能 筛选得到一些创立时间比较短的网站,可以通过自动的网页结构分析得出其 是否是小说网站,例如,监测网站中是否包括多个小说章节列表页,若监测 到存在多个小说章节列表页,则判断该网站是小说网站,进一步地通过网络 蜘蛛抓取小说网站一定时间周期,若发现其网络性能比较稳定,网络文件更 新频率足够高,可以将其作为列表页检测单元100选取的小说网站。

本实施例的最新章节记录单元200适于定期获取所述平行的a标签对应 的HTML序号,根据对应的HTML序号最大的a标签记录所述小说章节列 表页中最新创立或修改的小说章节的信息。例如,参阅图6,平行的a标签 文件名不同,不同的文件名分别对应于HTML序号,对应的HTML序号(例 如,图6之中的980818至980972)最大的a标签所链接到的小说文件是最 新创立或修改的小说章节,最新章节记录单元200通过获取对应的HTML序 号最大的a标签能够记录小说章节列表页中最新创立或修改的小说章节的信 息(例如章节字段、名称、修改时间等等)。

或者,最新章节记录单元200,适于定期获取所述平行的a标签对应的 文件的创立时间或修改时间,根据对应的创立时间或修改时间最晚的a标签 记录所述小说章节列表页中最新创立或修改的小说章节的信息。通过文件的 创立时间或修改时间,当然能够获取最新创立或修改的小说章节,最新章节 记录单元200通过对应的a标签,记录小说章节列表页中最新创立或修改的 小说章节的信息(例如章节字段、名称、修改时间等等)。

或者,最新章节记录单元200适于定期获取所述平行的a标签包括的章 节字段,选择对应的章节数最大的a标签,根据所选择的a标签记录所述小 说章节列表页中最新创立或修改的小说章节的信息。

具体地,最新章节记录单元200适于首先将以中文数字形式保存的章节 数转换为阿拉伯数字形式(例如,将图6之中的章节数“一”、“二”,转换为 “1”、“2”等);最新章节记录单元200进一步适于筛选章节表征关键字,例 如若章节字段的形式为“第XXX章”则章节表征关键字是“章”,若章节字 段的形式为“第XXX卷第XXX章”则章节表征关键字是“卷”和“章”; 最新章节记录单元200还适于判断章节字段所包括的章节表征关键字的数 目,若章节字段仅包括一个章节表征关键字(例如章节字段的形式为“第XXX 章”),则从按照阿拉伯数字形式的章节数之中选取最大的并选取对应的a标 签;若章节字段包括多于一个的章节表征关键字(例如章节字段的形式为“第 XXX卷第XXX章”),则先按照最靠前的章节表征关键字对应的章节数选择 章节数最大的a标签,进一步按照在后的章节表征关键字对应的章节数选择 章节数最大的a标签,直至按照最靠后的章节表征关键字对应的章节数选择 章节数最大的a标签(例如,先根据“第XXX卷”中的数字排序,然后根 据“第XXX章”的数字排序)。

较佳地,本实施例的用于记录最新的网络文件的装置进一步包括列表页 保存单元300。列表页保存单元300适于保存小说章节列表页。通过保存小 说章节列表页,能够供维护人员或者使用者浏览已经进行上述页面分析的小 说章节列表页,也能够供搜索引擎判断搜索结果是否包括已经进行上述页面 分析的小说章节列表页。

依据本发明的另一个方面,提供了一种用于修改搜索结果的方法,图3 示出了根据本发明一个实施例的用于修改搜索结果的方法的流程图。其中, 该方法包括如下步骤S300和S320:

S300、选取至少一个小说章节列表页中最新创立或修改的小说章节的信 息。

S320、在根据用户的搜索请求得到搜索结果时,判断搜索结果中是否存 在上述的小说章节列表页,如果存在则将所述小说章节列表页中最新创立或 修改的小说章节的信息加入所述搜索结果。

通过记录小说章节列表页中最新创立或修改的小说章节的信息,以及在 得到搜索结果时,判断搜索结果中若存在已记录的小说章节列表页则将最新 创立或修改的小说章节的信息加入搜索结果,使得搜索结果直接就包括了最 新创立或修改的小说章节的信息。对于使用者而言,能够直接获得最新创立 或修改的小说章节的信息。

较佳地,将小说章节列表页中最新创立或修改的小说章节的信息加入所 述搜索结果,包括:将最新创立或修改的小说章节的链接加入所述小说章节 列表页对应的搜索结果的条目中。换言之,最新创立或修改的小说章节的信 息,可以以超链接的形式加入搜索结果,使用者点击超链接就可以阅读最新 的小说章节。参阅图7以及图8之中显示的超链接“第五百章气势凌人”可 知,超链接在网页页面的显示内容,包括章节号码和名称等,还能够包括修 改网络文件的日期。

较佳地,将小说章节列表页中最新创立或修改的小说章节的信息加入搜 索结果,进一步包括:将最新创立或修改的小说章节的创立时间或修改时间 加入所述小说章节列表页对应的搜索结果的条目中。具体地,图7之中显示 的“更新时间:2013-12-31”以及图8之中显示的“更新时间:三天前”是 最新创立或修改的小说章节的创立时间或修改时间。

进一步地,本实施例还包括:在检测小说网站所包括的小说章节列表页 之后,保存小说章节列表页。通过保存小说章节列表页,能够供维护人员或 者使用者浏览已经进行上述页面分析的小说章节列表页,也能够供搜索引擎 判断搜索结果是否包括已经进行上述页面分析的小说章节列表页。

图4示出了根据本发明一个实施例的用于修改搜索结果的方法的详细的 流程图。包括如下所示的步骤S301、S302、S321和S322:

S301、检测小说网站所包括的小说章节列表页。

S302、定期分析小说章节列表页而记录小说章节列表页中最新创立或修 改的小说章节的信息。

S321、根据用户的搜索请求得到搜索结果。较佳地,可以通过调用现有 的搜索引擎单元,接收用户输入的搜索请求,进而得到搜索结果。

S322、判断搜索结果中是否存在上述的小说章节列表页,如果存在则将 小说章节列表页中最新创立或修改的小说章节的信息加入搜索结果。本实施 例之中,判断步骤S321之中得到的搜索结果之中,是否包括步骤S302之中 已经分析的小说章节列表页,如果存在则将小说章节列表页中最新创立或修 改的小说章节的信息加入使用现有搜索单元引擎搜索得到的搜索结果,用户 能够通过搜索结果页面直接得知最新创立或修改的小说章节。

其中,步骤S301和步骤S302是图3所示的步骤S300的详细的流程; 步骤S321和步骤S322是图3所示的步骤S320的详细的流程。

其中,步骤S301的检测小说网站所包括的小说章节列表页,具体包括: 选取至少一个小说网站。对所述小说网站域名下的网页分别进行结构分析, 若网页中包括多个平行的a标签,则判断该网页为小说章节列表页。其中, 小说章节列表页中包括的多个平行的a标签对应的文件目录相同且包括章节 字段,其中所述章节字段包括章节表征关键字和/或章节数。关于步骤S301 的更具体的方法,与图1所示步骤S100大致相同,不再重复。

其中,步骤S302的定期分析小说章节列表页而记录小说章节列表页中 最新创立或修改的小说章节的信息,具体包括:定期获取所述平行的a标签 对应的HTML序号,根据对应的HTML序号最大的a标签记录所述小说章 节列表页中最新创立或修改的小说章节的信息;或,定期获取所述平行的a 标签对应的文件的创立时间或修改时间,根据对应的创立时间或修改时间最 晚的a标签记录所述小说章节列表页中最新创立或修改的小说章节的信息; 或,定期获取所述平行的a标签包括的章节字段,选择对应的章节数最大的 a标签,根据所选择的a标签记录所述小说章节列表页中最新创立或修改的 小说章节的信息。关于步骤S302的更具体的方法,与图1所示步骤S120大 致相同,不再重复。

依据本发明的另一个方面,提供了一种用于修改搜索结果的装置。图5 示出了根据本发明一个实施例的用于修改搜索结果的装置的框图。其中,该 装置包括章节选择模块100和结果修改模块200。

其中,章节选择模块100适于选取至少一个小说章节列表页中最新创立 或修改的小说章节的信息。

结果修改模块200适于在根据用户的搜索请求得到搜索结果时,判断搜 索结果中是否存在上述的小说章节列表页,如果存在则将所述小说章节列表 页中最新创立或修改的小说章节的信息加入所述搜索结果。

通过章节选择模块100记录小说章节列表页中最新创立或修改的小说章 节的信息,以及结果修改模块200在得到搜索结果时,判断搜索结果中若存 在已记录的小说章节列表页则将最新创立或修改的小说章节的信息加入搜索 结果,使得搜索结果直接就包括了最新创立或修改的小说章节的信息。对于 使用者而言,能够直接获得最新创立或修改的小说章节的信息。

更具体地,本实施例的章节选择模块100包括列表页检测单元110和最 新章节记录单元120。列表页检测单元110适于检测小说网站所包括的小说 章节列表页。最新章节记录单元120适于定期分析小说章节列表页而获取小 说章节列表页中最新创立或修改的小说章节的信息。本实施例的章节选择模 块100进一步包括列表页保存单元130,列表页保存单元130适于保存所述 小说章节列表页。通过保存小说章节列表页,能够供维护人员或者使用者浏 览已经进行上述页面分析的小说章节列表页,也能够供结果修改模块200判 断搜索结果是否包括已经进行上述页面分析的小说章节列表页。

较佳地,列表页检测单元110适于选取至少一个小说网站;对小说网站 域名下的网页分别进行结构分析,若网页中包括多个平行的a标签,则判断 该网页为小说章节列表页。其中,参阅图6可知,小说章节列表页中包括的 多个平行的a标签对应的文件目录相同且包括章节字段,其中所述章节字段 包括章节表征关键字和/或章节数。由于小说章节列表页中包括有多个平行的 a标签,因此,列表页检测单元110通过分析网页中是否包括多个平行的a 标签而对小说网站域名下的网页进行结构分析,能够得到章节列表页。

本实施例之中列表页检测单元110选取小说网站的方法,能够是通过网 络蜘蛛抓取多个网站的数据,根据抓取的数据由人工配置的,比如由人工配 置地选择知名的那些小说站点。另外,通过网络蜘蛛抓取网站的数据,也能 筛选得到一些创立时间比较短的网站,可以通过自动的网页结构分析得出其 是否是小说网站,例如,监测网站中是否包括多个小说章节列表页,若监测 到存在多个小说章节列表页,则判断该网站是小说网站,进一步地通过网络 蜘蛛抓取小说网站一定时间周期,若发现其网络性能比较稳定,网络文件更 新频率足够高,可以将其作为列表页检测单元110选取的小说网站。

本实施例的最新章节记录单元120适于定期获取所述平行的a标签对应 的HTML序号,根据对应的HTML序号最大的a标签记录所述小说章节列 表页中最新创立或修改的小说章节的信息。例如,参阅图6,平行的a标签 文件名不同,不同的文件名分别对应于HTML序号,对应的HTML序号(例 如,图6之中的980818至980972)最大的a标签所链接到的小说文件是最 新创立或修改的小说章节,最新章节记录单元120通过获取对应的HTML序 号最大的a标签能够记录小说章节列表页中最新创立或修改的小说章节的信 息(例如章节字段、名称、修改时间等等)。

或者,最新章节记录单元120适于定期获取所述平行的a标签对应的文 件的创立时间或修改时间,根据对应的创立时间或修改时间最晚的a标签记 录所述小说章节列表页中最新创立或修改的小说章节的信息。通过文件的创 立时间或修改时间,当然能够获取最新创立或修改的小说章节,最新章节记 录单元120通过对应的a标签,记录小说章节列表页中最新创立或修改的小 说章节的信息(例如章节字段、名称、修改时间等等)。

或者,最新章节记录单元120适于定期获取所述平行的a标签包括的章 节字段,选择对应的章节数最大的a标签,根据所选择的a标签记录所述小 说章节列表页中最新创立或修改的小说章节的信息。具体地,最新章节记录 单元120适于首先将以中文数字形式保存的章节数转换为阿拉伯数字形式 (例如,将图6之中的章节数“一”、“二”,转换为“1”、“2”等);最新章 节记录单元120进一步适于筛选章节表征关键字,例如若章节字段的形式为 “第XXX章”则章节表征关键字是“章”,若章节字段的形式为“第XXX 卷第XXX章”则章节表征关键字是“卷”和“章”;最新章节记录单元120 还适于判断章节字段所包括的章节表征关键字的数目,若章节字段仅包括一 个章节表征关键字(例如章节字段的形式为“第XXX章”),则从按照阿拉 伯数字形式的章节数之中选取最大的并选取对应的a标签;若章节字段包括 多于一个的章节表征关键字(例如章节字段的形式为“第XXX卷第XXX 章”),则先按照最靠前的章节表征关键字对应的章节数选择章节数最大的a 标签,进一步按照在后的章节表征关键字对应的章节数选择章节数最大的a 标签,直至按照最靠后的章节表征关键字对应的章节数选择章节数最大的a 标签(例如,先根据“第XXX卷”中的数字排序,然后根据“第XXX章” 的数字排序)。

具体地,本实施例的结果修改模块200,适于根据用户的搜索请求得到 搜索结果,以及判断搜索结果中是否存在上述的小说章节列表页,如果存在 则将小说章节列表页中最新创立或修改的小说章节的信息加入搜索结果。较 佳地,结果修改模块200可以通过调用现有的搜索引擎单元(图未示),接收 用户输入的搜索请求,进而得到搜索结果。

本实施例的结果修改模块200适于将最新创立或修改的小说章节的链接 加入小说章节列表页对应的搜索结果的条目中。换言之,结果修改模块200 可以将最新创立或修改的小说章节的信息,以超链接的形式加入搜索结果, 使用者点击超链接就可以阅读最新的小说章节。参阅图7以及图8之中显示 的超链接“第五百章气势凌人”可知,超链接在网页页面的显示内容,包括 章节号码和名称等,当然还能够包括修改网络文件的日期。

结果修改模块200进一步适于将最新创立或修改的小说章节的创立时间 或修改时间加入小说章节列表页对应的搜索结果的条目中。具体地,图7之 中显示的“更新时间:2013-12-31”以及图8之中显示的“更新时间:三天 前”是最新创立或修改的小说章节的创立时间或修改时间。

图6示出了小说章节列表页的源代码示意图,显示了一个小说章节列表 页的源代码,显示了小说章节列表页中包括的多个平行的a标签,多个平行 的a标签的指向链接href存在高度类似关系,目录相同而只有文件名不同, 多个平行的a标签包括章节字段,其中章节字段包括章节表征关键字和/或章 节数。其中,平行的a标签文件名不同,不同的文件名分别对应于HTML序 号,对应的HTML序号(例如,图6之中的980818至980972)最大的a标 签所链接到的小说文件是最新创立或修改的小说章节;平行的a标签包含的 章节数均不相同,章节数最大的a标签所链接的小说文件就是最新的小说章 节。

图7示出了使用本发明的用于修改搜索结果的方法和装置而获取的搜索 结果的一示意图。图8示出了使用本发明的用于修改搜索结果的方法和装置 而获取的搜索结果的另一示意图。图7和图8显示了使用者使用搜索引擎搜 索得到的结果中,如果包含已经经过分析并选取了最新创立或修改的小说章 节的小说列表页,则将小说章节列表页中最新创立或修改的小说章节的信息 加入搜索结果。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固 有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述, 构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定 编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容, 并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本 发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未 详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个 或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时 被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开 的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求 中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映 的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循 具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利 要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自 适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以 把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可 以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者 单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴 随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或 者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相 似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其 它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组 合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权 利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使 用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理 器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当 理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据 本发明实施例的用于记录最新的网络文件的装置以及用于修改搜索结果的装 置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执 行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机 程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介 质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网 站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实 施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要 求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于 元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以 借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在 列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个 硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。 可将这些单词解释为名称。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号