首页> 中国专利> 章节式文本的章节完整性的识别方法和装置

章节式文本的章节完整性的识别方法和装置

摘要

本发明提供了一种章节式文本的章节完整性的识别方法和装置,该方法包括:从多个站点分别识别出章节式文本的目录页以及多个内容页,其中,每个站点对应一个目录页,每个目录页对应多个内容页;根据每个目录页对应的多个内容页,确定所述章节式文本在不同站点上的目录页集合;分析所述目录页集合中各目录页和/或各目录页对应的内容页,根据分析得到的结果识别出所述目录页集合中各目录页的章节完整性。本发明提供的技术方案能够灵活、快速地识别章节式文本的章节完整性,并且识别结果准确、客观。

著录项

  • 公开/公告号CN104317903A

    专利类型发明专利

  • 公开/公告日2015-01-28

    原文格式PDF

  • 申请/专利号CN201410578534.2

  • 发明设计人 魏少俊;郑燕琴;

    申请日2014-10-24

  • 分类号G06F17/30;G06F17/27;

  • 代理机构北京智汇东方知识产权代理事务所(普通合伙);

  • 代理人康正德

  • 地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)

  • 入库时间 2023-12-17 04:14:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-09

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2014105785342 登记生效日:20220727 变更事项:专利权人 变更前权利人:北京奇虎科技有限公司 变更后权利人:北京奇虎科技有限公司 变更事项:地址 变更前权利人:100088 北京市西城区新街口外大街28号D座112室(德胜园区) 变更后权利人:100015 北京市朝阳区酒仙桥路6号院2号楼1至19层104号内8层801 变更事项:专利权人 变更前权利人:奇智软件(北京)有限公司 变更后权利人:

    专利申请权、专利权的转移

  • 2017-10-13

    授权

    授权

  • 2015-02-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141024

    实质审查的生效

  • 2015-01-28

    公开

    公开

说明书

技术领域

本发明涉及互联网技术领域,特别是一种章节式文本的章节完整性的识别 方法和装置。

背景技术

随着计算机和计算机网络的日益普及,互联网已经深入到人们工作、学习 和生活的各个领域,成为人们发布和获取信息的重要途径。

目前,章节式文本在互联网中大量存在,且同一文本可能被不同网站大量 转载,由于转载时受到一些客观因素的影响,可能导致在一些网站该文本的内 容并不完整,甚至出现内容虚假的情况。以小说文本为例,小说阅读是互联网 用户的一种强需求,尤其在移动设备上更占有不小的需求比重。小说类网站大 量存在,质量却良莠不齐,同一本网络小说会被不同网站大量转载,但受一些 客观因素的影响,可能会导致在一些网站上该本小说的内容并不完整(如缺少 章节),甚至内容虚假(拼凑虚假章节)。搜索引擎在索引这些小说站点时, 需要对小说的章节完整性做出判断,尽量给用户呈现内容完整的站点,提高用 户获取小说内容的质量,提升用户体验。

相关技术中,通过对不同小说站点人工配置模板进行章节完整性判断,该 方法虽然准确率很高,但是缺点也很明显:人力能覆盖的网站有限,不够智能, 对于网站模板变化的响应不及时。因而,如何灵活、快速以及准确地识别章节 式文本的章节完整性成为目前亟待解决的技术问题。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决上述问题的章节式文本的章节完整性的识别方法和相应的装置。

依据本发明的一个方面,提供了一种章节式文本的章节完整性的识别方 法,包括:从多个站点分别识别出章节式文本的目录页以及多个内容页,其中, 每个站点对应一个目录页,每个目录页对应多个内容页;根据每个目录页对应 的多个内容页,确定所述章节式文本在不同站点上的目录页集合;分析所述目 录页集合中各目录页和/或各目录页对应的内容页,根据分析得到的结果识别出 所述目录页集合中各目录页的章节完整性。

可选地,根据每个目录页对应的多个内容页,确定所述章节式文本在不同 站点上的目录页集合,包括:计算每两个目录页对应的内容页之间的交集,并 作为每两个目录页的交集;根据每两个目录页的交集,确定所述章节式文本在 不同站点上的目录页集合。

可选地,所述计算每两个目录页对应的内容页之间的交集,包括:提取多 个目录页对应的内容页中每个内容页的文本特征向量;将具备相同文本特征向 量的内容页进行聚类,生成多个内容页分组;根据所述多个内容页分组、以及 每个目录页与其对应的内容页的映射关系,计算每两个目录页对应的内容页之 间的交集。

可选地,根据每两个目录页的交集,确定所述章节式文本在不同站点上的 目录页集合,包括:将交集的元素个数大于或等于预设阈值的每两个目录页进 行合并,得到合并结果;将所述合并结果作为所述章节式文本在不同站点上的 目录页集合。

可选地,分析所述目录页集合中各目录页和/或各目录页对应的内容页,根 据分析得到的结果识别出所述目录页集合中各目录页的章节完整性,包括:计 算所述目录页集合中每两个目录页的交集的元素个数的平均值;若某一目录页 与所述目录页集合中多个其他目录页的交集的元素的个数均小于所述平均值, 则确定该目录页对应的章节不完整。

可选地,分析所述目录页集合中各目录页和/或各目录页对应的内容页,根 据分析得到的结果识别出所述目录页集合中各目录页的章节完整性,包括:若 某一目录页对应的内容页包含有所述目录页集合中多个其他目录页对应的内 容页,且该目录页对应的内容页中还存在其他内容页,则确定所述其他内容页 为最新章节的内容页,且该目录页具备持续贡献新章节的能力。

可选地,分析所述目录页集合中各目录页和/或各目录页对应的内容页,根 据分析得到的结果识别出所述目录页集合中各目录页的章节完整性,包括:若 某一目录页对应的某个内容页未存在于所述目录页集合中其他目录页对应的 内容页中,且该内容页长度不属于该目录页对应的内容页的平均长度对应的区 间范围,则确定该内容页为虚假的内容页。

可选地,分析所述目录页集合中各目录页和/或各目录页对应的内容页,根 据分析得到的结果识别出所述目录页集合中各目录页的章节完整性,包括:若 某一目录页对应的某个内容页未存在于所述目录页集合中其他目录页对应的 内容页中,该内容页长度属于该目录页对应的内容页的平均长度对应的区间范 围,且该目录页不具备持续贡献新章节的能力,则确定该内容页为虚假的内容 页。

可选地,所述从多个站点分别识别出章节式文本的目录页以及多个内容 页,包括:从多个站点搜索到章节式文本相关的网页;从搜索到的网页中识别 出所述章节式文本的目录页以及多个内容页。

可选地,从搜索到的网页中识别出所述章节式文本的目录页以及多个内容 页,包括:将搜索到的网页解析成文本对象模型树结构;对所述文本对象模型 树结构中的各结点进行分类,以确定所述网页的结构分块;根据所述结构分块 抽取所述章节式文本的目录页以及多个内容页。

依据本发明的另一个方面,还提供了一种章节式文本的章节完整性的识别 装置,包括:

获取模块,适于从多个站点分别识别出章节式文本的目录页以及多个内容 页,其中,每个站点对应一个目录页,每个目录页对应多个内容页;

确定模块,适于根据每个目录页对应的多个内容页,确定所述章节式文本 在不同站点上的目录页集合;

识别模块,适于分析所述目录页集合中各目录页和/或各目录页对应的内容 页,根据分析得到的结果识别出所述目录页集合中各目录页的章节完整性。

可选地,所述确定模块还适于:计算每两个目录页对应的内容页之间的交 集,并作为每两个目录页的交集;根据每两个目录页的交集,确定所述章节式 文本在不同站点上的目录页集合。

可选地,所述确定模块还适于:提取多个目录页对应的内容页中每个内容 页的文本特征向量;将具备相同文本特征向量的内容页进行聚类,生成多个内 容页分组;根据所述多个内容页分组、以及每个目录页与其对应的内容页的映 射关系,计算每两个目录页对应的内容页之间的交集。

可选地,所述确定模块还适于:将交集的元素个数大于或等于预设阈值的 每两个目录页进行合并,得到合并结果;将所述合并结果作为所述章节式文本 在不同站点上的目录页集合。

可选地,所述识别模块还适于:计算所述目录页集合中每两个目录页的交 集的元素的个数的平均值;若某一目录页与所述目录页集合中多个其他目录页 的交集的元素的个数均小于所述平均值,则确定该目录页对应的章节不完整。

可选地,所述识别模块还适于:若某一目录页对应的内容页包含有所述目 录页集合中多个其他目录页对应的内容页,且该目录页对应的内容页中还存在 其他内容页,则确定所述其他内容页为最新章节的内容页,且该目录页具备持 续贡献新章节的能力。

可选地,所述识别模块还适于:若某一目录页对应的某个内容页未存在于 所述目录页集合中其他目录页对应的内容页中,且该内容页长度不属于该目录 页对应的内容页的平均长度对应的区间范围,则确定该内容页为虚假的内容 页。

可选地,所述识别模块还适于:若某一目录页对应的某个内容页未存在于 所述目录页集合中其他目录页对应的内容页中,该内容页长度属于该目录页对 应的内容页的平均长度对应的区间范围,且该目录页不具备持续贡献新章节的 能力,则确定该内容页为虚假的内容页。

可选地,所述获取模块还适于:从多个站点搜索到章节式文本相关的网页; 从搜索到的网页中识别出所述章节式文本的目录页以及多个内容页。

可选地,所述获取模块还适于:将搜索到的网页解析成文本对象模型树结 构;对所述文本对象模型树结构中的各结点进行分类,以确定所述网页的结构 分块;根据所述结构分块抽取所述章节式文本的目录页以及多个内容页。

依据本发明提供的技术方案,从多个站点分别识别出章节式文本的目录页 以及多个内容页,进而根据每个目录页对应的多个内容页,确定章节式文本在 不同站点上的目录页集合。随后分析目录页集合中各目录页和/或各目录页对应 的内容页,根据分析得到的结果识别出目录页集合中各目录页的章节完整性。 由此可见,本发明实现了对数据源(多个站点上章节式文本的目录页以及多个 内容页)的获取、目录页集合的确定以及对目录页集合的分析三者的自动化地 处理,从而解决相关技术中通过人工配置模板进行章节完整性判断导致效率低 的问题。并且,本发明能够灵活地获取数据源,进而确定目录页集合,对目录 页集合进行分析,解决了相关技术中网站模板变化的响应不及时的问题。此外, 目录页和内容页能够准确、客观地反映章节式文本的章节完整性,本发明有针 对性地分析章节式文本在不同站点上的目录页集合中各目录页和/或各目录页 对应的内容页,进而根据分析得到的结果识别出目录页集合中各目录页的章节 完整性,使得识别结果更加准确。综上,本发明提供的技术方案能够灵活、快 速地识别章节式文本的章节完整性,并且识别结果准确、客观。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、 特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会 更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领 域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并 不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的 部件。在附图中:

图1示出了根据本发明一个实施例的章节式文本的章节完整性的识别方法 的流程图;以及

图2示出了根据本发明一个实施例的章节式文本的章节完整性的识别装置 的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被 这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本 公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题,本发明实施例提供了一种章节式文本的章节完整性 的识别方法,图1示出了根据本发明一个实施例的章节式文本的章节完整性的 识别方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S106。

步骤S102、从多个站点分别识别出章节式文本的目录页以及多个内容页, 其中,每个站点对应一个目录页,每个目录页对应多个内容页。

步骤S104、根据每个目录页对应的多个内容页,确定章节式文本在不同站 点上的目录页集合。

步骤S106、分析目录页集合中各目录页和/或各目录页对应的内容页,根 据分析得到的结果识别出目录页集合中各目录页的章节完整性。

依据本发明提供的技术方案,从多个站点分别识别出章节式文本的目录页 以及多个内容页,进而根据每个目录页对应的多个内容页,确定章节式文本在 不同站点上的目录页集合。随后分析目录页集合中各目录页和/或各目录页对应 的内容页,根据分析得到的结果识别出目录页集合中各目录页的章节完整性。 由此可见,本发明实现了对数据源(多个站点上章节式文本的目录页以及多个 内容页)的获取、目录页集合的确定以及对目录页集合的分析三者的自动化地 处理,从而解决相关技术中通过人工配置模板进行章节完整性判断导致效率低 的问题。并且,本发明能够灵活地获取数据源,进而确定目录页集合,对目录 页集合进行分析,解决了相关技术中网站模板变化的响应不及时的问题。此外, 目录页和内容页能够准确、客观地反映章节式文本的章节完整性,本发明有针 对性地分析章节式文本在不同站点上的目录页集合中各目录页和/或各目录页 对应的内容页,进而根据分析得到的结果识别出目录页集合中各目录页的章节 完整性,使得识别结果更加准确。综上,本发明提供的技术方案能够灵活、快 速地识别章节式文本的章节完整性,并且识别结果准确、客观。

上文步骤S102中提及的章节式文本是指由若干章节组成的文本,如小说、 论文等。目录页是指章节式文本的目录,例如用户搜索小说时,通常要找的是 小说的目录页。内容页是指章节式文本某一章节的具体内容。本发明提供了一 种从多个站点分别识别出章节式文本的目录页以及多个内容页的优选方案,在 该方案中可以从多个站点搜索到章节式文本相关的网页,进而从搜索到的网页 中识别出章节式文本的目录页以及多个内容页。

进一步地,从搜索到的网页中识别出章节式文本的目录页以及多个内容页 可以采用人工编写规则对搜索到的网页进行目录页以及内容页的识别抽取。或 者,可以基于标注的模版,每次抽取在模板库中查到最佳匹配的模板,然后使 用该模板目录页以及内容页的识别抽取。此外,为了提高识别效率,本发明还 可以将搜索到的网页解析成文本对象模型树结构,并对文本对象模型树结构中 的各结点进行分类,以确定网页的结构分块,进而根据结构分块抽取章节式文 本的目录页以及多个内容页。这里提供了一种优选的对文本对象模型树结构中 的各节点进行分类以确定网页的结构分块的方案,在该方案中,可以遍历文本 对象模型树结构,得到文本对象模型树结构中各节点的内容,进而按照预设规 则将各节点的内容输入决策树,由决策树对各节点进行分类。或者,可以遍历 文本对象模型树结构,得到文本对象模型树结构中各节点的维度特征,进而按 照预设规则将各节点的维度特征输入决策树,由决策树对各节点进行分类。

决策树是在已知各种分块中各种维度特征的统计数据的基础上,通过训练 决策树利用各结点的维度特征得出各结点对应的分块类型。下面将详细介绍决 策树对网页的文本对象模型树结构中各节点进行分类,以确定网页的结构分块 的方案。

首先,确定用于分块的维度特征,在本发明实施例中,可以使用的维度特 征多达105个,主要涉及以下内容:文本长度、超链接个数、超链接文本长度、 高亮文本长度(包括加大加粗的文字)、中文字符长度、英文字符长度、数字 字符长度、特定关键词、特定标点符号等等。即一种类型的块可以由该105个 维度特征中的一个或多个特征取特定的值来确定。需要说明的是,根据实际情 况所确定的维度特征并不限于105个,在后续过程中还可以进行扩充。

其次,将确定的用于分块的维度特征输入决策树,用于训练构建决策树。

再者,按照预设规则将网页的文本对象模型树结构中各节点的内容输入决 策树,由决策树分析各节点的内容,得到各节点的维度特征,进而根据各节点 的维度特征对各节点进行分类。

以上详细介绍了步骤S102中获取数据源(多个站点上章节式文本的目录 页以及多个内容页)的多种实现方式,下面将介绍确定目录页集合的一种或多 种实现方式。

在上文步骤S104中根据每个目录页对应的多个内容页,确定章节式文本 在不同站点上的目录页集合,本发明提供了一种优选的方案,在该方案中计算 每两个目录页对应的内容页之间的交集,并作为每两个目录页的交集,进而根 据每两个目录页的交集,确定章节式文本在不同站点上的目录页集合。

进一步地,在本发明的优选方案中,采用聚类的思想计算每两个目录页对 应的内容页之间的交集,可以是提取多个目录页对应的内容页中每个内容页的 文本特征向量,随后将具备相同文本特征向量的内容页进行聚类,生成多个内 容页分组,进而根据多个内容页分组、以及每个目录页与其对应的内容页的映 射关系,计算每两个目录页对应的内容页之间的交集。举例来说,多个站点为 站点A、B和C,分别对应的章节式文本的目录页为目录页A、B和C。目录 页A对应的多个内容页为内容页A1、A2、A3,目录页B对应的多个内容页为 内容页B1、B2,目录页C对应的多个内容页为内容页C1、C2、C3、C4。提 取内容页A1、A2、A3、B1、B2、C1、C2、C3、C4中每个内容页的文本特征 向量分别为a、b、c、a、b’、a、b、c、d,将具备相同文本特征向量的内容页 进行聚类,生成多个内容页分组为{a,a,a},{b,b},{b’},{c,c},{d}。进 而根据多个内容页分组、以及每个目录页与其对应的内容页的映射关系,计算 每两个目录页对应的内容页之间的交集,即目录页A和目录页B对应的内容 页之间的交集为{a},目录页A和目录页C对应的内容页之间的交集为{a,b, c},目录页B和目录页C对应的内容页之间的交集为{a}。

此时,根据每两个目录页的交集,确定章节式文本在不同站点上的目录页 集合,可以是将交集的元素个数大于或等于预设阈值的每两个目录页进行合 并,得到合并结果,将合并结果作为章节式文本在不同站点上的目录页集合。 仍以上述例子为例,将每两个目录页对应的内容页之间的交集作为每两个目录 页的交集,即目录页A和目录页B的交集为{a},目录页A和目录页C的交集 为{a,b,c},目录页B和目录页C的交集为{a}。取预设阈值为1,将交集的 元素个数大于或等于1的每两个目录页进行合并,得到合并结果为目录页A、 B、C,则该章节式文本在不同站点上的目录页集合为目录页A、B、C。

在上文步骤S104根据每个目录页对应的多个内容页,确定章节式文本在 不同站点上的目录页集合之后,步骤S106分析目录页集合中各目录页和/或各 目录页对应的内容页,根据分析得到的结果识别出目录页集合中各目录页的章 节完整性。本发明提供了多种分析的方法,下面进行详细介绍。

第一种,计算目录页集合中每两个目录页的交集的元素个数的平均值,若 某一目录页与目录页集合中多个其他目录页的交集的元素的个数均小于该平 均值,则确定该目录页对应的章节不完整。以上述例子为例,目录页集合为目 录页A、B、C,目录页A和目录页B的交集的元素个数为1,目录页A和目 录页C的交集的元素个数为3,目录页B和目录页C的交集的元素个数为1, 则平均值为5/3,其中目录页B与目录页A、目录页C的个数均为1,小于平 均值5/3,则确定目录页B对应的章节不完整。

第二种,若某一目录页对应的内容页包含有目录页集合中多个其他目录页 对应的内容页,且该目录页对应的内容页中还存在其他内容页,则确定其他内 容页为最新章节的内容页,且该目录页具备持续贡献新章节的能力。这里,最 新章节是指章节式文本最新发表的章节,例如一本连载小说最新发表的章节。 小说用户通常会追书,即最新章节一经作者发表,用户就想立刻看到,最新章 节发布越快的小说站越容易受用户喜爱。以上述例子为例,目录页A对应的内 容页A1、A2、A3(其文本特征向量分别为a、b、c),目录页B对应的内容 页B1、B2(其文本特征向量分别为a、b’),目录页C对应的内容页C1、C2、 C3、C4(其文本特征向量分别为a、b、c、d)。可见,目录页A对应的内容 页包含有目录页A和目录页B对应的内容页,且目录页C还存在其他内容页 (即内容页C4),则确定内容页C4为最新章节的内容页,且目录页C具备 持续贡献新章节的能力。

第三种,若某一目录页对应的某个内容页未存在于目录页集合中其他目录 页对应的内容页中,且该内容页长度不属于该目录页对应的内容页的平均长度 对应的区间范围,则确定该内容页为虚假的内容页。以上述例子为例,目录页 A对应的内容页A1、A2、A3(其文本特征向量分别为a、b、c),目录页B 对应的内容页B1、B2(其文本特征向量分别为a、b’),目录页C对应的内 容页C1、C2、C3、C4(其文本特征向量分别为a、b、c、d)。可见,目录 页B对应的内容页B2未存在于目录页A、C对应的内容页中,若内容页B2 长度不属于目录页B对应的内容页的平均长度对应的区间范围,则确定内容页 B2为虚假的内容页。

第四种,若某一目录页对应的某个内容页未存在于目录页集合中其他目录 页对应的内容页中,该内容页长度属于该目录页对应的内容页的平均长度对应 的区间范围,且该目录页不具备持续贡献新章节的能力,则确定该内容页为虚 假的内容页。以上述例子为例,目录页A对应的内容页A1、A2、A3(其文本 特征向量分别为a、b、c),目录页B对应的内容页B1、B2(其文本特征向 量分别为a、b’),目录页C对应的内容页C1、C2、C3、C4(其文本特征向 量分别为a、b、c、d)。可见,目录页B对应的内容页B2未存在于目录页A、 C对应的内容页中,内容页B2长度属于目录页B对应的内容页的平均长度对 应的区间范围,若目录页B不具备持续贡献新章节的能力,则确定内容页B2 为虚假的内容页。

需要说明的是,以上四种分析方法可以单独用于章节完整性的分析,还可 以对这四种分析方法的任意一种或多种进行结合用于章节完整性的分析。例如 采用第一种方法确定目录页B对应的章节不完整,之后采用第三种或第四种方 法进一步分析,确定了目录页B对应的内容页B2为虚假的内容页,使得识别 结果更加准确、客观。此外,上述举例(即多个站点为站点A、B和C,分别 对应的章节式文本的目录页为目录页A、B和C。目录页A对应的多个内容页 为内容页A1、A2、A3,目录页B对应的多个内容页为内容页B1、B2,目录 页C对应的多个内容页为内容页C1、C2、C3、C4)仅仅是示意性的,并不限 制本发明。

基于同一发明构思,本发明实施例还提供了一种章节式文本的章节完整性 的识别装置,以实现上述章节式文本的章节完整性的识别方法。

图2示出了根据本发明一个实施例的章节式文本的章节完整性的识别装置 的结构示意图。参见图2,该装置至少包括:获取模块210、确定模块220以 及识别模块230。

现介绍本发明实施例的章节式文本的章节完整性的识别装置的各组成或 器件的功能以及各部分间的连接关系:

获取模块210,适于从多个站点分别识别出章节式文本的目录页以及多个 内容页,其中,每个站点对应一个目录页,每个目录页对应多个内容页;

确定模块220,与获取模块210相耦合,适于根据每个目录页对应的多个 内容页,确定所述章节式文本在不同站点上的目录页集合;

识别模块230,与确定模块220相耦合,适于分析所述目录页集合中各目 录页和/或各目录页对应的内容页,根据分析得到的结果识别出所述目录页集合 中各目录页的章节完整性。

在本发明的一个实施例中,上述确定模块220还适于:计算每两个目录页 对应的内容页之间的交集,并作为每两个目录页的交集;根据每两个目录页的 交集,确定所述章节式文本在不同站点上的目录页集合。

在本发明的一个实施例中,上述确定模块220还适于:提取多个目录页对 应的内容页中每个内容页的文本特征向量;将具备相同文本特征向量的内容页 进行聚类,生成多个内容页分组;根据所述多个内容页分组、以及每个目录页 与其对应的内容页的映射关系,计算每两个目录页对应的内容页之间的交集。

在本发明的一个实施例中,上述确定模块220还适于:将交集的元素个数 大于或等于预设阈值的每两个目录页进行合并,得到合并结果;将所述合并结 果作为所述章节式文本在不同站点上的目录页集合。

在本发明的一个实施例中,上述识别模块230还适于:计算所述目录页集 合中每两个目录页的交集的元素的个数的平均值;若某一目录页与所述目录页 集合中多个其他目录页的交集的元素的个数均小于所述平均值,则确定该目录 页对应的章节不完整。

在本发明的一个实施例中,上述识别模块230还适于:若某一目录页对应 的内容页包含有所述目录页集合中多个其他目录页对应的内容页,且该目录页 对应的内容页中还存在其他内容页,则确定所述其他内容页为最新章节的内容 页,且该目录页具备持续贡献新章节的能力。

在本发明的一个实施例中,上述识别模块230还适于:若某一目录页对应 的某个内容页未存在于所述目录页集合中其他目录页对应的内容页中,且该内 容页长度不属于该目录页对应的内容页的平均长度对应的区间范围,则确定该 内容页为虚假的内容页。

在本发明的一个实施例中,上述识别模块230还适于:若某一目录页对应 的某个内容页未存在于所述目录页集合中其他目录页对应的内容页中,该内容 页长度属于该目录页对应的内容页的平均长度对应的区间范围,且该目录页不 具备持续贡献新章节的能力,则确定该内容页为虚假的内容页。

在本发明的一个实施例中,上述获取模块210还适于:从多个站点搜索到 章节式文本相关的网页;从搜索到的网页中识别出所述章节式文本的目录页以 及多个内容页。

在本发明的一个实施例中,上述获取模块210还适于:将搜索到的网页解 析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类, 以确定所述网页的结构分块;根据所述结构分块抽取所述章节式文本的目录页 以及多个内容页。

根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能 够达到如下有益效果:

依据本发明提供的技术方案,从多个站点分别识别出章节式文本的目录页 以及多个内容页,进而根据每个目录页对应的多个内容页,确定章节式文本在 不同站点上的目录页集合。随后分析目录页集合中各目录页和/或各目录页对应 的内容页,根据分析得到的结果识别出目录页集合中各目录页的章节完整性。 由此可见,本发明实现了对数据源(多个站点上章节式文本的目录页以及多个 内容页)的获取、目录页集合的确定以及对目录页集合的分析三者的自动化地 处理,从而解决相关技术中通过人工配置模板进行章节完整性判断导致效率低 的问题。并且,本发明能够灵活地获取数据源,进而确定目录页集合,对目录 页集合进行分析,解决了相关技术中网站模板变化的响应不及时的问题。此外, 目录页和内容页能够准确、客观地反映章节式文本的章节完整性,本发明有针 对性地分析章节式文本在不同站点上的目录页集合中各目录页和/或各目录页 对应的内容页,进而根据分析得到的结果识别出目录页集合中各目录页的章节 完整性,使得识别结果更加准确。综上,本发明提供的技术方案能够灵活、快 速地识别章节式文本的章节完整性,并且识别结果准确、客观。

本发明还公开了:

A1、一种章节式文本的章节完整性的识别方法,包括:

从多个站点分别识别出章节式文本的目录页以及多个内容页,其中,每个 站点对应一个目录页,每个目录页对应多个内容页;

根据每个目录页对应的多个内容页,确定所述章节式文本在不同站点上的 目录页集合;

分析所述目录页集合中各目录页和/或各目录页对应的内容页,根据分析得 到的结果识别出所述目录页集合中各目录页的章节完整性。

A2、根据A1所述的方法,其中,根据每个目录页对应的多个内容页,确 定所述章节式文本在不同站点上的目录页集合,包括:

计算每两个目录页对应的内容页之间的交集,并作为每两个目录页的交 集;

根据每两个目录页的交集,确定所述章节式文本在不同站点上的目录页集 合。

A3、根据A1或A2所述的方法,其中,所述计算每两个目录页对应的内 容页之间的交集,包括:

提取多个目录页对应的内容页中每个内容页的文本特征向量;

将具备相同文本特征向量的内容页进行聚类,生成多个内容页分组;

根据所述多个内容页分组、以及每个目录页与其对应的内容页的映射关 系,计算每两个目录页对应的内容页之间的交集。

A4、根据A1至A3任一项所述的方法,其中,根据每两个目录页的交集, 确定所述章节式文本在不同站点上的目录页集合,包括:

将交集的元素个数大于或等于预设阈值的每两个目录页进行合并,得到合 并结果;

将所述合并结果作为所述章节式文本在不同站点上的目录页集合。

A5、根据A1至A4任一项所述的方法,其中,分析所述目录页集合中各 目录页和/或各目录页对应的内容页,根据分析得到的结果识别出所述目录页集 合中各目录页的章节完整性,包括:

计算所述目录页集合中每两个目录页的交集的元素个数的平均值;

若某一目录页与所述目录页集合中多个其他目录页的交集的元素的个数 均小于所述平均值,则确定该目录页对应的章节不完整。

A6、根据A1至A5任一项所述的方法,其中,分析所述目录页集合中各 目录页和/或各目录页对应的内容页,根据分析得到的结果识别出所述目录页集 合中各目录页的章节完整性,包括:

若某一目录页对应的内容页包含有所述目录页集合中多个其他目录页对 应的内容页,且该目录页对应的内容页中还存在其他内容页,则确定所述其他 内容页为最新章节的内容页,且该目录页具备持续贡献新章节的能力。

A7、根据A1至A6任一项所述的方法,其中,分析所述目录页集合中各 目录页和/或各目录页对应的内容页,根据分析得到的结果识别出所述目录页集 合中各目录页的章节完整性,包括:

若某一目录页对应的某个内容页未存在于所述目录页集合中其他目录页 对应的内容页中,且该内容页长度不属于该目录页对应的内容页的平均长度对 应的区间范围,则确定该内容页为虚假的内容页。

A8、根据A1至A7任一项所述的方法,其中,分析所述目录页集合中各 目录页和/或各目录页对应的内容页,根据分析得到的结果识别出所述目录页集 合中各目录页的章节完整性,包括:

若某一目录页对应的某个内容页未存在于所述目录页集合中其他目录页 对应的内容页中,该内容页长度属于该目录页对应的内容页的平均长度对应的 区间范围,且该目录页不具备持续贡献新章节的能力,则确定该内容页为虚假 的内容页。

A9、根据A1至A8任一项所述的方法,其中,所述从多个站点分别识别 出章节式文本的目录页以及多个内容页,包括:

从多个站点搜索到章节式文本相关的网页;

从搜索到的网页中识别出所述章节式文本的目录页以及多个内容页。

A10、根据A1至A9任一项所述的方法,其中,从搜索到的网页中识别出 所述章节式文本的目录页以及多个内容页,包括:

将搜索到的网页解析成文本对象模型树结构;

对所述文本对象模型树结构中的各结点进行分类,以确定所述网页的结构 分块;

根据所述结构分块抽取所述章节式文本的目录页以及多个内容页。

B11、一种章节式文本的章节完整性的识别装置,包括:

获取模块,适于从多个站点分别识别出章节式文本的目录页以及多个内容 页,其中,每个站点对应一个目录页,每个目录页对应多个内容页;

确定模块,适于根据每个目录页对应的多个内容页,确定所述章节式文本 在不同站点上的目录页集合;

识别模块,适于分析所述目录页集合中各目录页和/或各目录页对应的内容 页,根据分析得到的结果识别出所述目录页集合中各目录页的章节完整性。

B12、根据B11所述的装置,其中,所述确定模块还适于:

计算每两个目录页对应的内容页之间的交集,并作为每两个目录页的交 集;

根据每两个目录页的交集,确定所述章节式文本在不同站点上的目录页集 合。

B13、根据B11或B12所述的装置,其中,所述确定模块还适于:

提取多个目录页对应的内容页中每个内容页的文本特征向量;

将具备相同文本特征向量的内容页进行聚类,生成多个内容页分组;

根据所述多个内容页分组、以及每个目录页与其对应的内容页的映射关 系,计算每两个目录页对应的内容页之间的交集。

B14、根据B11至B13任一项所述的装置,其中,所述确定模块还适于:

将交集的元素个数大于或等于预设阈值的每两个目录页进行合并,得到合 并结果;

将所述合并结果作为所述章节式文本在不同站点上的目录页集合。

B15、根据B11至B14任一项所述的装置,其中,所述识别模块还适于:

计算所述目录页集合中每两个目录页的交集的元素的个数的平均值;

若某一目录页与所述目录页集合中多个其他目录页的交集的元素的个数 均小于所述平均值,则确定该目录页对应的章节不完整。

B16、根据B11至B15任一项所述的装置,其中,所述识别模块还适于:

若某一目录页对应的内容页包含有所述目录页集合中多个其他目录页对 应的内容页,且该目录页对应的内容页中还存在其他内容页,则确定所述其他 内容页为最新章节的内容页,且该目录页具备持续贡献新章节的能力。

B17、根据B11至B16任一项所述的装置,其中,所述识别模块还适于:

若某一目录页对应的某个内容页未存在于所述目录页集合中其他目录页 对应的内容页中,且该内容页长度不属于该目录页对应的内容页的平均长度对 应的区间范围,则确定该内容页为虚假的内容页。

B18、根据B11至B17任一项所述的装置,其中,所述识别模块还适于:

若某一目录页对应的某个内容页未存在于所述目录页集合中其他目录页 对应的内容页中,该内容页长度属于该目录页对应的内容页的平均长度对应的 区间范围,且该目录页不具备持续贡献新章节的能力,则确定该内容页为虚假 的内容页。

B19、根据B11至B18任一项所述的装置,其中,所述获取模块还适于:

从多个站点搜索到章节式文本相关的网页;

从搜索到的网页中识别出所述章节式文本的目录页以及多个内容页。

B20、根据B11至B19任一项所述的装置,其中,所述获取模块还适于:

将搜索到的网页解析成文本对象模型树结构;

对所述文本对象模型树结构中的各结点进行分类,以确定所述网页的结构 分块;

根据所述结构分块抽取所述章节式文本的目录页以及多个内容页。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发 明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细 示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或 多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一 起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法 解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确 记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发 明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式 的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为 本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适 应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实 施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它 们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的 至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要 求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有 过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、 摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征 来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它 实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意 味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中, 所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器 上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解, 可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实 施例的章节式文本的章节完整性的识别装置中的一些或者全部部件的一些或 者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全 部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现 本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号 的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供, 或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并 且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施 例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的 限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之 前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包 括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干 装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体 体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解 释为名称。

至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的 多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本 发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因 此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号