首页> 中国专利> 网站的三元组挖掘方法以及三元组挖掘装置

网站的三元组挖掘方法以及三元组挖掘装置

摘要

本发明提供了一种挖掘网站的三元组的方法以及三元组挖掘装置,该方法包括:收集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL;统计与URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体;将确定的主实体的三元组作为种子三元组来提取网页的模板;将得到的模板与网站的其它网页匹配以提取新的三元组;将提取的新的三元组作为种子三元组,重复执行模板提取、网页匹配和新三元组的提取的操作,直到不再从该网站的网页中提取出新的三元组为止。

著录项

  • 公开/公告号CN104166653A

    专利类型发明专利

  • 公开/公告日2014-11-26

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN201310183466.5

  • 发明设计人 李永强;

    申请日2013-05-17

  • 分类号G06F17/30(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人罗延红;张云珠

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-12-17 01:44:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-31

    授权

    授权

  • 2014-12-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130517

    实质审查的生效

  • 2014-11-26

    公开

    公开

说明书

技术领域

本发明涉及互联网技术领域,更具体地,涉及一种用于挖掘外部网站的 网页的三元组的方法以及三元组挖掘装置。

背景技术

在互联网搜索领域中,通常需要获得网站的网页内容的三元组(实体-属 性名-属性值)。而在现有技术中,需要编写提取模板来从网站的每个网页手动 提取三元组。这种方式的缺点在于,针对每个网站编写的提取模板的复用性 低,需要为每个网站专门编写模板,因此,对于网站的网页的三元组挖掘效 率低并且需要大量的人力成本。

发明内容

本发明的一方面在于提供一种能够自动挖掘网站的三元组的方法,不需 要人工干预地来执行三元组的挖掘。

根据本发明的一方面,提供了一种挖掘网站的三元组的方法,包括:收 集网站的所有网页,并统计所有网页中的每个超链接的锚文本和每个超链接 所指向的网页地址URL;统计与URL对应的网页中的超链接锚文本的出现 频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体; 将确定的主实体的三元组作为种子三元组来提取网页的模板;将得到的模板 与网站的其它网页匹配以提取新的三元组;将提取的新的三元组作为种子三 元组,重复执行模板提取、网页匹配和新三元组的提取的操作,直到不再从 该网站的网页中提取出新的三元组为止。

根据本发明的一方面,当超链接锚文本的出现次数多于预定次数并且该 超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比大 于预定百分比时,将该超链接锚文本确定为该网页的主实体。

根据本发明的一方面,最初的种子三元组是由人工编辑确定的。

根据本发明的一方面,提取网页模板的步骤包括:根据种子三元组的属 性名和属性值确定该三元组所在的网页分块,并从该网页分块的结构化格式 中提取网页模板。

根据本发明的一方面,网页匹配和提取新的三元组的步骤包括:查找包 含多于预定数量的模板中的属性名的网页,并从该网页中提取新的三元组。

根据本发明的另一方面,还提供了一种挖掘网站的三元组的三元组挖掘 装置,包括:网页收集模块,收集网站的所有网页,并统计所有网页中的每 个超链接的锚文本和每个超链接所指向的网页地址URL;统计模块,统计与 URL对应的网页中的超链接锚文本的出现频度,并将出现总频度大于预定标 准的超链接锚文本确定为该网页的主实体;网页模板提取模块,将包括由统 计模块确定的主实体的三元组作为种子三元组来提取网页的模板;三元组提 取模块,将网页模板提取模块得到的模板与网站的其它网页匹配以提取新的 三元组,其中,网页模板提取模块使用三元组提取模块提取的新的三元组作 为种子三元组,并和三元组提取模块一起重复执行网页模板提取和三元组提 取,直到三元组提取模块不再从该网站的网页中提取出新的三元组为止。

根据本发明的另一方面,当超链接锚文本的出现次数多于预定次数并且 该超链接锚文本的出现次数与网页中的所有超链接锚文本的出现总次数之比 大于预定百分比时,统计模块将该超链接锚文本确定为该网页的主实体。

根据本发明的另一方面,最初的种子三元组是由人工编辑确定的。

根据本发明的另一方面,网页模板提取模块根据种子三元组的属性名和 属性值确定该三元组所在的网页分块,并从该网页分块的结构化格式中提取 网页模板。

根据本发明的另一方面,三元组提取模块查找包含多于预定数量的模板 中的属性名的网页,并从该网页中提取新的三元组。

附图说明

通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变 得更加清楚,其中:

图1是示出根据本发明实施例的用于挖掘网站的三元组的方法的流程 图;

图2是示出根据本发明实施例的挖掘网站的三元组的方法中通过种子三 元组提取模板的示意图;

图3是示出根据本发明实施例的挖掘网站的三元组的方法中利用提取的 模板获得新的三元组的示意图;

图4是示出根据本发明实施例的挖掘网站的三元组挖掘装置的示意图。

具体实施方式

下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物 所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理 解,而这些描述将被认为仅为示例性的。因此,本领域的普通技术人员将意 识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变 型。另外,为了清晰和简洁,可省略对公知功能和构造的描述。

如图1所示,首先,在步骤S101,收集一个网站的所有网页,并统计所 有网页中的每个超链接的锚文本和每个超链接所指向的网页地址URL。

接下来,在步骤S103,统计与URL对应的网页中的超链接锚文本的出 现频度,并将出现总频度大于预定标准的超链接锚文本确定为该网页的主实 体。例如,如果一个网页具有N个超链接锚文本T1、T2、T3、...、Tn,其出 现的次数分别为F1、F2、F3、...、Fn,则如果F1>=阈值1并且F1/(F1+F2+ F3+...Fn)>=x%(第二阈值),则可将与F1对应的超链接锚文本T1确定为该 网页的主实体。

然后,在步骤S105,基于包括在步骤S103确定的主实体的种子(seed) 三元组来提取网页的模板(template)。

参照图2,图2示出的是根据本发明实施例的挖掘网站的三元组的方法 中通过种子三元组提取模板的示意图。假设当前得到的网页的主实体是“摩托 罗拉Droid2”,并且与该主实体对应的种子三元组“摩托罗拉Droid2;外观设 计;侧滑盖”,如图2中的方框所示。这里,作为最初种子的三元组可由人根 据该主实体的相关特性进行编辑。例如,对于摩托罗拉Droid2这款手机来说, 其关键词可包括“外观设计、侧滑盖”,因此,可人工编辑最初的种子三元组“摩 托罗拉Droid2;外观设计;侧滑盖”。这样,接下来可根据该种子三元组的 属性名和属性值确定该三元组所在的网页的分块(division)。图2中的网页部 分即可表示作为种子三元组的“摩托罗拉Droid2;外观设计;侧滑盖”所在的 网页的分块。在确定了种子三元组所在的网页分块之后,可从该网页分块的 结构化格式中提取网页模板。如图2所示,该网页分块中具有与种子三元组“摩 托罗拉Droid2;外观设计;侧滑盖”具有类似结构的属性名和属性值有:

参考价格:¥2980;

商家报价:¥2831到¥3135;

网络模式:CDMA2000;

外观设计:侧滑盖;

主屏尺寸:3.7英寸,854*480像素;

触摸屏:电容屏,多点触控;

摄像头像素:500万像素,CMOS;

操作系统:Android OS2.2;

这样,可得到该网站的一个模板:detail.zol.com.cn@参考价格@商家报 价@网络模式@外观设计@主屏尺寸@触摸屏@摄像头像素@操作系统。

然后,在步骤S107,根据在步骤S105得到的模板,在该网站中的其它 网页中进行匹配以提取三元组。这里,可找到包含多于预定数量的模板中的 属性名的网页,并从该网页中提取三元组。这里,假设预定数量为5。

然后,在步骤S109确定步骤S107是否产生了新的三元组。

如图3所示,在该网页中,包括与在步骤S105得到的模板 “detail.zol.com.cn@参考价格@商家报价@网络模式@外观设计@主屏尺寸@ 触摸屏@摄像头像素@操作系统”中的7个属性名的文本,即,“参考价格”、“商 家报价”、“网络模式”、“外观设计”、“主屏尺寸”、“摄像头像素”、“操作系统”。 因此,可确定该网页是与模板匹配的网页。

基于该新的网页,可得到实体名“诺基亚N73”以及与该实体名对应的新 的属性名和属性值:

机身内存:128MB ROM+64MB RAM;

电池容量:1100mAh;

这样,可产生新的三元组:“诺基亚N73;机身内存;128MB ROM+64MB  RAM”以及“诺基亚N73;电池容量;1100mAh”。

如果确定产生了新的三元组,则接下来可将在步骤S107产生的新的三元 组作为种子三元组,返回操作S105和操作S107来得到新的模板和新的三元 组。

重复执行操作S105到S109,直到在步骤S109确定没有产生新的三元组 为止。也就是说,通过上述的过程已经得到稳定的模板,在该网站的网页中 不再能够提取出新的三元组。

图4是示出根据本发明实施例的挖掘网站的三元组挖掘装置的示意图。

如图4所示,根据本发明实施例的三元组挖掘装置200包括:网页收集 模块210、统计模块220、网页模版提取模块230和三元组提取模块240。

网页收集模块210收集网站的所有网页,并统计所有网页中的每个超链 接的锚文本和每个超链接所指向的网页地址URL。

统计模块220统计与URL对应的网页中的超链接锚文本的出现频度,并 将出现总频度大于预定标准的超链接锚文本确定为该网页的主实体。

网页模板提取模块230将包括由统计模块220确定的主实体的三元组作 为种子三元组来提取网页的模板。

三元组提取模块240将网页模板提取模块230得到的模板与网站的其它 网页匹配以提取新的三元组。

这里,在提取了新的三元组之后,网页模板提取模块230使用三新的三 元组作为种子三元组来提取新的网页模板。重复执行网页模板提取和三元组 提取的过程,直到三元组提取模块240不再从该网站的网页中提取出新的三 元组为止。

这里,当超链接锚文本的出现次数多于预定次数并且该超链接锚文本的 出现次数与网页中的所有超链接锚文本的出现总次数之比大于预定百分比 时,统计模块220将该超链接锚文本确定为该网页的主实体。

网页模板提取模块230根据种子三元组的属性名和属性值确定该三元组 所在的网页分块,并从该网页分块的结构化格式中提取网页模板。

三元组提取模块240查找包含多于预定数量的模板中的属性名的网页, 并从该网页中提取新的三元组。

通过以上的操作,可以自动的获得一个网站的网页中所有的三元组,从 而克服了现有的三元组挖掘方法中需要人工编写模板的不便之处。

根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序 指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令 相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬 盘、软盘和磁带);光学介质(例如CD-ROM和DVD);磁光介质(例如,光盘); 以及特别配制用于存储并执行程序指令的硬件装置(例如,只读存储器 (ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序 指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。 程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算 机执行的高级代码的文件。

尽管已经参照本发明的示例性实施例具体显示和描述了本发明,但是本 领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围 的情况下,可以对其进行形式和细节上的各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号