首页> 中国专利> 一种基于网站主题词查询的建立方法及系统

一种基于网站主题词查询的建立方法及系统

摘要

本发明涉及信息检索领域,提供了一种基于网站主题词查询的建立方法,包括,获取网页数据;根据网页数据统计词汇的网站间重要性;根据网页数据提取网站主题词;根据提取的网站主题词信息,建立存储资源词典;建立网站主题查询接口。本发明还提供了一种基于网站主题词查询的建立系统。采用本发明的技术方案,流程简单易实现,可快速的实现更新完善,供线下、线上使用来提升专业化搜索体验。

著录项

  • 公开/公告号CN103425735A

    专利类型发明专利

  • 公开/公告日2013-12-04

    原文格式PDF

  • 申请/专利权人 深圳市宜搜科技发展有限公司;

    申请/专利号CN201310223294.X

  • 申请日2013-06-06

  • 分类号G06F17/30(20060101);

  • 代理机构44256 深圳市凯达知识产权事务所;

  • 代理人任转英;刘大弯

  • 地址 518026 广东省深圳市福田区滨河路与彩田路交汇处联合广场A栋塔楼A5501-A

  • 入库时间 2024-02-19 21:23:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-05-22

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20130606

    专利权人的姓名或者名称、地址的变更

  • 2017-08-11

    授权

    授权

  • 2014-11-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130606

    实质审查的生效

  • 2013-12-04

    公开

    公开

说明书

技术领域

本发明涉及信息检索领域,特别地涉及一种基于网站主题词查询的建立方法及系统。 

背景技术

随着信息技术的发展,互联网的信息越来越丰富,已经渗透到人们生活的方方面面。尤其是搜索引擎的出现,让用户可以从海量数据中快速的查找自己需要的信息。传统的搜索引擎以满足用户的需求为目的,大家共用一个搜索引擎,满足大部分人的需求就可以。作为一个大众化的网络工具,大多数的搜索引擎还很难满足特定的行业、特定的用户对特定的信息或服务的需求。因而出现了专业化搜索引擎,专注搜集与某一主题相关的重要的页面,且保证对某一领域信息的收录与及时更新。 

搜索引擎不应该仅仅是满足人们生活化、娱乐化信息的工具,而且还应该是满足人们更广泛、更专业需求的受益工具。如何让搜索引擎可以发挥更大的作用、更专业实用,让各行各业的人都可以使用并得到自己的所需,是搜索引擎面临的问题。 

垂直搜索是搜索引擎的一种,且大部分的搜索引擎都具备垂直搜索功能。垂直搜索可以看作是某类专业领域的搜索,涵盖小说、音乐、视频、图片等领域。如当用户搜索某歌曲时,直接可以获取该歌曲的信息,试听、下载等,这样直接满足了用户的检索需求,让用户愉悦。然而垂直搜索覆盖的只是一种资源型的领域,偏生活化、娱乐化领域,在这类领域可以直接满足用户具体需求。 

但用户的分布领域、感兴趣的专业领域不仅限于垂直资源领域。尤其是互联网资源越来越丰富多样,越来越多的职业人士,遇到问题会倾向于借助搜索引擎,检索一些工作上的,专业上的问题。但对于越来越多的专业性需 求,搜索引擎显得力不从心,无法给出专业性的结果。这并非因为互联网上没有专业化的数据,而是搜索引擎对互联网数据上的分析和理解尚不足,只是抓取和检索,缺乏更多的分析、理解,需要将海量数据做数据挖掘,整理成更优质数据。 

让搜索引擎搜索结果更专业化,更让人信服,最重要的一条就是让自己的数据专业化。线下理解互联网数据,对自己的检索数据库里的数据类型、分布、主题等都有清晰的理解和整理。当用户检索某关键词后,计算机可以给出该关键词相关的更专业化、权威化的站点结果,让用户能真正的受益。故需要在线下对互联网数据做分析理解,提取众多网站信息,了解网站的主题。一旦知道了网站的主题,就知道了该网站的立意。当用户给出关键词信息,可以提供给用户该关键词信息对应的网站的数据。现有技术中无法提供有效的检索方案。 

发明内容

本发明解决的技术问题在于提供了一种基于网站主题词查询的建立方法和系统,以更好提高搜索引擎的有效性。 

为解决上述问题,本发明提供了一种基于网站主题词查询的建立方法,包括, 

获取网页数据; 

根据网页数据统计词汇的网站间重要性; 

根据网页数据提取网站主题词; 

根据提取的网站主题词信息,建立存储资源词典; 

建立网站主题查询接口。 

上述的方法,其中,所述获取网页数据包括, 

获取网站所包含的网页的数据,主要包括网页的标题title和统一资源定位符url。 

上述的方法,其中,所述根据网页数据统计词汇的网站间重要性包括, 

对网页标题分词后,得到一系列的词汇,按词性过滤掉后,输出每个词汇和计算出的逆向站点频率ISF值作为重要性的度量。 

上述的方法,其中,所述逆向站点频率ISF值的公式定义为, 

ISF(Tj)=ln(N+1nj)

其中,n表示含词汇Tj的网站数目;N为所有网站的数目。 

上述的方法,其中,所述提取网站主题词包括, 

将网页的标题分词后,得到一系列的词汇Term; 

将所述词汇进行词性过滤; 

对完成上述步骤的词汇打分,根据打分选定词汇作为网站的主题词。 

上述的方法,其中,所述对词汇进行打分包括,对网页的标题进行打分,所述打分公式为 

p_score(Tj)=index_score(Tj)*pos_score(Tj

其中,index_score(Tj)为词汇Tj的位置得分,pos_score(Tj)为词汇Tj的词性得分。 

index_score(Tj)=2index(Tj)<=N*0.22index(Tj)>=N*0.81other

pos_score(Tj)=3dpos(Tj)=12dpos(Tj)=21dpos(Tj)=3

其中,N为标题含有的词汇数目,dpos(Tj)为词汇Tj的词性等级; 

还包括对网站中词汇进行打分, 

s_score(Tj)=ISF(Tj)*p_score(Tj)*page_num(Tj)page_num

其中,s_score(Tj)为某网站中词汇Tj的分数,page_num(Tj)为某网站中标题包含词汇Tj的网页的数目,page_num为该网站含有网页的数目。 

上述的方法,其中,所述建立存储资源词典包括, 

将提取的网站主题词信息,建立结构化的资源词典,包括网站到主题词 的正查询模块,和/或主题词到网站的逆查询模块。 

上述的方法,其中,所述正查询模块以及逆查询模块包括数据区和结构区,结构区存储的是直接查询的对象,数据区存储的是结构区所共享的数据。 

上述的方法,其中,所述网站主题查询接口包括正向查询和逆向查询,所述正向查询为通过网站地址,查询该网站的主题词及其权值;所述逆向查询为通过主题词,查询该主题词涵盖的网站及其权值。 

本发明还提供了一种基于网站主题词查询的建立系统,包括, 

获取模块,用于获取网页数据; 

统计模块,用于根据网页数据统计词汇的网站间重要性; 

提取模块,用于根据网页数据提取网站主题词; 

建立模块,用于根据提取的网站主题词信息,建立存储资源词典; 

接口模块,用于建立网站主题查询接口。 

采用本发明的技术方案,基于搜索引擎自身的网页数据,统计词汇的网站间重要性,计算ISF(inverse site frequency);基于网页关键域数据,提取重要词汇并归并出其所在网站的主题词;最终将结果存储为资源词典,并提供主题词相关的正逆查询接口,方便对网站和主题词之间的查询使用。总结本发明提供的方案,流程简单易实现,可快速的实现更新完善,供线下、线上使用来提升专业化搜索体验。 

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: 

图1是本发明第一实施例流程图; 

图2是本发明第二实施例流程图。 

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 

鉴于目前搜索引擎对互联网数据的理解、分析工作不足,本发明基于互联网网页数据,来提取网站的主题词,并建立一种资源词典,提供网站和主题词之间的正逆向接口,为搜索引擎提升自身的专业化结果提供一种基础。 

如图1所示,是本发明第一实施例流程图,提供了一种基于网站主题词查询的建立方法,包括, 

步骤S101,获取网页数据; 

作为一个实施例,获取网站所包含的网页的数据,主要包括网页的title(标题),和url(统一资源定位符)。 

搜索引擎是将用户的检索词与海量数据建立枢纽,故搜索引擎必备的两大数据源:检索日志和网页数据。检索日志可以用于分析、理解用户意图与核心需求;网页数据可以用来分析、理解自身后台数据,包括做数据挖掘、做知识库等所用。 

本发明提取网站的主题词,考虑到网站首页内容较少,不适合做内容性质的挖掘,以及搜索一般抓取的均是网页数据,故用的数据并非是网站首页的数据,而是网站所包含的网页的数据。且利用搜索引擎实际建索引库的网页数据,因为搜索引擎的建库数据是周期性更新的,故本发明也可以周期随之更新。网页中最重要的关键域是网页的title(标题),和url(统一资源定位符)。故用来提主题词的也主要是利用网页的这两个属性。url用于提取对应的网站站点,title则用于提取关键词汇。 

步骤S102,根据网页数据统计词汇的网站间重要性; 

作为一个实施例,首先对网页标题分词后,得到一系列的词汇,其次按词性过滤掉一些停用词,标点符号等;最后输出每个词汇和计算出的逆向站点频率ISF值作为重要性的度量。 

计算网站的主题词,首先要了解词汇在网站间的一个大概分布。如果某个词T在一个网站中出现的频率TF高,并且在其他网站中很少出现,则认 为此词具有很好的网站间区分能力。在本步骤计算一个ISF(inverse site frequency,逆向站点频率),类似于文本分类中的IDF(inverse document frequency,逆向文件频率)。 

作为一个词语普遍重要性的度量,某一特定词语的ISF,可以由总网站数目除以包含该词语的网站的数目,再将得到的商取对数得到。 

ISF公式定义为 

ISF(Tj)=ln(N+1nj)

其中,n表示含词汇Tj的网站数目;N为所有网站的数目。 

步骤S103,提取网站主题词; 

词汇的ISF表示了这个词汇在网站间的一种重要性,是一种全局性的度量。ISF越高,可以理解为越能表现网站的主题。而本步骤是结合具体每个网页数据,局部做Term分析,提取每个网页标题中的重要词汇。 

一个网页包含很多内容,url,标题,内容,链接等。网页的标题是一篇网页的关键域,是最重要也是最能体现网页内容主题的部分,除非是作弊、低质量网页,标题和内容不一致这种情况。但是之前我们取的网页数据是搜索引擎建索引库的网页数据,线下已经做过质量分析,可以认为是高质量的网页,死链,作弊等类型的网页情况极少。 

首先,将网页的标题分词后,得到一系列的词汇Term。 

其次,并不是所有的词都可以用来做分析的,为了提高效率,我们通过词性过滤,过滤掉部分一眼望去就不重要的词,如助词,标点符号,连词,介词等。 

再次,对完成上述步骤的词汇打分。在此打分参考两个因素:位置,词性。位置指的是词汇T在网页标题中的位置,分前部、中部、后部三种。前部定义为Term位置小于Term数的20%,后部定义为Term位置大于Term数的80%,其它为中部。词汇所在的位置不同,其所起的重要程度也不同,一般一句话或者一篇文章,比较重要的词汇,与主题相关的词汇,会位于前部和后部。词性的重要性是不言而喻的,网页标题,更符合自然语言习惯和 语言逻辑,是一种比较规范的语言,所以可以从词性的角度判断出哪些词是重要的,哪些是不重要的。我们从标题的主题角度,将词性分成三个等级:一级词性主要有名词、动词、人名、地名、机构名、专有名词、成语、缩略词;二级词性主要有形容词、副词、方位词、量词;其它词性归为第三等级,是一些语素词,只起到一定修饰作用。 

打分公式为 

p_score(Tj)=index_score(Tj)*pos_score(Tj

其中,index_score(Tj)为词汇Tj的位置得分,pos_score(Tj)为词汇Tj的词性得分。 

index_score(Tj)=2index(Tj)<=N*0.22index(Tj)>=N*0.81other

pos_score(Tj)=3dpos(Tj)=12dpos(Tj)=21dpos(Tj)=3

其中,N为标题含有的词汇数目,dpos(Tj)为词汇Tj的词性等级。 

到此得到了一篇网页的标题中含有的词汇的分数。但这仅仅是网页级别的,词汇在某网站的分数,还要考虑该网站含有的网页的数量,以及含有该词汇的网页的数目。 

s_score(Tj)=ISF(Tj)*p_score(Tj)*page_num(Tj)page_num

其中,s_score(Tj)为某网站中词汇Tj的分数,page_num(Tj)为某网站中标题包含词汇Tj的网页的数目,page_num为该网站含有网页的数目。 

本步骤完成了对网站的词汇打分的过程,既参考了词汇在网站间的重要性,又参考了网站中包含了词汇的网页及网页中词汇的具体信息。考虑到一个网站含有的词汇的数量巨大,我们需要的并不是网站中的全部的词汇,故只将分数排名前1%的词作为该网站的主题词,保存下来。 

步骤S104,建立存储资源词典; 

将提取的网站主题词信息,建成一种结构化的资源词典,来方便快速查 询。本发明涉及的词典分成两个模块:网站到主题词的正查询模块,和主题词到网站的逆查询模块。 

每个模块均含有两个部分:数据区和结构区,结构区存储的是直接查询的对象,数据区存储的是结构区所共享的数据。 

正查询模块是通过网站地址查询其对应的主题词。结构区存储网站信息,如各类网站地址,网站包含主题词的数目,主题词的权值;数据区为主题词信息,存储的是主题词的字符串。例如sina.com与sohu.com两个站点,均会有“门户”这个主题词,结构区存储的是这两个站点的信息,包括地址,主题词数目,主题词在数据区的位置,主题词的权重,而数据区存储的是“门户”这类词,且不重复。当查询sina.com站点,可以查到主题词“门户”,查询sohu.com也可以查询到主题词“门户”。 

逆查询模块则是根据主题词,查询该主题词覆盖下的网站地址。结构区为主题词信息,含各类主题词,对应的网站在数据区的位置,在网站中的权值;数据区为网站信息,存储的是网站的地址字符串。例如通过查询“门户”,输出以“门户”为主题的网站“sina.com”,“sohu.com”等。 

设计这样的存储结构,既可以做到资源共享,又可以合理利用空间,减少使用时的加载消耗。 

词典两个模块的形象化结构如图2。 

步骤S105,建立网站主题查询接口。 

将网站主题词的信息保存至资源词典,为的是查询方便快捷。在此对外提供查询接口,当输入关键词时,不同的查询接口可进行不同模块的查询。 

同上述资源词典设计,本发明提供两种查询接口,正向查询和逆向查询。正向查询为通过网站地址,查询该网站的主题词及其权值;逆向查询为通过主题词,查询该主题词涵盖的网站及其权值。 

之所以提供两种模式的查询接口,是为了能够针对不同的检索词做灵活查询使用。在实际中,不同方式的查询可以起到不同的作用:线下做网页质量分析,网页Term打分时,可以使用正向查询,参考输出的主题词做些特殊处理;线上对用户检索词分析时可使用逆向查询,用户的检索词若包含某些 主题词,则主题词涵盖的网站可以考虑优先展现,这能够对搜索结果的专业性、权威性起到一定的提升作用。 

简单举实例说明,正向查询,查询模式为1,如输入“sina.com”,查询结果为“门户0.8;新浪网0.8;新浪0.8”等,在做线下网页分析时,针对sina.com网站的网页,这类主题词,需要重视。 

逆向查询,查询模式为2,如输入“文学”,查询结果为“rongshuxia.com0.4;tianyibook.com0.4;d5wx.com0.3”等,在做线上用户检索分析时,针对用户有“文学”意图的需求,可以考虑给予这类网站的结果或是将这类网站的结果排前,更能给用户权威的结果。 

如图2所述,是本发明第二实施例结构图,提供了一种基于网站主题词查询的建立系统,包括, 

获取模块201,用于获取网页数据; 

统计模块202,用于根据网页数据统计词汇的网站间重要性; 

提取模块203,用于根据网页数据提取网站主题词; 

建立模块204,用于根据提取的网站主题词信息,建立存储资源词典; 

接口模块205,用于建立网站主题查询接口。 

所述获取模块,用于获取网页数据,具体包括,用于获取网站所包含的网页的数据,主要包括网页的标题title和统一资源定位符url。 

所述统计模块,用于根据网页数据统计词汇的网站间重要性,具体包括,用于对网页标题分词后,得到一系列的词汇,按词性过滤掉后,输出每个词汇和计算出的逆向站点频率ISF值作为重要性的度量。 

所述提取模块,用于根据网页数据提取网站主题词,用于将网页的标题分词后,得到一系列的词汇Term;将所述词汇进行词性过滤;对完成上述步骤的词汇打分,根据打分选定词汇作为网站的主题词。 

所述建立模块,用于根据提取的网站主题词信息,建立存储资源词典,包括用于将提取的网站主题词信息,建立结构化的资源词典,包括网站到主 题词的正查询模块,和/或主题词到网站的逆查询模块。 

相对于现有搜索引擎在自身数据的理解、分析不足的状况下,使得搜索结果在某些专业领域无法满足更高的需求。本发明提供的技术方案,参考了词汇在网站间的重要性,又参考了网站中包含了词汇的网页及网页中词汇的具体信息,给出网站中词汇的得分。为突出重要词汇,可以取网站分数排名前1%的词作为该网站的主题词,保存为结构清晰的资源词典,以供线下、线上使用。线下可供网页分析参考处理重要词汇,线上可针对用户检索词,给出更权威、更专业的网站的搜索结果。该方法简单易行,可快速更新,对满足特定行业、特定用户对特定信息或服务的需求起到积极的推动作用。 

上述说明示出并描述了本发明的优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号