首页> 中国专利> 不明确地理引用的分类

不明确地理引用的分类

摘要

位置分类器根据输入文本中的文本字符串产生位置信息。所述的位置信息定义了输入文本的潜在地理关联性。在确定位置信息时,所述的位置分类器可以接收与输入文本中的至少一个字符串相关联的至少一个地理关联性分布曲线,从所述至少一个地理关联性分布曲线获取用于所述文档的组合地理关联性分布曲线,以及根据所述的组合地理关联性分布曲线确定输入文本的地理关联性。

著录项

  • 公开/公告号CN101128821A

    专利类型发明专利

  • 公开/公告日2008-02-20

    原文格式PDF

  • 申请/专利权人 谷歌公司;

    申请/专利号CN200580048642.8

  • 发明设计人 丹尼尔·艾尼奥;

    申请日2005-12-30

  • 分类号G06F17/30(20060101);

  • 代理机构11219 中原信达知识产权代理有限责任公司;

  • 代理人郑立;车文

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 19:45:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-23

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20051230

    专利权人的姓名或者名称、地址的变更

  • 2010-06-23

    授权

    授权

  • 2008-04-16

    实质审查的生效

    实质审查的生效

  • 2008-02-20

    公开

    公开

说明书

技术领域

这里描述的系统和方法涉及搜索引擎,以及更具体地,涉及用于分类与地理区域相关的文本的技术。

背景技术

万维网(“web”)包含大量的信息。然而,定位信息的期望部分常常很困难。这个问题是复杂的,因为web上的信息量和缺乏web搜索经验的新用户数量都在快速增长。

搜索引擎试图返回用户感兴趣的网网页的超链接。通常,搜索引擎根据用户输入的搜索词语(称为搜索查询,search query)来判定什么是用户所感兴趣的。搜索引擎的目的是根据搜索查询提供高质量的、相关的结果(例如,网页)给用户。典型地,搜索引擎通过匹配搜索查询中的词语与预先存储的网页的语料库来实现这一目的。包含用户搜索词语的网页被“命中”并且作为链接返回给用户。

为了提高返回给用户的网页的相关性和质量,搜索引擎试图对命中的列表做排序,使得更相关和/或更高质量的网页位于返回给用户的命中列表的上部。例如,搜索引擎可以对每个命中页分配排名或者得分,其中设计得分使得对应于网页的相关性和重要性。

局部搜索引擎是试图返回特定地理区域内的相关网页的搜索引擎。当索引用于局部搜索引擎的文档时,期望能够在合适的情况下自动将文档或者文档的部分与该特定地理区域相关联。例如,与纽约市内的某餐馆相关的网页应该与纽约市相关联。在很多情况下,特定地理区域的网页包含邮政地址或者其他的可以明确将该网页与该地理区域相关联的地理信息。但是,在其他情况下,网页可能与特定地理区域有关联,但是这些网页可能仅仅包含部分邮政地址信息或者包含不能轻易识别的与特定地理位置相关的其他词语。这使得难于确定网页所关联的地理区域。

发明内容

本发明的一个方面是面向一种确定文档的地理相关性的方法。该方法包括接收与文档中至少一个字符串相关联的至少一个地理相关性分布曲线,从所述至少一个地理相关性分布曲线获得用于所述文档的组合地理相关性分布曲线,以及根据所述的组合地理相关性分布曲线确定所述文档的地理相关性。

本发明的另一个方面面向一种包含可以由处理器执行的编程指令的计算机可读介质。该计算机可读介质包括编程指令,用于接收与文档中的相应的多个字符串相关联的多个地理相关性分布曲线,所述的地理相关性分布曲线的每一个都定义了与地理区域相关的字符串的地理相关性。所述的计算机可读介质包括编程指令,根据所述的多个地理相关性分布曲线确定所述文档的地理相关性的。

而本发明的另一个方面面向一种对于字符串产生地理相关性分布曲线的方法。该方法包括确定训练文本的多个段,其中训练文本的每个段与地理区域相关联,在所述训练文本的多个选择段中累计字符串的出现,以及根据所累计的字符串的出现产生作为直方图的地理相关性分布曲线。

附图说明

在此结合并作为说明书的一部分的附图,说明了本发明的一个实施例,并且结合描述来解释本发明。其中

图1是符合本发明的各方面的一般概念的示意图;

图2是其中符合本发明的原理的系统和方法可以执行的网络的示范性示意图;

图3是在图2中示出的客户端和服务器的示范性示意图;

图4是说明用于训练在图1和2中示出的位置分类器引擎的示范性程序的流程图;

图5是说明其中呈现了两个地理信号的示范性文档的示意图;

图6是说明训练数据的示范性表格的一部分的示意图;

图7A-7C是说明用于词语/短语的示范性地理相关性分布曲线的示意图;

图8是说明包含示范性词语/短语以及它们的相应地理相关性分布曲线的表格的概念性示意图;

图9是说明在确定输入文档的潜在相关性地理区域中位置分类器的示范性操作的流程图;

图10A-10C说明了组合多个地理相关性分布曲线以获取组合分布曲线;以及

图11是说明在搜索引擎的环境下实施的位置分类器的示范性实施的示意图。

具体实施方式

以下本发明的详细描述参照了附图。详细描述不限制本发明。

概述

在这里描述了在合适的情况下自动分类输入文本到特定的地理区域的位置分类器。图1是说明符合本发明的各方面的一般概念的示意图,包括位置分类器100。作为位置分类器的操作的一个例子,考虑输入文档,例如在图1中示出的示范性文档,描述了在加利福尼亚的Mountain View的Castro Street的商业企业,但是并不特别包含全部的邮政地址、电话号码,并且从未明确陈述“Mountain View,California”。

位置分类器100可以识别文档中的双词“bay area”以及“CastroStreet”是重要的地理名词。“Bay area”本身通常用是指环绕加利福尼亚的旧金山海岸的地区,但是也常用于指其他的海岸位置,例如,在威斯康星州的Green海岸地区。此外,Castro Street本身是普通的街道名称。位置分类器100可以通过识别这些短语的出现可能指示所述的文档和位于加利福尼亚的Mountain View的Castro大街有关来解决在“Bay Area”和“Castro Street”中的个别地理不明确性。

然后,位置分类器100可以产生完整的地址或其他的位置分类器,例如Mountain View,CA,94043,作为可能对应于文档中提及的商业企业。

示范性网络概述

图2是在其中可实施符合本发明的原理的系统和方法的网络200的示范性示意图。网络200可以包括通过网络240链接到服务器220的客户端210。网络240可以包括局部局域网(LAN)、广域网(WAN),电话网络,例如公共交换电话网络(PSTN)、企业内联网、因特网或者网络的组合。为了简单起见,已经图示了连接到网络240的两个客户端210和一个服务器220。事实上,可以存在多个客户端和/或服务器。同时,在某些方面,客户端可以执行服务器的功能而服务器可以执行客户端的功能。

客户端210可以包括设备,例如无线电话、个人计算机、个人数字助理(PDA)、便携式计算机或者其他类型的计算或通信设备,在这些设备的一个上运行的线程或进程,和/或由这些设备的一个执行的对象。服务器220可以包括处理、搜索和/或维持文档的服务设备。客户端210和服务器220可以通过有线的、无线的或光连接器连接到网络240。

服务器220可以包括客户端210使用的搜索引擎225。搜索引擎225可以是搜索引擎,例如基于查询的文档搜索引擎。在一些实施例中,搜索引擎225具体地可以设计成返回局部地理区域的结果。搜索引擎225可以包括位置分类器100。位置分类器100接收可能包括具有地理相关性的部分地址或词语/短语的输入数据并产生相应于地理区域的一个或者的多个位置标识符,该地理区域相应于输入文档。例如,位置分类器100可以由搜索引擎225使用以将文档例如网页与地理区域相关联或者确定用户搜索查询与特定的地理位置是否有关。

文档(document),作为在这里使用的术语,被更广泛地解释为包含任意的机器可读和机器可存储著作。文档可以是电子邮件、搜索查询、文件、文件的组合、一个或者多个具有到其他文件的嵌入式链接的文件、新闻邮件组等。在因特网的环境下,常见的文档是网页。网页通常包含内容以及包含嵌入信息(例如元信息、超链接等)和/或嵌入的指令(例如,JavaScript等)。

示范性客户端/服务器架构

图3是根据符合本发明的原理的实施例的、被称作计算设备300的客户端210或服务器220的示范性示意图。计算设备300可以包括总线310、处理器320、主存储器330、只读存储器(ROM)340、存储设备350、输入设备360、输出设备370以及通信接口380。总线310可以包括允许计算设备300的部件之间的通讯的路径。

处理器320可以包括任意类型的传统处理器、微处理器或者解释和执行指令的处理逻辑单元。主存储器330可以包括随机存取存储器(RAM)或者可以存储由处理器320执行的信息和指令的另一种类型的动态存储设备。ROM 340可以包括传统的ROM设备或者另一种可以存储由处理器320执行的静态信息和指令的静态存储设备。存储设备350可以包括磁和/或光记录介质以及它的相应驱动。

输入设备360可以包括允许用户输入信息给计算设备300的传统机构,例如键盘、鼠标、笔、声音识别和/或生物识别机构等。输出设备370可以包括传统的输出信息给操作者的机构,包括显示器、打印机、扬声器等。通信接口380可以包括任意的能够使计算设备300与其他设备和/或系统通信的类似收发器机构。例如,通信接口380可以包括用于通过网络与另一个设备或系统通信的机构,例如网络240。

符合本发明的原理的服务器220通过搜索引擎225和/或位置分类器引擎100执行某种搜索或者文档检索的相关操作。搜索引擎225和/或位置分类器引擎100可以存储在计算机可读介质例如存储器330中。计算机可读介质可以定义为一个或多个物理的或逻辑的存储设备和/或载波。

定义搜索引擎225的软件指令可以从另一个计算机可读介质例如数据存储设备350、或者通过通信接口380从另一个设备读入存储器330。包含在存储器330中的软件指令使处理器320执行稍后描述的处理。可替换的,可以使用硬线电路替代或者结合软件指令使用以执行符合本发明的原理的处理。因此,符合本发明的原理的实施例没有限制任意的硬件电路或软件的组合。

位置分类器100的训练

位置分类器100可以自动地产生用于输入文档或者文档一部分的地理位置信息。在位置分类器100产生地理位置信息之前,它可以在多个训练文档上训练。在一个实施例中,所述文档可以是网页。

图4是说明用于训练位置分类器100的示范性程序的流程图。

位置分类器100可以在大量文档上训练,例如大量web文档。位置分类器引擎100通过检索第一文档开始训练(动作401),并且定位该文档中的已知地理信号(动作402)。已知的地理信号可以包括,例如,明确指出地理位置的完整地址。所述的地理信号可以通过例如模式匹配技术而定位,通过该技术寻找一般地址形式的文本段。例如,位置分类器引擎100可以寻找位于州名或者州缩写以及大街名称附近的5位邮政编码,如跟随包含词例如“street”、“st.”、“drive”等的字符串的一系列数字。以这种方式,位置分类器100可以定位已知的地理信号作为明显与地理地址相关联的文本段。

图5是说明其中呈现了两个地理信号的示范性文档500的示意图。如所示,文档500包括第一地理信号505、文本段落510、第二地理信号515以及第二文本段落520。

第一地理信号,信号505,用于假设的咖啡屋称为“Coffee Time”,该信号按标准邮政地址指出了Coffee Time的位置。根据该地址的结构和/或根据所述的邮政编码、大街名称和城市名称都与加利福尼亚的已知位置一致的事实,位置分类器100可以识别该地址作为有效地址。类似地,位置分类器100可以识别地理信号515也表示明显与物理位置相关联的有效地址。本领域普通技术人员可以理解用于确定文档与地理位置是否相关联的其他技术也可以使用,例如文档的人工分类。

在动作402所确定的与有效地理信号相关联的文档被假定为对应于已知地理区域的文档。如果当前处理的文档不是这样的文档,例如是与特定地理区域没有关联的web文档,则处理下一个文档(动作403和405)。但是对于包含有效地理信号的文档,位置分类器100可以从该文档中选择文本用作与所发现的地理信号相关联的训练文本(动作404)。

在动作404所选择的作为与文档相关联的训练文本可以按多种不同的方式选择。例如,围绕每一个地理信号的固定窗口(例如,100词语窗口)可以被选择作为训练文本。在另外的实施例中,选择整个文档。在又另外的实施例中,具有多个地理信号的文档可根据文档中的直观换行(break)来分段并且根据所述分段取得训练文本。对于图5中示出的文档,例如,段落510与地址信号505相关联以及段落520与地址信号515相关联。

对于被用作训练文档的文档语料库中的每一文档重复动作402-405(动作406)。通常,动作401-405用于产生其中多个已知位置中的每个都与文本关联的训练数据。图6是说明在动作402-405产生的示范性训练数据的表格的一部分的示意图。表格600包括多个位置标识符字段605以及相应的文本段610。标识符字段605可根据地理信号并且文本段610可包括对每个地理信号选择的文本。因此,每个定位的地理信号对应于表格600中的项。

在一个实施例中,位置标识符字段605可包括相应于在动作402识别的地理信号的邮政编码。对于地理位置,邮政编码作为标识符特别有用,因为数字相互接近的各邮政编码倾向于对应在地理上相互接近的位置。但是也可以使用不同于邮政编码的其他位置标识符。

在表格600中特别示出了两项。这两个项对应于来自文档500的两个地理信号。第一项包括作为位置标识符的邮政编码94040以及作为选择文本的段落510。第二项包括作为位置标识符的邮政编码94041以及作为选择文本的段落520。

尽管表格600中的训练数据在这里被描述成如其余的训练(也就是,动作407-410)那样由位置分类器100按相同的处理来产生,但训练数据可以提前产生或者通过另一个部件或设备产生。

符合本发明的一个方面的位置分类器100部分地在这样的前提下操作:文档中地理信号附近的文本偏向于使用与地理信号相关的词语或短语。在动作401-406中获得的训练数据可以由位置分类器100进一步处理,以下将参照动作407-410描述,以获取用于特定词语/短语的地理相关性分布曲线。

位置分类器100可以在开始的时候,对选择的词语或短语,累计在文本选择段610中有关位置标识符的该词语/短语(也被称为文本字符串或者就称为字符串)的全部出现,对所述位置标识符出现该词语/短语(动作407)。换句话说,位置分类器100可以产生把词语/短语的出现次数与位置标识符相关联的直方图。所述的直方图在此也被称为词语/短语的地理相关性分布曲线(profile)。

图7A是说明用于双词“capitol hill”的示范性直方图700的示意图。如所示,该直方图包括3个主要的峰值,以邮政编码20515附近为中心的大峰值对应于华盛顿特区(washington DC)的“capitol hill”地区,以邮政编码95814附近为中心的较小峰值对应于加利福尼亚州的萨克拉曼多的“capitol hill”地区,以及以邮政编码98104附近为中心的中等峰值对应于华盛顿州(WA)的西雅图的“capitol hill”地区。尽管文本选择段610可能包含大量的对“capitol hill”的引用,它们中的许多与那些不在华盛顿特区、萨克拉曼多或者西雅图附近的区域有关,直方图700说明了,在总体上,当涉及这3个位置中的一个时倾向于使用“capitol hill”。对应于最大峰值的华盛顿特区可以被解释为最可能被人们使用短语“capitol hill”来表示的地区。

图7B是用于双词“bay area”的另一个示范性直方图--直方图710的示意图。直方图710包括两个峰值,较小的一个以佛蒙特州的Green Bay地区附近为中心,而较大的峰值定义了加利福尼亚州的旧金山的海湾。

位置分类器100可以对文本选择段610中出现的一些或全部词语/短语执行动作407。在一个实施例中,位置分类器100可以对文本610中出现的所有双词(两个词的短语)产生直方图。在其他实施例中,可以产生用于更长的短语或者单个词语的直方图。

当累计词语/短语的出现次数时,特定词语/短语的出现可被忽略。在一组训练文档中可能频繁出现一些样板语言,然而样板语言不一定与确定地理相关性有关联。因此,在一些实施例中,所选择词语/短语左边或者右边的词语也需要检验,并且仅当这些词语不同于所述词语/短语的左边或者右边词语的先前例子时才累计所述词语/短语。因此,如果词语/短语没有出现在合理的新内容中,它可能被忽略。

位置分类器100可以接下来选择并存储所产生的对应于地理相关的词语/短语的直方图(动作408和409)。存储的直方图用作词语/短语的地理相关性分布曲线。在动作407中对其产生直方图的许多词语/短语可能不是地理相关的。图7C是对于双词“live bookmarks”的示范性直方图720的示意图。该短语不是地理相关的,因此直方图较为平坦。但是直方图700和710包括统计明显的尖峰,指示了这些词语/短语与特定地理区域相关联。本领域普通技术人员可以认识到可以使用一些公知的技术来确定直方图是否包括统计明显波峰。

对于文本选择段610中的多个词语/短语重复动作408和409(动作410)。在一个实施例中,位置分类器100可以检验出现在文本选择段610中的每一个双词的地理相关性。在另一个实施例中,可以检验单个词语的地理相关性或者可以检验具有三个或者更多个词语的短语。

作为图4所示训练的结果,位置分类器100可以存储多个(可能是大量的)词语/短语以及它们相应的地理相关性分布曲线。图8是说明示范性词语/短语以及它们的相应地理相关性分布曲线的表格800的概念性示意图。

在一个实施例中,在动作409中存储的地理相关性分布曲线可以根据训练数据中的邮政编码的全球化分布而规范化。按这种方式,在训练数据中频繁提及的区域不用过于强调地理相关性分布曲线。

位置分类器100的操作

图9是说明位置分类器100在确定输入文档的可能相关性地理区域中的示范性操作的流程图。

位置分类器100开始于接收输入文档(动作901)。通常,输入文档是包含对某些位置的可能不明确引用的文档。输入文档可以是,例如,文本的相对短的部分,例如搜索查询,或者是较长的文本块,例如网页。可以在输入文档中定位词语/短语,相应于存储在表格800中的词语/短语(动作902)。即识别以前确定的具有地理相关性的词语/短语。

接下来组合每一个所识别词语/短语的地理相关性分布曲线以产生输入文档的结果性地理相关性分布曲线(动作903)。在一个实施例中,可以通过将每一个在动作902中识别的地理相关性分布曲线相乘来组合所述的地理相关性分布曲线。就是说,对于每一个邮政编码,每一个直方图的值被乘在一起以获取结果性直方图中的邮政编码的值。图10A-10C说明了组合多个地理相关性分布曲线以获取组合分布曲线。在这个例子中,假定输入文档是包含出现在表格800中的两个双词的文本页(也就是,输入页包括两个地理图像相关性词语/短语)。所述的双词是“Castro Street”和“Bay Area”。Castro Street的地理相关性分布曲线显示在图10A中以及Bay Area的地理相关性分布曲线显示在图10B中。图10C说明了组合地理相关性分布曲线。如所示,尽管在图10A和10B中的直方图都包含多个峰值,当组合时,峰值倾向于彼此抵消,除了在两个分布曲线都指示地理相关性的地方。因此,图10C的组合地理相关性分布曲线指出对“Castro Street”和“Bay Area”的引用很可能是对位于北加利福尼亚海湾的Castro Street的引用。

根据所述的组合地理相关性分布曲线,例如图10C中示出的示范性分布曲线,位置分类器100可以产生定义了输入文档对于一个或者多个地理区域的潜在相关性的输出信息(动作904)。该输出信息通常通过检验组合地理相关性分布曲线的峰值而获取。在图10C的例子中,例如,输出信息含有包括北加利福尼亚的Castro Street的区域的邮政编码。在一些实施例中,邮政编码与有关由所述邮政编码定义的地区的可能性和确定性是正确的值相关联。

在一个实施例中,在动作901接收的文档可以是部分地址,例如取自网页、搜索查询或者其他源的部分地址。然后输出信息被用于明确所述的部分地址。例如,如果地址例如“650Castro Street”在文档中被识别而没有城市名或者州名,地址本身不是完整的地址。但是,如果位置分类器100推断所述的文档与Mountain View邮政编码94043相关联,则地址被明确,并且可归结到准确的地理位置(纬度/经度)。

示范性实施例

图11是说明在搜索引擎的环境中实现的位置分类器100的示范性实施的示意图。多个用户1105可以通过网络1115例如因特网连接到搜索引擎1110。搜索引擎1110可以是局部搜索引擎,它返回指向数据库1120中一组经排名的(ranked)文档的链接局部,这组文档与用户想要施加到某个地理区域的用户查询有关。

在确定数据库1120中的文档的地理相关性(若有的话)的时候,位置分类器100可协助搜索引擎1110。具体地,位置分类器100可以在地理上分类每一个文档,或者文档的一部分,当文档不能肯定地被识别为与特定地理区域相关联。而后所述的地理分类信息被存储在数据库1120中作为相应文档的位置标识符,搜索引擎1110响应用户搜索查询的时候可以使用这些位置标识符。

在另一种可能的示范性实施例中,位置分类器100可以在从用户1105接收的搜索查询上操作。因而位置分类器100可以提供有关搜索查询的地理相关性信息。在返回给用户的相关性结果中所述的信息可以协助搜索引擎1110。

结论

如上所述,位置分类器根据输入文本中的词语/短语产生位置信息。所述的词语/短语可以包括通常被认为地理上不明确的词语/短语。

对于本领域普通技术人员来说,本发明的各个方面,如上所述,可以按图中所图示的实施例中的多种不同形式的软件、固件以及硬件的形式实施。用来实施与本发明一致的各方面的真实软件代码或专用控制硬件不限制本发明。因此,所描述的各方面的操作和行为没有引用特定软件代码—可以理解的是根据在此描述的,本领域普通技术人员能够设计软件和控制硬件来实施所述的各方面。

前述的本发明的优选实施例的描述提供了说明和描述,但是这并非是穷举,或者把本发明限制在所公开的精确形式。根据上述教导,各种修改或者变化是可能的,或者可以从本发明的实践中得到这些修改和变化。例如,尽管以上描述的许多操作以特定的顺序描述,许多操作可同时执行或者按不同的顺序执行。此外,尽管所述的位置分类器通常描述为搜索引擎的一部分,可以理解,更一般地,搜索引擎可以与位置分类器分离。

在本申请中使用的元件、动作或着指令不应被理解为对本发明是关键性的或者必需的,除非明确地指出。同时,如这里所使用的,不加数量限制的项表示一个或者多个项。在仅指一项的时候,使用词语“一个”或者类似的语言。此外,词语“根据”是指“根据,至少部分地根据”,除非明确地陈述其他的含义。本发明的范围由权利要求以及他们的等价物定义。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号