首页> 中国专利> 跨语言获取搜索资源的方法和装置及对应搜索方法和装置

跨语言获取搜索资源的方法和装置及对应搜索方法和装置

摘要

本发明提供了一种跨语言获取搜索资源的方法和装置及对应搜索方法和装置,其中获取搜索资源的方法包括:确定目标领域D;利用目标领域D的已有第一语言资源Set(C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F;对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量FeaVec_d

著录项

  • 公开/公告号CN102779135A

    专利类型发明专利

  • 公开/公告日2012-11-14

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN201110124378.9

  • 发明设计人 赵世奇;柴春光;吴华;

    申请日2011-05-13

  • 分类号

  • 代理机构深圳市威世博知识产权代理事务所(普通合伙);

  • 代理人何青瓦

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-12-18 07:16:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-07-01

    授权

    授权

  • 2013-01-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110513

    实质审查的生效

  • 2012-11-14

    公开

    公开

说明书

【技术领域】

本发明涉及计算机技术领域,特别涉及一种跨语言获取搜索资源的方法 和装置及对应搜索方法和装置。

【背景技术】

框计算是2009百度技术创新大会上提出的全新技术,为用户提供基于互 联网的一站式服务。用户只要在系统中输入请求,系统就能够明确识别出用 户需求,并按照需求将用户的请求分配给最优的应用或资源提供商进行处理, 并将处理后得到的结果返回给用户。

当框计算应用于搜索领域时,搜索系统能够识别出用户输入的搜索请求 (query)的需求,例如识别出query所对应的具体领域,然后利用该query 在该领域对应的资源库中进行搜索,并将搜索结果返回给用户,从而为用户 提供该领域中更加专业的信息。

然而,在现有基于框计算的搜索技术中,搜索所使用的资源库通常是单 语的资源库,例如,针对旅游领域,搜索所使用的资源库为中文网站提供的 旅游领域的资源,但在很多情况下,单语的资源库提供的资源并不优质或者 资源很少。例如,如果用户输入query“巴黎旅游”,搜索系统识别出该query 对应旅游领域,显然法文网站提供的资源可能更多且更优质,而现有搜索所 使用的资源库仅为中文网站提供的旅游领域的资源,因此搜索效果较差。

【发明内容】

本发明提供了一种跨语言获取搜索资源的方法和装置及对应搜索方法 和装置,以便于为用户提供更多、更优质的搜索资源,提高搜索效果。

具体技术方案如下:

一种跨语言获取搜索资源的方法,该方法包括:

A、确定目标领域D;

B、利用目标领域D的已有第一语言资源Set(C),结合特征抽取技术以及从 第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量 FeaVec_F;

C、对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各 资源的特征向量FeaVec_di

D、从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度 超过预设阈值T的资源SetD(F);

E、将所述SetD(F)添加入所述目标领域D的搜索资源库RDB(C)。

所述步骤B具体包括:

B11、利用从第一语言到第二语言的机器翻译技术,将所述目标领域D的已 有第一语言资源Set(C)翻译成第二语言资源Set(F);

B12、对所述Set(F)进行特征抽取,得到所述目标领域D的第二语言特征向 量FeaVec_F。

或者,所述步骤B具体包括:

B21、对所述目标领域D的已有第一语言资源Set(C)进行特征抽取,得到所 述目标领域D的第一语言特征向量FeaVec_C;

B22、利用从第一语言到第二语言的机器翻译技术,将所述FeaVec_C翻译 成所述目标领域D的第二语言特征向量FeaVec_F。

上述特征抽取具体包括:

S1、对被抽取资源进行基于文本的分词处理,利用预设的停用词表对分词 处理后得到的词语进行过滤后得到所述被抽取资源的特征词;

S2、按照计算各特征词的权重值;

S3、按照各特征词的权重值进行排序,选择排在前N1个的特征词组成目标 领域D的特征向量,N1为预设的正整数;

其中,W(e)为特征词e的权重值,f(e,Set)为特征词e在所述被抽取资源中出 现的频次;freq(e)为特征词e的绝对词频,从所述被抽取资源所对应语种的通用 语料资源库中统计得到;Freq为所有特征词的绝对词频的最大值;

当所述被抽取资源为所述Set(F)时,所述被抽取资源所对应语种为所述第二 语言,所述步骤S3得到的特征向量为所述FeaVec_F;

当所述被抽取资源为所述Set(C)时,所述被抽取资源所对应语种为所述第一 语言,所述步骤S3得到的特征向量为所述FeaVec_C。

当所述被抽取资源为所述Cor(F)中的各资源时,所述被抽取资源所对应语 种为所述第二语言,所述步骤S3得到的特征向量为所述Cor(F)中各资源的特征 向量FeaVec_di

另外,所述步骤E具体包括:

E11、基于预设的目标领域D的资源挖掘模板,从所述SetD(F)中挖掘出资 源RscD(F);

E12、将所述RscD(F)添加入所述目标领域D的搜索资源库RDB(C);

其中,所述资源挖掘模板包括一个以上实例构成的实例集合,所述实例包 含信息类型和信息表达式中的一种或组合。

其中,所述步骤E12具体包括:

结合从第二语言到第一语言的机器翻译技术,将所述RscD(F)翻译为第一语 言的资源Rsc(C);

将所述Rsc(C)添加入所述目标领域D的搜索资源库RDB(C)。

或者,所述步骤E具体包括:

E21、结合从第二语言到第一语言的机器翻译技术,将所述SetD(F)翻译为 第一语言的资源SetD(C);

E22、将所述SetD(C)添加入所述目标领域D的搜索资源库RDB(C)。

具体地,所述翻译所使用的翻译模型由翻译短语表构成,该翻译短语表包 括:第一语言短语和对应第二语言短语构成的短语对,以及,短语对的翻译分 值;

所述翻译短语表中整合有所述目标领域的翻译词典。

其中,将所述目标领域的翻译词典整合到所述翻译短语表中包括:

将所述目标领域的翻译词典中的词对作为短语对逐一添加到所述翻译短语 表中;其中,

如果所述翻译短语表中尚未包含被添加的词对,则将所述被添加的词对添 加到所述翻译短语表中,且所述被添加的词对在所述翻译短语表中的翻译分值 SPT(ce)为:SPT(ce)=Sdict(ce)×rate;如果所述翻译短语表中已经包含所述被添加的 词对,则不做添加处理;

所述Sdict(ce)为所述被添加的词对ce在所述翻译词典中的翻译分值,rate为从 所述翻译词典到所述翻译短语表的翻译分值比,其中,ai为同时出 现在所述翻译词典和所述翻译短语表中的词对cei在所述翻译词典中的翻译分 值,bi为所述词对cei在所述翻译短语表中的翻译分值,n为同时出现在所述翻译 词典和所述翻译短语表中的词对个数。

或者,将所述目标领域的翻译词典整合到所述翻译短语表中包括:

将所述目标领域的翻译词典中的词对添加到双语平行语料库中;

将所述双语平行语料库中的句对以词语为单位对齐;

对所述双语平行语料库中的句对进行短语对的抽取,基于对抽取的短语对 的统计结果计算各短语对的翻译分值;

将抽取的短语对以及短语对的翻译分值构成所述翻译短语表。

其中,将所述目标领域的翻译词典中的词对添加到双语平行语料库中具体 包括:

将所述翻译词典中的词对复制N份后,再添加到所述双语平行语料库中, 其中N为预设的正整数。

较优地,所述翻译基于预设的所述目标领域D的翻译表达模板执行;

其中所述目标领域D的翻译表达式模板中包括:一个以上实例构成的实例 集合;

所述实例为:由第一语言表达式和对应第二语言表达式构成的表达式对。

一种基于跨语言获取的搜索资源的搜索方法,该方法包括:

A、接收来自用户的搜索请求query;

B、对所述query进行需求识别,识别出所述query所属的领域;

C、在所识别出领域对应的搜索资源库中进行搜索;

D、将搜索结果返回给所述用户;

其中,所述搜索资源库是采用上述跨语言获取搜索资源的方法获取的。

较优地,在所述搜索结果中如果不同来源的资源所提供同一类型信息的内 容发生冲突,则从内容发生冲突的资源中选择置信度最高的资源包含在所述搜 索结果中,或者,按照置信度从高到低在搜索结果中对内容发生冲突的资源进 行排序。

其中,资源的置信度由以下所列置信度类型中的一种或任意组合确定:

资源的来源网站置信度、资源的来源语种置信度以及资源的翻译置信度。

具体地,资源的置信度按照如下公式确定:

score(ri)=Σj=1Mλihj(ri)

其中,score(ri)为资源ri的置信度,M为置信度类型数目,hj(ri)为资源ri在第 j种置信度类型的置信度,λi为预设的各种置信度类型的权重参数。

资源的来源语种置信度依据资源来源的语种与所述query所映射的语种之 间的关系确定,具体为:设置来源于所述query所映射语种的资源的来源语种置 信度高于来源于其他语种的资源的来源语种置信度;

其中,所述query所映射语种的确定方法为:

提取所述query的特征,将所述query的特征与预先训练出的各语种的特征 向量进行相似度计算,确定相似度超过预设的相似度阈值的语种为所述query所 映射的语种。

所述资源的翻译置信度由在获取所述资源时使用的翻译模型中所述资源对 应的翻译分值以及所述资源在语言模型中对应的分值确定。

一种跨语言获取搜索资源的装置,该装置包括:领域确定单元、目标特征 确定单元、特征抽取单元、资源筛选单元和资源添加单元;

所述领域确定单元,用于确定目标领域D;

所述目标特征确定单元,用于利用目标领域D的已有语言资源Set(C),结 合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D 的第二语言特征向量FeaVec_F;

所述特征抽取单元,用于将第二语言的通用语料资源库Cor(F)中的各资源 作为被抽取资源进行特征抽取,得到各资源的特征向量FeaVec_di

所述资源筛选单元,用于从所述Cor(F)中筛选出特征向量FeaVec_di与所述 FeaVec_F之间相似度超过预设阈值T的资源SetD(F);

所述资源添加单元,用于将所述SetD(F)添加入所述目标领域D的搜索资源 库RDB(C)。

其中,所述目标特征确定单元具体包括:第一翻译子单元和第一特征获取 子单元;

所述第一翻译子单元,用于利用从第一语言到第二语言的机器翻译技术, 将所述目标领域D的已有第一语言资源Set(C)翻译成第二语言资源Set(F),将所 述Set(F)发送给所述特征抽取单元;

所述特征抽取单元,用于将所述Set(F)作为被抽取资源进行特征抽取,得到 所述目标领域D的第二语言特征向量FeaVec_F;

所述第一特征获取子单元,用于从所述特征抽取单元获取所述目标领域D 的第二语言特征向量FeaVec_F。

或者,所述目标特征确定单元具体包括:第二特征获取子单元和第二翻译 子单元;

所述第二特征获取子单元,用于将所述Set(C)发送给所述特征抽取单元,从 所述特征抽取单元获取所述目标领域D的第一语言特征向量FeaVec_C,并提供 给所述第二翻译子单元;

所述特征抽取单元,用于将所述Set(C)作为被抽取资源进行特征抽取,得到 所述目标领域D的第一语言特征向量FeaVec_C;

所述第二翻译子单元,用于利用从第一语言到第二语言的机器翻译技术, 将所述FeaVec_C翻译成所述目标领域D的第二语言特征向量FeaVec_F。

上述特征抽取单元具体包括:

分词处理子单元,用于对被抽取资源进行基于文本的分词处理;

过滤处理子单元,用于利用预设的停用词表对分词处理后得到的词语进行 过滤后得到所述被抽取资源的特征词;

权重计算子单元,用于按照计算各特征词的权重 值,其中,W(e)为特征词e的权重值,f(e,Set)为特征词e在所述被抽取资源中出 现的频次;freq(e)为特征词e的绝对词频,从所述被抽取资源所对应语种的通用 语料资源库中统计得到;Freq为所有特征词的绝对词频的最大值;

向量形成子单元,用于按照各特征词的权重值进行排序,选择排在前N1个 的特征词组成目标领域D的特征向量,N1为预设的正整数;

当所述被抽取资源为所述Set(F)时,所述被抽取资源所对应语种为所述第二 语言,所述向量形成子单元形成的特征向量为所述FeaVec_F;

当所述被抽取资源为所述Set(C)时,所述被抽取资源所对应语种为所述第一 语言,所述向量形成子单元形成的特征向量为所述FeaVec_C。

当所述被抽取资源为所述Cor(F)中的各资源时,所述被抽取资源所对应语 种为所述第二语言,所述向量形成子单元形成的特征向量为所述Cor(F)中各资 源的特征向量FeaVec_di

具体地,所述资源添加单元包括:资源挖掘子单元和资源添加子单元;

所述资源挖掘子单元,用于基于预设的目标领域D的资源挖掘模板,从所 述SetD(F)中挖掘出资源RscD(F),并将所述RscD(F)发送给所述资源添加子单 元;

所述资源添加子单元,用于将接收到的资源添加入所述目标领域D的搜索 资源库RDB(C);

其中,所述资源挖掘模板包括一个以上实例构成的实例集合,所述实例包 含信息类型和信息表达式中的一种或组合。

更进一步地,所述资源添加单元还包括:第三翻译子单元,用于获取所述 资源挖掘子单元发送给所述资源添加子单元的RscD(F),结合从第二语言到第一 语言的机器翻译技术,将所述RscD(F)翻译为第一语言的资源Rsc(C),并将所述 Rsc(C)发送给所述资源添加子单元。

或者,所述资源添加单元包括:第四翻译子单元和资源添加子单元;

所述第四翻译子单元,用于结合从第二语言到第一语言的机器翻译技术, 将所述SetD(F)翻译为第一语言的资源SetD(C),并将所述SetD(C)发送给所述资 源添加子单元;

所述资源添加子单元,用于将接收到的资源添加入所述目标领域D的搜索 资源库RDB(C)。

具体地,所述翻译所使用的翻译模型由翻译短语表构成,该翻译短语表包 括:第一语言短语和对应第二语言短语构成的短语对,以及,短语对的翻译分 值;

所述翻译短语表中整合有所述目标领域的翻译词典。

此时,该装置还包括:第一翻译模型整合单元,用于将所述目标领域的翻 译词典中的词对作为短语对逐一添加到所述翻译短语表中;其中,

如果所述翻译短语表中尚未包含被添加的词对,则将所述被添加的词对添 加到所述翻译短语表中,且所述被添加的词对在所述翻译短语表中的翻译分值 SPT(ce)为:SPT(ce)=Sdict(ce)×rate;如果所述翻译短语表中已经包含所述被添加的 词对,则不做添加处理;

所述Sdict(ce)为所述被添加的词对ce在所述翻译词典中的翻译分值,rate为从 所述翻译词典到所述翻译短语表的翻译分值比,其中,ai为同时出 现在所述翻译词典和所述翻译短语表中的词对cei在所述翻译词典中的翻译分 值,bi为所述词对cei在所述翻译短语表中的翻译分值,n为同时出现在所述翻译 词典和所述翻译短语表中的词对个数。

更进一步地,该装置还包括:第二翻译模型整合单元,用于将所述目标领 域的翻译词典中的词对添加到双语平行语料库中,将所述双语平行语料库中的 句对以词语为单位对齐;对所述双语平行语料库中的句对进行短语对的抽取, 基于对抽取的短语对的统计结果计算各短语对的翻译分值;将抽取的短语对以 及短语对的翻译分值构成所述翻译短语表。

较优地,所述第二翻译模型整合单元将所述翻译词典中的词对复制N份后, 再添加到所述双语平行语料库中,其中N为预设的正整数。

更优地,所述翻译基于预设的所述目标领域D的翻译表达模板执行;

其中所述目标领域D的翻译表达式模板中包括:一个以上实例构成的实例 集合;

所述实例为:由第一语言表达式和对应第二语言表达式构成的表达式对。

一种基于跨语言获取的搜索资源的搜索装置,该搜索装置包括:用户侧交 互单元、领域识别单元和搜索处理单元;

所述用户侧交互单元,用于接收来自用户的搜索请求query,将所述搜索处 理单元的搜索结果返回给所述用户;

所述领域识别单元,用于对所述query进行需求识别,识别出所述query所 属的领域;

所述搜索处理单元,用于在所述领域识别单元所识别出领域对应的搜索资 源库中进行搜索;

其中,所述搜索资源库是一种跨语言获取搜索资源的装置获取的。

较优地,该搜索装置还包括:冲突处理单元,用于在所述搜索结果中如果 不同来源的资源所提供同一类型信息的内容发生冲突,则从内容发生冲突的资 源中选择置信度最高的资源包含在所述搜索结果中,或者,按照置信度从高到 低在搜索结果中对内容发生冲突的资源进行排序。

另外,该搜索装置还包括:资源置信度确定单元,用于根据以下所列置信 度类型中的一种或任意组合确定资源的置信度:资源的来源网站置信度、资源 的来源语种置信度以及资源的翻译置信度。

其中,所述资源置信度确定单元具体按照如下公式确定资源的置信度:

score(ri)=Σj=1Mλihj(ri)

其中,score(ri)为资源ri的置信度,M为置信度类型数目,hj(ri)为资源ri在第 j种置信度类型的置信度,λi为预设的各种置信度类型的权重参数。

所述资源置信度确定单元依据资源来源的语种与所述query所映射的语种 之间的关系确定资源的来源语种置信度,具体为:设置来源于所述query所映射 语种的资源的来源语种置信度高于来源于其他语种的资源的来源语种置信度;

所述搜索装置还包括:映射语种确定单元,用于提取所述query的特征,将 所述query的特征与预先训练出的各语种的特征向量进行相似度计算,确定相似 度超过预设的相似度阈值的语种为所述query所映射的语种。

另外,资源置信度确定单元利用在获取所述资源时使用的翻译模型中所 述资源对应的翻译分值以及所述资源在语言模型中对应的分值,确定所述资 源的翻译置信度。

由以上技术方案可以看出,本发明通过跨语言获取搜索资源的方式,能 够将属于目标领域的其他语言资源也添加到搜索资源库中,使得搜索资源库 中存在属于同一领域的来自多种语种的资源,从而在执行该领域的搜索时, 为用户提供更多、更优质的搜索资源,提高搜索效果。

【附图说明】

图1为本发明实施例一提供的跨语言获取搜索资源的方法流程图;

图2为本发明实施例二提供的搜索方法流程图;

图3为本发明是实例三提供的跨语言获取搜索资源的装置结构图;

图4中(a)和(b)分别为目标特征确定单元的两种结构图;

图5为本发明实施例四提供的搜索装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的跨语言获取搜索资源的方法流程图,如图 1所示,该方法可以包括以下步骤:

步骤101:确定目标领域D。

框计算的特色之一就是面向各个领域针对性地提供服务,因此,在资源 挖掘阶段,需要首先选定一个目标领域,例如,可以选择旅游、购物、招聘、 建筑、金融等作为目标领域。在本发明中确定的该目标领域采用D进行标识。

步骤102:利用目标领域D的已有第一语言资源Set(C),结合特征抽取 技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语 言特征向量FeaVec_F。

Set(C)指的是从第一语言的通用语料资源库中已经获取的针对目标领域 D的资源。本发明实施例中涉及的通用语料资源库指的是没有区分具体领域 的所有语料资源构成的大规模资源库,Set(C)可以看做是从第一语言的所有 网页集中已经筛选出的目标领域D对应的网页构成的网页集。

本步骤的实现可以具体采用以下两种方式:

第一种方式:首先将目标领域D的已有第一语言资源Set(C)翻译成第二 语言资源Set(F),即将已有第一语言的网页集合翻译成第二语言的网页集合; 然后,对第二语言资源Set(F)进行特征抽取,得到目标领域D的第二语言特 征向量FeaVec_F。

第二种方式:首先对目标领域D的已有第一语言资源Set(C)进行特征抽 取,得到目标领域的第一语言特征向量FeaVec_C;然后,将第一语言特征向 量FeaVec_C翻译成第二语言特征向量FeaVec_F。

以上两种方式均能够确定出目标领域D的第二语言特征向量FeaVec_F, 但第一种方式更能够充分考虑网页资源中特征词的上下文信息,具有更高的 翻译质量。

具体地,在针对Set(F)或者Set(C)进行特征抽取时,可以采用基于词频 统计的方式。

以上述第一种方式中针对Set(F)进行特征抽取为例,首先对Set(F)中的 资源进行基于文本的分词处理,利用预设的停用词表对分词处理后得到的词 语进行过滤后得到Set(F)的特征词,其中停用词表中包含预先基于词频统计 得到的表意能力很低的词语,例如一些助词、叹词、疑问词、虚词、代词等; 然后按照公式(1)计算各特征词的权重值,按照权重值对各特征词进行排序, 选择排在前N1个的特征词组成目标领域D的第二语言特征向量FeaVec_F。 其中,N1为预设的正整数。

W(e)=tf(e,Set(F))×logFreqFfreqF(e)---(1)

W(e)为特征词e的权重值,tf(e,Set(F))为特征词e在Set(F)中出现的频次。 freqF(e)为特征词e的绝对词频,从第二语言的通用语料资源库中统计得到, 该第二语言的通用语料资源库是一个大规模的不区分领域的通用语料资源 库。FreqF为所有特征词的绝对词频的最大值。由于绝对词频高的词太普遍, 区分性差,公式(1)中体现出在Set(F)中出现频率高的词,而弱化绝对词频 高的词。

第二种方式中,针对Set(C)进行特征抽取时,首先对Set(C)中的资源进 行基于文本的分词处理,利用预设的停用词表对分词处理后得到的词语进行 过滤后得到Set(C)的特征词;然后按照公式(2)计算各特征词的权重值,按 照权重值对各特征词进行排序,选择排在前N2个的特征词组成目标领域D 的第一语言特征向量FeaVec_C。其中,N2为预设的正整数。

W(e)=tf(e,Set(C))×logFreqCfreqC(e),---(2)

其中,W(e)为特征词e的权重值,tf(e,Set(C))为特征词e在Set(C)中出现的 频次。freqC(e)为特征词e的绝对词频,从第一语言的通用语料资源库中统计 得到,该第一语言的通用语料资源库是一个大规模的不区分领域的通用语料 资源库。FreqC为所有特征词的绝对词频的最大值。同样,公式(2)中体现 出在Set(C)中出现频率高的词,而弱化绝对词频高的词。

在本发明中无论是上述第一种方式中涉及的资源的翻译,还是上述第二 种方式中涉及的特征向量的翻译,通常都会涉及专业领域的知识或服务,也 就会涉及专业领域的翻译词典。例如,当上述目标领域D为建筑领域时,需 要建筑领域的翻译词典;当上述目标领域D为金融领域时,需要金融领域的 翻译词典。

首先专业领域的翻译词典可以从该专业领域的翻译目标语言(本步骤中 的翻译目标语言为第二语言)的已有资源中抽取相关术语构成术语词典,然 后基于数据挖掘的方法或者人工的方法对术语词典中的每个术语进行翻译, 从而得到专业领域的翻译词典。

在获取到专业领域的翻译词典后,需要将专业领域的翻译词典与已有的 翻译模型进行整合,采用整合后得到的翻译模型对上述第一种方式中涉及的 资源进行翻译,或者对上述第二种方式中涉及的特征向量进行翻译。其中, 已有的翻译模型实际上是由翻译短语表构成的。其中翻译短语表包括:第一 语言短语和对应第二语言短语构成的短语对,以及短语对的翻译分值。

具体将专业领域的翻译词典与已有的翻译模型进行整合时,可以采用以 下整合策略:

第一种整合策略:直接将专业领域的翻译词典添加到翻译短语表中。在 将专业领域的翻译词典中的词对作为短语对添加到翻译短语表中时,如果翻 译短语表中尚未包含被添加的词对时,则将被添加的词对添加到翻译短语表 中,且被添加的词对在翻译短语表中的翻译分值SPT(ce)可以按照公式(3)进 行计算;如果翻译短语表中已经包含被添加的词对时,则无需执行添加处理。

SPT(ce)=Sdict(ce)×rate    (3)

其中,Sdict(ce)为被添加的词对ce在翻译词典中的翻译分值,rate为从翻译 词典到翻译短语表的翻译分值比,其中,ai为同时出现在翻译词 典和翻译短语表中的词对cei在翻译词典中的翻译分值,bi为词对cei在翻译短 语表中的翻译分值,n为同时出现在翻译词典和翻译短语表中的词对个数。

第二种整合策略:将专业领域的翻译词典添加到双语平行语料库中,然 后统一进行词对齐和短语抽取得到翻译短语表。

双语平行语料库中包含的是句对,翻译词典中包含的是词对,将翻译词 典中的词对作为句对添加到双语平行语料库中;然后将双语平行语料库中的 句对以词为单位进行对齐,即将句对中两个句子中表达同一含义的词语对齐; 对双语平行语料库中的句对进行短语对的抽取,基于对抽取的短语对的统计 结果计算各短语对的翻译分值,将抽取的短语对以及短语对的翻译分值构成 翻译短语表。

由于翻译分值是基于短语对的统计结果的,专业领域的翻译词典中词对 出现的概率较低,可能会造成计算的翻译分值较低,为了加大专业领域的翻 译词典中词对的翻译分值,可以在将翻译词典中的词对添加到双语平行语料 库中时,可以将翻译词典中的词对复制N份后,再添加到双语平行语料库中, 其中N为预设的正整数。

步骤103:对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽 取,获取各资源的特征向量FeaVec_di

同样,对Cor(F)各资源的特征向量的抽取方式与步骤102中描述的特征 抽取方式相同,即针对每一个资源di,抽取特征词,按照公式(4)计算特征 值的权重值,按照权重值对各特征词进行排序,选择排在前N3个的特征词 构成该资源di的特征向量FeaVec_di,N3为预设的正整数。

W(e)=tf(e,di)×logFreqdfreqd(e),---(4)

其中,W(e)为特征词e的权重值,tf(e,di)为特征词e在di中出现的频次, freqd(e)为特征词e的绝对词频,从第二语言的通用语料资源库中统计得到。 Freqd为所有特征词的绝对词频的最大值。

步骤104:从第二语言的通用语料资源库Cor(F)中筛选出特征向量 FeaVec_di与第二语言特征向量FeaVec_F之间相似度超过设定阈值T的资 源SetD(F)。

本步骤实际是从第二语言的通用语料资源库Cor(F)中筛选出属于目标领 域D的资源SetD(F)作为添加入搜索资源库RDB(C)的候选资源。在计算相似 度时可以采用通用的余弦相似度的计算方式。

步骤105:基于目标领域D的资源挖掘模板,从SetD(F)中挖掘出资源 RscD(F)。

由于在筛选出的资源SetD(F)中,可能会包含多种类型的信息,较优地, 可以对其中不同类型的信息进行筛选和整理,从而形成更有序更易查询的资 源。例如,在天气领域的资源中,各页面中可能会包含一些对搜索无用的广 告信息、版权信息、导航信息等,可以对这些信息进行过滤;各页面中天气 领域相关的信息可能会包含:地理信息、温度信息、湿度信息、风力信息、 雨雪信息、时间信息等,可以对网页中的这些信息基于预设的资源挖掘模板 进行筛选和整理,最终形成资源RscD(F)。

该资源挖掘模板可以采用人工的方式或者数据挖掘的方式配置。基于目 标领域D的资源挖掘模板包含实例集合{k1,k2,...,kn},各实例可以包含:信 息类型、信息表达式中的一种或组合。例如,天气领域可以采用的资源挖掘 模板包括:“地点信息+时间信息+温度信息”、“地点信息+时间信息+风力 信息”、“地点信息+时间信息+雨雪信息”、“地点信息+时间信息+湿度信 息”、“地点信息+时间信息+温度信息+风力信息+湿度信息+雨雪信息”等 实例。

本步骤实际就是按照资源挖掘模板中的实例从SetD(F)中抽取资源形成 RscD(F),例如,假设天气领域的资源挖掘模板中包含的实例为“地点信息+ 时间信息+温度信息”以及“地点信息+时间信息+风力信息”,则SetD(F)的 网页中抽取符合该实例格式的信息形成RscD(F)。

本步骤主要用于搜索资源库RDB(C)是结构化数据库时使用,如果搜索 资源库RDB(C)是非结构化数据库,则也可以不执行本步骤,将步骤104筛 选出的资源SetD(F)直接添加入目标领域D对应的搜索资源库RDB(C),或者, 将步骤104筛选出的资源SetD(F)经过步骤106翻译为第一语言的资源后添加 入目标领域D对应的搜索资源库RDB(C)。

步骤106:结合从第二语言到第一语言的机器翻译技术,将挖掘出的资 源RscD(F)翻译为第一语言的资源Rsc(C)。

本步骤中涉及的翻译与步骤102涉及的翻译原理基本相同,将第二语言 的资源RscD(F)翻译为第一语言的资源Rsc(C)时,同样会涉及专业领域的知 识或服务,也会涉及专业领域的翻译词典。

专业领域的翻译词典可以从该专业领域的翻译目标语言(本步骤中的翻 译目标语言为第一语言)的已有资源中抽取相关术语构成术语词典,然后基 于数据挖掘的方法或者人工的方法对术语词典中的每个术语进行翻译,从而 得到专业领域的翻译词典。

在获取到专业领域的翻译词典后,需要将专业领域的翻译词典与已有的 翻译模型进行整合,采用整合后得到的翻译模型将第二语言的资源RscD(F) 翻译为第一语言的资源Rsc(C)。其中,已有的翻译模型实际上是由翻译短语 表构成的。其中翻译短语表包括:第一语言短语和对应第二语言短语构成的 短语对,以及短语对的翻译分值。

具体将专业领域的翻译词典与已有的翻译模型进行整合时,可以采用以 下整合策略:

第一种整合策略:直接将专业领域的翻译词典添加到翻译短语表中。在 将专业领域的翻译词典中的词对作为短语对添加到翻译短语表中时,如果翻 译短语表中尚未包含被添加的词对时,则将被添加的词对添加到翻译短语表 中且被添加的词对在翻译短语表中的翻译分值SPT(ce)可以按照公式(3)进行 计算;如果翻译短语表中已经包含被添加的词对时,则无需进行添加处理。

SPT(ce)=Sdict(ce)×rate    (3)

其中,Sdict(ce)为被添加的词对ce在翻译词典中的翻译分值,rate为从翻译 词典到翻译短语表的翻译分值比,其中,ai为同时出现在翻译词 典和翻译短语表中的词对cei在翻译词典中的翻译分值,bi为词对cei在翻译短 语表中的翻译分值,n为同时出现在翻译词典和翻译短语表中的词对个数。

第二种整合策略:将专业领域的翻译词典添加到双语平行语料库中,然 后统一进行词对齐和短语抽取得到翻译短语表。

双语平行语料库中包含的是句对,翻译词典中包含的是词对,将翻译词 典中的词对作为句对添加到双语平行语料库中;然后将双语平行语料库中的 句对以词为单位进行对齐,即将句对中两个句子中表达同一含义的词语对齐; 对双语平行语料库中的句对进行短语对的抽取,基于对抽取的短语对的统计 结果计算各短语对的翻译分值,将抽取的短语对以及短语对的翻译分值构成 翻译短语表。

由于翻译分值是基于短语对的统计结果的,专业领域的翻译词典中词对 出现的概率较低,可能会造成计算的翻译分值较低,为了加大专业领域的翻 译词典中词对的翻译分值,可以在将翻译词典中的词对添加到双语平行语料 库中时,可以将翻译词典中的词对复制N份后,再添加到双语平行语料库中, 其中N为预设的正整数。

另外,除了专业领域的词汇之外,专业领域的知识和服务往往在表达形 式上也有特定模式。例如,天气领域的表达形式通常是固定的,各种语言的 资源所提供的天气信息在表达形式上是大同小异的。因此,可以预先挖掘出 各领域的翻译表达模板,按照该翻译表达模板进行翻译。另外,需要说明的 是,在步骤102中第一种方式所述的将Set(C)翻译成第二语言资源Set(F)时, 也可以基于预设的目标领域D的翻译表达模板执行。

翻译表达模板中可以包含一个以上实例构成的实例集合{h1,h2,...,hm}, 其中每个实例都包含第一语言和第二语言的表达式对。例如,对于天气领域 的一个实例可以为包含如下两个表达式的表达式对:地点信息+雨雪信息+ “温度是”+最低温度+“至”+最高温度,地点信息+“is”+雨雪信息+“with the temperature from”+最低温度+“to”+最高温度。

本步骤中可以利用目标领域D的翻译表达模板将挖掘出的资源RscD(F) 翻译为第一语言的资源Rsc(C)。举个例子,假设第二语言的资源“Shanghai is rainy with temperature from-1℃to 10℃”,按照天气领域的翻译表达模板中 的实例,可以将其翻译为“上海阴雨温度是-1℃至10℃”。

其中,目标领域D的翻译表达模板可以采用人工的方式或者数据挖掘的 方式配置。其中数据挖掘方式可以包括:预先对目标领域中翻译目标语言(本 步骤中为第一语言)的已有资源进行文本分析后,抽取出其中的高频表达式, 然后将该高频表达式翻译为对应的翻译源语言(本步骤中为第二语言)表达 式,将第一语言表达式和第二语言表达式构成的表达式对作为翻译表达模板 的一个实例。

步骤107:将Rsc(C)添加入目标领域D对应的搜索资源库RDB(C),其 中,RDB(C)中包含目标领域D的第一语言的已有资源。

通过上述流程可以将目标领域D中第二语言的资源以第一语言的形式添 加入搜索资料库RDB(C)中,按照同样的方式可以将其他语言,诸如第三语 言、第四语言等资源以第一语言的形式添加入RDB(C)中。例如,可以采用 上述方式将建筑领域中英文的相关资源、日文的相关资源、法文的相关资源 等都添加到中文的搜索资料库RDB(C)中。

需要说明的是,上述步骤106是可选步骤,目的是为了更加方便使用第 一语言的用户,即使用搜索资源库RDB(C)进行搜索后返回的搜索结果均使 用第一语言。也可以不执行本步骤106,直接执行步骤107,即直接将第二语 言的资源RscD(F)直接添加入目标领域D对应的搜索资源库RDB(C),这样 在返回给用户的搜索结果中就可能包含第二语言的资源。

实施例一中所述的流程实际上是搜索系统中后台执行的操作,在此对实 施例一的流程举一个实例简单说明。假设目标领域D为天气领域,原来搜索 资料库RDB(C)中都是来源于中文网站的资源,希望将来源于英文的、法文 的以及日文的网站资源也添加到RDB(C)中。

在此,仅以英文为例,其他语言的执行过程类似:

将天气领域已有的中文网页集Set(C)翻译成英文后,形成英文网页集 Set(F);然后对英文网页集Set(F)进行特征抽取后,得到天气领域对应的英文 特征向量FeaVec_F。例如该特征向量FeaVec_F中可能包含有一系列特征词: {weather,temperature,rainy,cloudy,misty,drought,storm,snowy,storm,...}。

对英文的通用语料资源库Cor(F)中的各资源进行特征抽取,获取各资源 的特征向量FeaVec_di,计算各资源的特征向量FeaVec_di与FeaVec_F之间 的相关度,从Cor(F)中筛选出相关度超过设定阈值的资源SetD(F)。即通过相 似度计算的方式从所有英文的语料资源库Cor(F)中筛选出天气领域的资源 SetD(F)。

如果预先定义有天气领域的资源挖掘模板,可以利用资源挖掘模板从筛 选出的英文资源SetD(F)中进一步筛选和整理出不同类型的信息,例如具体的 地理信息、温度信息、湿度信息、风力信息等,最终形成天气领域的英文资 源RscD(F)。

为了方便中文用户的浏览需要,可以将RscD(F)翻译为中文,形成中文 资源Rsc(C),将Rsc(C)添加入天气领域的中文搜索资源库RDB(C)中。这样, 就实现了跨语言的资源获取,使RDB(C)中包含了天气领域的来源于英文网 站的资源。针对天气领域的query,采用RDB(C)进行的搜索返回的搜索结果 就包含有来源于英文网站的资源。

采用同样的方法,也可以使RDB(C)中包含有来源于法文网站的资源、 日文网站的资源等,从而为用户返回更多更优质的搜索结果。

至此实施例一所示流程结束。

实施例二、

图2为本发明实施例二提供的搜索方法流程图,该搜索方法基于通过实 施例一所述方法获取的搜索资源。如图2所示,该方法可以包括以下步骤:

步骤201:接收来自用户的query。

步骤202:对query进行需求识别,识别出query所属的领域。

步骤203:在所识别出领域对应的搜索资源库中进行搜索。

假设识别出query所属的领域为实施例一中所述的目标领域D,则在该 目标领域D对应的搜索资源库RDB(C)中进行搜索。由于该RDB(C)中包含了 跨语言获取的多种语言的搜索资源,因此,能够为用户提供更多且更丰富的 资源。

例如,通过实施例一方式跨语言获取到了旅游领域的来自法文网站的资 源,也就是说搜索资源库RDB(C)中包含了旅游领域的来自法文网站的资源, 当用户输入“巴黎旅游”的query时,识别出该query所属领域为旅游领域, 因此,在返回给用户的搜索结果中就包含有来自法文网站的资源,该资源相 对于中文网站的资源来说,可能更加优质。

步骤204:将搜索结果返回给用户。

在向用户返回搜索结果时,可能会存在这样的问题:不同来源的资源在 提供同一类型信息时,同一类型信息的内容发生冲突,例如,对于“纽约天 气”这一query,在获取的搜索结果中,可能包含来自中国、美国和英国的 天气预报网站上的资源,但三个网站的资源中提供的温度信息可能并不相同。 这就需要从中甄选出置信度最高的资源,仅将内容发生冲突的资源中置信度 最高的资源包含在搜索结果中,或者按照置信度从高到低在搜索结果中对内 容发生冲突的资源进行排序。

在确定各资源的置信度时,可以参考以下所列置信度类型中的一种或任 意组合:

1)来源网站置信度,例如中央气象台的天气预报结果置信度高于某不知 名网站。

2)来源语种置信度,来源语种置信度可以依据资源来源的语种与用户 query所映射的语种之间的关系来确定。例如对于“日本天气”的query而 言,该query所映射的语种为日文,为了反映日文网站提供的资源更准确, 可以将来源于日文的资源的来源语种置信度设置的较高,将来源于其他资源 的来源语种置信度设置的较低。

本发明实施例中,可以预先对各语种的已有资源进行挖掘,训练出各语 种的特征向量;用户输入query后,提取该query的特征,将提取的特征与 各语种的特征向量进行相似度计算,确定相似度超过预设的相似度阈值的语 种为该query所映射的语种。

例如,对日文对应的已有资源进行挖掘,训练出特征向量包括:东京、 日本、相扑、和服、小泉、樱花......。

当用户输入的源语言query为“日本天气”,则提取该query的特征并 与各语言的特征向量进行相似度计算,确定与日文的特征向量之间的相似度 超过预设的相似度阈值,则确定该query所映射的语种为日文。如果基于天 气领域对该query进行搜索后,在该query的搜索结果中,某个资源的来源 语种为日文,则设置该资源具有较高的来源语种置信度。

3)翻译置信度,这是从可读性来考虑的,翻译置信度低意味着资源的可 读性不好,质量较低。其中,翻译置信度可以由资源在翻译模型中对应的翻 译分值和语言模型中对应的分值确定。其中,资源在翻译模型中对应的翻译 分值可以由该资源所使用的各短语对在翻译模型中的翻译分值共同确定,例 如,某个资源使用了翻译模型中的多个短语对,则该资源在翻译模型中对应 的翻译分值可以该资源所使用的各短语对在翻译模型中的翻译分值的平均 值。语言模型中的分值是由各词语之间的搭配状况统计得到的,资源在语言 模型中对应的分值也可以由该资源所使用的各词语搭配在语言模型中的分值 共同确定。

综合考虑多种置信度类型时,可以将提供同一类型信息的资源按照如下 公式的方式进行打分,按照打分的状况从中仅选择打分分值最高的资源包含 在搜索结果中,或者,也可以将提供统一类型信息的资源都包含在搜索结果 中但按照打分分值对各资源进行排序。

score(ri)=Σj=1Mλihj(ri)---(6)

其中,score(ri)为资源ri的打分分值,即置信度,M为考虑的置信度类型 数目,hj(ri)为资源ri在第j种置信度类型的置信度。λi为预设的各种置信度类 型的权重参数。

以上是对本发明所提供的方法进行的描述,下面通过实施例三和实施例 四分别对本发明所提供的跨语言获取搜索资源的装置和搜索装置进行详细描 述。

实施例三、

图3为本发明实施例三提供的跨语言获取搜索资源的装置结构图,如图3 所示,该装置可以包括:领域确定单元300、目标特征确定单元310、特征抽取 单元320、资源筛选单元330和资源添加单元340。

领域确定单元300,用于确定目标领域D。

目标特征确定单元310,用于利用目标领域D的已有语言资源Set(C),结合 特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的 第二语言特征向量FeaVec_F。

特征抽取单元320,用于将第二语言的通用语料资源库Cor(F)中的各资源作 为被抽取资源进行特征抽取,得到各资源的特征向量FeaVec_di

资源筛选单元330,用于从Cor(F)中筛选出特征向量FeaVec_di与FeaVec_F 之间相似度超过预设阈值T的资源SetD(F)。

资源添加单元340,用于将SetD(F)添加入目标领域D的搜索资源库 RDB(C)。

其中,目标特征确定单元310可以存在两种结构:

第一种结构如图4中的(a)所示,可以具体包括:第一翻译子单元401和 第一特征获取子单元402。

第一翻译子单元401,用于利用从第一语言到第二语言的机器翻译技术,将 目标领域D的已有第一语言资源Set(C)翻译成第二语言资源Set(F),将Set(F)发 送给特征抽取单元320。

特征抽取单元320,用于将Set(F)作为被抽取资源进行特征抽取,得到目标 领域D的第二语言特征向量FeaVec_F。

第一特征获取子单元402,用于从特征抽取单元320获取目标领域D的第 二语言特征向量FeaVec_F。

也就是说,第一种结构先将将目标领域D的已有第一语言资源Set(C)翻译 成第二语言资源Set(F),然后再对Set(F)进行特征抽取,得到目标领域D的第 二语言特征向量FeaVec_F。

第二种结构如图4中的(b)所示,目标特征确定单元310可以具体包括: 第二特征获取子单元411和第二翻译子单元412。

第二特征获取子单元411,用于将Set(C)发送给特征抽取单元320,从特征 抽取单元320获取目标领域D的第一语言特征向量FeaVec_C,并提供给第二翻 译子单元412。

特征抽取单元320,用于将Set(C)作为被抽取资源进行特征抽取,得到目标 领域D的第一语言特征向量FeaVec_C。

第二翻译子单元412,用于利用从第一语言到第二语言的机器翻译技术,将 FeaVec_C翻译成目标领域D的第二语言特征向量FeaVec_F。

也就是说,第二种结构先对Set(C)进行特征抽取,得到目标领域D的第一 语言特征向量FeaVec_C,再将FeaVec_C翻译为第二语言特征向量FeaVec_F。

上述的特征抽取单元320可以具体包括:分词处理子单元321、过滤处理子 单元322、权重计算子单元323以及向量形成子单元324。

分词处理子单元321,用于对被抽取资源进行基于文本的分词处理。

过滤处理子单元322,用于利用预设的停用词表对分词处理后得到的词语进 行过滤后得到被抽取资源的特征词。

权重计算子单元323,用于按照计算各特征词的 权重值,其中,W(e)为特征词e的权重值,f(e,Set)为特征词e在被抽取资源中出 现的频次;freq(e)为特征词e的绝对词频,从被抽取资源所对应语种的通用语料 资源库中统计得到;Freq为所有特征词的绝对词频的最大值。

向量形成子单元324,用于按照各特征词的权重值进行排序,选择排在前 N1个的特征词组成目标领域D的特征向量,N1为预设的正整数。

其中,当被抽取资源为Set(F)时,被抽取资源所对应语种为第二语言,向量 形成子单元324形成的特征向量为FeaVec_F。

当被抽取资源为Set(C)时,被抽取资源所对应语种为第一语言,向量形成子 单元324形成的特征向量为FeaVec_C。

当被抽取资源为Cor(F)中的各资源时,被抽取资源所对应语种为第二语言, 向量形成子单元324形成的特征向量为Cor(F)中各资源的特征向量FeaVec_di

另外,上述资源添加单元340可以包括:资源挖掘子单元341和资源添加 子单元342。

资源挖掘子单元341,用于基于预设的目标领域D的资源挖掘模板,从 SetD(F)中挖掘出资源RscD(F),并将RscD(F)发送给资源添加子单元342。

资源添加子单元342,用于将接收到的资源添加入目标领域D的搜索资源 库RDB(C)。

其中,资源挖掘模板可以包括一个以上实例构成的实例集合,实例包含信 息类型和信息表达式中的一种或组合。

基于上述结构,资源添加单元340还可以包括:第三翻译子单元343,用于 获取资源挖掘子单元341发送给资源添加子单元342的RscD(F),结合从第二语 言到第一语言的机器翻译技术,将RscD(F)翻译为第一语言的资源Rsc(C),并将 Rsc(C)发送给资源添加子单元342。

或者,资源添加单元还可以采用另一种结构(该结构在图3中未示出),包 括:第四翻译子单元和资源添加子单元。

第四翻译子单元,用于结合从第二语言到第一语言的机器翻译技术,将 SetD(F)翻译为第一语言的资源SetD(C),并将SetD(C)发送给资源添加子单元;

资源添加子单元,用于将接收到的资源添加入目标领域D的搜索资源库 RDB(C)。

其中,上述第一翻译子单元401、第二翻译子单元412、第三翻译子单元343 和第四翻译子单元在进行翻译所使用的翻译模型由翻译短语表构成,该翻译短 语表包括:第一语言短语和对应第二语言短语构成的短语对,以及,短语对的 翻译分值。其中,翻译短语表中整合有目标领域的翻译词典。

由于在专业领域中,往往会涉及专业领域的知识和服务,因此在进行翻译 时,也会涉及专业领域的词汇翻译,为了达到更好的翻译效果,如上所述会将 目标领域的翻译词典整合到翻译短语表中。在进行整合时可以采用实施例一中 所述的两种整合方式,相应地,装置可以采用以下两种整合单元,即:

该装置还可以包括:第一翻译模型整合单元350,用于将目标领域的翻译词 典中的词对作为短语对逐一添加到翻译短语表中。

其中,如果翻译短语表中尚未包含被添加的词对,则将被添加的词对添加 到翻译短语表中,且被添加词对在翻译短语表中的翻译分值SPT(ce)按照 SPT(ce)=Sdict(ce)×rate进行计算;如果翻译短语表中已经包含被添加的词对,则无 需进行添加处理。

Sdict(ce)为被添加的词对ce在翻译词典中的翻译分值,rate为从翻译词典到翻 译短语表的翻译分值比,其中,ai为同时出现在翻译词典和翻译短 语表中的词对cei在翻译词典中的翻译分值,bi为词对cei在翻译短语表中的翻译 分值,n为同时出现在翻译词典和翻译短语表中的词对个数。

或者,采用第二翻译模型整合单元(图3中未示出),用于将目标领域的翻 译词典中的词对添加到双语平行语料库中,将双语平行语料库中的句对以词语 为单位对齐;对双语平行语料库中的句对进行短语对的抽取,基于对抽取的短 语对的统计结果计算各短语对的翻译分值;将抽取的短语对以及短语对的翻译 分值构成翻译短语表。

由于翻译分值是基于短语对的统计结果的,专业领域的翻译词典中词对出 现的概率较低,可能会造成计算的翻译分值较低,为了加大专业领域的翻译词 典中词对的翻译分值,第二翻译模型整合单元可以将翻译词典中的词对复制N 份后,再添加到双语平行语料库中,其中N为预设的正整数。

另外,除了专业领域的词汇之外,专业领域的知识和服务往往在表达形式 上也有特定模式,为了使翻译结果能符合特定模式的习惯,上述第一翻译子单 元401、第三翻译子单元343和第四翻译子单元进行的翻译基于预设的目标领域 D的翻译表达模板执行。其中目标领域D的翻译表达式模板中包括:一个以上 实例构成的实例集合;各实例可以为:由第一语言表达式和对应第二语言表达 式构成的表达式对。

实施例四、

图5为本发明实施例四提供的搜索装置结构图,该装置属于搜索系统前台 的装置,其对应的后台使用实施例三中所述的装置来获取搜索所使用的搜索资 源。如图5所示,该搜索装置可以包括:用户侧交互单元500、领域识别单元 510和搜索处理单元520。

用户侧交互单元500,用于接收来自用户的query,将搜索处理单元520的 搜索结果返回给用户。

领域识别单元510,用于对query进行需求识别,识别出query所属的领域。

搜索处理单元520,用于在领域识别单元510所识别出领域对应的搜索资源 库中进行搜索。

其中,搜索资源库是实施例三所示的装置获取的。

为了解决在搜索结果中,不同来源的资源在提供同一类型信息时,同一类 型信息的内容可能发生冲突的问题,该搜索装置还可以包括:冲突处理单元530, 用于在搜索结果中如果不同来源的资源所提供同一类型信息的内容发生冲突, 则从内容发生冲突的资源中选择置信度最高的资源包含在搜索结果中,或者, 按照置信度从高到低在搜索结果中对内容发生冲突的资源进行排序。

该搜索装置还包括:资源置信度确定单元540,用于根据以下所列置信度类 型中的一种或任意组合确定资源的置信度:资源的来源网站置信度、资源的来 源语种置信度以及资源的翻译置信度。

其中,资源置信度确定单元540可以按照如下公式确定资源的置信度:

score(ri)=Σj=1Mλihj(ri)

其中,score(ri)为资源ri的置信度,M为置信度类型数目,hj(ri)为资源ri在第 j种置信度类型的置信度,λi为预设的各种置信度类型的权重参数。

在确定资源的来源语种置信度时,资源置信度确定单元540可以依据资源 来源的语种与query所映射的语种之间的关系确定资源的来源语种置信度,具体 为:设置来源于query所映射语种的资源的来源语种置信度高于来源于其他语种 的资源的来源语种置信度。

此时,该搜索装置还可以包括:映射语种确定单元550,用于提取query的 特征,将query的特征与预先训练出的各语种的特征向量进行相似度计算,确定 相似度超过预设的相似度阈值的语种为query所映射的语种。

在确定资源的翻译置信度时,资源置信度确定单元540可以利用在获取资 源时使用的翻译模型中资源对应的翻译分值以及资源在语言模型中对应的分 值,确定资源的翻译置信度。

其中,资源在翻译模型中对应的翻译分值可以由该资源所使用的各短语 对在翻译模型中的翻译分值共同确定。资源在语言模型中对应的分值可以由 该资源所使用的各词语搭配在语言模型中的分值共同确定。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号