With the worldwide growth of the Internet, research on Cross-Language Information Retrieval (CLIR) is being paid much attention. Existing CLIR approaches based on query translation require parallel corpora or comparable corpora for the disambiguation of translated query terms. However, those natural language resources are not readily available. In this paper, we propose a disambiguation method for dictionary-based query translation that is independent of the availability of such scarce language resources, while achieving adequate retrieval effectiveness by utilizing Web documents as a corpus and using co-occurrence information between terms within that corpus. In the experiments, our method achieved 97% of manual translation case in terms of the average precision.
随着Internet在世界范围内的发展,跨语言信息检索(CLIR)的研究受到了广泛关注。现有的基于查询翻译的CLIR方法需要并行语料库或类似语料库,以消除翻译后的查询词的歧义。但是,这些自然语言资源并不容易获得。在本文中,我们提出了一种基于字典的查询翻译的歧义消除方法,该方法与此类稀缺语言资源的可用性无关,同时通过将Web文档用作语料库并在该语料库中的词之间使用共现信息来实现足够的检索效率。 。在实验中,我们的方法在平均翻译精度上达到了97%的人工翻译情况。 P>
Graduate School of Information Science, Nara Institute of Science and Technology (NAIST), Japan;
机译:跨语言信息检索中的查询歧义消除与扩展研究
机译:使用代表性查询样本评估Web搜索引擎的检索效率
机译:基于目标文档集合的术语歧义消除技术用于跨语言信息检索:技术之间性能的实证比较
机译:使用搜索引擎进行Web跨语言信息检索的查询词歧义消除
机译:大型Web搜索引擎中的索引压缩和高效查询处理。
机译:互联网上与健康相关的搜索的普及率是多少?互联网上搜索引擎查询的定性和定量分析
机译:使用搜索引擎进行Web跨语言信息检索的查询词歧义消除