首页> 外文期刊>Information Processing & Management >A lemmatization method for Mongolian and its application to indexing for information retrieval
【24h】

A lemmatization method for Mongolian and its application to indexing for information retrieval

机译:蒙古语的词形化方法及其在信息检索索引中的应用

获取原文
获取原文并翻译 | 示例
       

摘要

In Mongolian, two different alphabets are used, Cyrillic and Mongolian. In this paper, we focus solely on the Mongolian language using the Cyrillic alphabet, in which a content word can be inflected when concatenated with one or more suffixes. Identifying the original form of content words is crucial for natural language processing and information retrieval. We propose a lemmatization method for Mongolian. The advantage of our lemmatization method is that it does not rely on noun dictionaries, enabling us to lemma-tize out-of-dictionary words. We also apply our method to indexing for information retrieval. We use newspaper articles and technical abstracts in experiments that show the effectiveness of our method. Our research is the first significant exploration of the effectiveness of lemmatization for information retrieval in Mongolian.
机译:在蒙古语中,使用了两种不同的字母,西里尔字母和蒙古语。在本文中,我们仅着眼于使用西里尔字母的蒙古语语言,该语言的内容词在与一个或多个后缀连接时会出现变化。识别内容词的原始形式对于自然语言处理和信息检索至关重要。我们为蒙古人提出了一种定形化方法。词素化方法的优势在于它不依赖名词词典,从而使我们能够对字典外单词进行词素化。我们还将我们的方法应用于索引以进行信息检索。我们在实验中使用报纸文章和技术摘要来证明我们方法的有效性。我们的研究是对在蒙古语中进行信息检索的词形化有效性的首次重大探索。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号