首页> 外文期刊>Computer speech and language >Empirical evaluation of compounds indexing for Turkish texts
【24h】

Empirical evaluation of compounds indexing for Turkish texts

机译:土耳其语文本复合索引的实证评估

获取原文
获取原文并翻译 | 示例
           

摘要

In this article, we describe an empirical evaluation of compounds indexing for Turkish texts. We dive beyond the keyword indexing to propose a framework for Turkish compounds extraction and indexing. We identify twelve Turkish compounds pattern types that we classify in six categories. To extract Turkish compounds, we rely on a light natural language processing approach based on syntactic pattern recognition. We compare different compounds indexing strategies. We also investigate the effectiveness of using one compounds type and the effectiveness of combining different compound types. We conduct experiments over the Milliyet test dataset. The results of our experiments show that using compounds as index terms can improve retrieval performances. However, not all the compound types have a positive impact on the retrieval process. (C) 2019 Elsevier Ltd. All rights reserved.
机译:在本文中,我们描述了对土耳其语文本的化合物索引进行的经验评估。我们不仅仅局限于关键字索引,而是为土耳其化合物的提取和索引提出一个框架。我们确定了十二种土耳其化合物模式类型,将其分为六类。要提取土耳其语化合物,我们依靠基于句法模式识别的轻自然语言处理方法。我们比较了不同化合物的索引策略。我们还研究了使用一种化合物类型的有效性以及组合不同化合物类型的有效性。我们对Milliyet测试数据集进行实验。我们的实验结果表明,使用化合物作为索引项可以提高检索性能。但是,并非所有的化合物类型都对检索过程产生积极影响。 (C)2019 Elsevier Ltd.保留所有权利。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号