...
首页> 外文期刊>The international arab journal of information technology >Constructing a Lexicon of Arabic-English Named Entity using SMT and Semantic Linked Data
【24h】

Constructing a Lexicon of Arabic-English Named Entity using SMT and Semantic Linked Data

机译:使用SMT和语义链接数据构造阿拉伯语-英语命名实体的词典

获取原文
获取原文并翻译 | 示例
           

摘要

Named Entity Recognition (NER) is the problem of locating and categorizing atomic entities in a given text. In this work, we used DBpedia Linked datasets and combined existing open source tools to generate from a parallel corpus a bilingual lexicon of Named Entities (NE). To annotate NE in the monolingual English corpus, we used linked data entities by mapping them to Gate Gazetteers. In order to translate entities identified by the gate tool from the English corpus, we used moses, a Statistical Machine Translation (SMT) system. The construction of the Arabic-English NE lexicon is based on the results of moses translation. Our method is fully automatic and aims to help Natural Language Processing (NLP) tasks such as, Machine Translation (MT) information retrieval, text mining and question answering. Our lexicon contains 48753 pairs of Arabic-English NE, it is freely available for use by other researchers.
机译:命名实体识别(NER)是在给定文本中对原子实体进行定位和分类的问题。在这项工作中,我们使用了DBpedia链接数据集,并结合了现有的开放源代码工具,从并行语料库中生成了“命名实体(NE)”的双语词典。为了注释单语英语语料库中的NE,我们通过将链接的数据实体映射到Gate Gazetteers来使用它们。为了翻译由选通工具从英语语料库中识别出的实体,我们使用了摩西(一种统计机器翻译(SMT)系统)。阿拉伯语-英语NE词典的构建基于摩西翻译的结果。我们的方法是全自动的,旨在帮助自然语言处理(NLP)任务,例如机器翻译(MT)信息检索,文本挖掘和问题解答。我们的词典包含48753对阿拉伯语-英语NE,可免费供其他研究人员使用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号