首页> 外文会议>Workshop on natural language processing and computational social sciences >Bag of What? Simple Noun Phrase Extraction for Text Analysis
【24h】

Bag of What? Simple Noun Phrase Extraction for Text Analysis

机译:一袋什么?简单名词短语提取以进行文本分析

获取原文
获取原文并翻译 | 示例

摘要

Social scientists who do not have specialized natural language processing training often use a unigram bag-of-words (BOW) representation when analyzing text corpora. We offer a new phrase-based method, NPFST, for enriching a unigram BOW. NPFST uses a part-of-speech tagger and a finite state transducer to extract multiword phrases to be added to a unigram BOW. We compare NPFST to both 71-gram and parsing methods in terms of yield, recall, and efficiency. We then demonstrate how to use NPFST for exploratory analyses; it performs well, without configuration, on many different kinds of English text. Finally, we present a case study using NPFST to analyze a new corpus of U.S. congressional bills.
机译:没有经过专门自然语言处理训练的社会科学家在分析文本语料库时通常使用unigram词袋(BOW)表示。我们提供了一种新的基于短语的方法NPFST,用于丰富单字弓。 NPFST使用词性标记器和有限状态转换器来提取要添加到unigram BOW中的多词短语。在产量,召回率和效率方面,我们将NPFST与71克和解析方法进行了比较。然后,我们演示如何使用NPFST进行探索性分析。无需配置,它在许多不同种类的英文文本上的效果都很好。最后,我们提出了一个使用NPFST进行案例分析的美国国会法案新资料集。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号