首页> 中文期刊> 《昆明冶金高等专科学校学报》 >基于 Python 自然语言处理工具包在语料库研究中的运用

基于 Python 自然语言处理工具包在语料库研究中的运用

         

摘要

According to the current domestic corpus based study,AntConc and PowerGREP are the main research tool.Few studies were done using the Python language NLTK packet for data processing and a-nalysis.It can not provide support to the research methods due to the design defect of the software.The Python language NLTK handling package was used in the study so that the data have uniform standards, avoiding the conversion of various types of word processing workshop trouble.It also makes up for the weakness of the range tool such as syntactic analysis,graphic,regular expression search etc.In this pa-per,it was briefly introduced that the application of NLTK processing package based on Python in corpus research.Then it takes the novel Emma written by Austen in Gutenberg corpus as an example to explain how to use the natural language processing to process the data.%国内当前以语料库为基础的研究,在研究工具方面,多以 AntConc、PowerGREP 为主,使用 Python 语言 NLTK 包进行数据处理分析的研究较少,限于软件自身设计,不能灵活地对研究方法提供支持。在研究中使用 Python 语言的 NLTK 处理包,使数据有了统一标准,避免了各类文字处理转换的麻烦,同时也弥补了Range 等工具在句法分析、图形绘制、正则表达式检索等方面的缺憾。针对语料库研究的中文本分词、词形归并、文本检索统计等主要环节,简要介绍 Python 语言的 NLTK 自然语言处理包在语料库研究中的运用,并以古腾堡语料库中的简·奥斯丁小说《艾玛》为例,说明如何运用该自然语言处理包对语料进行加工处理。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号