文本分类语料库自动创建系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大规模计算机语料库包含丰富的语言现象，能够充分的反应语言使用的普遍规律，已经引起许多国家的信息技术领域和语言学界日益浓厚的兴趣，成为自然语言处理领域的热点话题。特别地，随着基于统计规则的研究方法的兴起，语料库更是成为其研究的核心内容和基础。但是目前中文语料库稀缺，尤其是在文本分类领域，各种类型的中文文本分类语料库更是缺乏。在文本分类已经成为大规模数据处理应用的核心和基础的今天，语料库研究的滞后成为信息技术发展的阻碍。目前，创建计算机语料库的方法一般是组织各个领域的专家，从浩如烟海的知识中，选取符合语料库要求的语料，在这个过程中需要大量的人力物力资源，并且创建的语料库的优劣通常与参与专家的水平有关，带有一定的主观特性。同时信息处理技术在快速发展，也需要大量的各种专业、垂直语料库。因此为了减少创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间，本文在对现有各种语料库特点进行分析的基础上，提出了一种自动创建中文文本分类语料库的方法。主要内容包括以下几个方面： 1.设计并实现了一种自动创建中文文本分类语料库系统。该系统能够自动抓取Internet上各个网站的页面，并对其进行页面处理、主题信息提取、核心词获取以及规模控制，最终将这些信息作为语料库的语料。 2.提出并实现了一种自动识别和统一页面编码的算法。该算法能够有效地识别从网络上下载的大量网页的编码方式。同时能够将所有的页面的编码方式转变成一种程序易于处理的方式，并且该模块可以方便地应用到各种Web数据处理的程序中。 3.对下载的页面进行了结构分析，并实现了一种页面正文信息抽取的方法。该方法能够对页面进行处理后取出页面中主题相关信息。 4.提出了类别核心词的概念，同时实现了获取类别核心词的算法。通过该算法能够获取到类别的核心词，在对这些核心词的重要性排序后，可以根据这些核心词和类别的名称联合来扩充语料库的规模。

著录项

作者
吴韦;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名胡燕;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.12;TP311.13;
关键词
计算机网络; 中文语料库; 信息提取; 数据处理;

相似文献

中文文献
外文文献
专利

1. 实时文本分类系统的研究与实现 [J] . 黄旭 ,朱艳琴 ,罗喜召 . 计算机工程 . 2008,第018期
2. 基于粗糙集和模糊聚类理论的文本分类系统的研究与实现 [J] . 郑丽英 ,王海涌 ,刘丽艳 . 铁道学报 . 2007,第001期
3. 基于向量空间模型的文本分类系统的研究与实现 [J] . 陈治纲 ,何丕廉 ,孙越恒 . 中文信息学报 . 2005,第001期
4. 网络智能文本分类系统的研究与实现 [J] . 谢宜辰 . 湘潭大学自然科学学报 . 2000,第001期
5. 文本信息自动分类系统ITC98(Ⅱ)──基于BP网络的文本分类子系统 [J] . 陶兰 ,申军霞 . 中国农业大学学报 . 1999,第4期
6. 创建科学的水工业综合自动化系统——兼谈西门子自动化集成的典型应用 [C] . 陈运珍 . 中国水网2008水业高级技术论坛 . 2008
7. 文本分类语料库自动构建系统的研究与改进 [A] . 李亚洲 . 2011

文本分类语料库自动创建系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅