首页> 中文学位 >文本分类语料库自动创建系统的研究与实现
【6h】

文本分类语料库自动创建系统的研究与实现

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1论文选题背景及意义

1.2国内外研究现状和发展趋势

1.2.1语料库的定义及发展历史

1.2.2语料库的发展方向和前景

1.2.3中文文本分类技术的现状和发展趋势

1.3论文的结构与主要研究工作

第2章自动创建计算机语料库的相关技术理论

2.1计算机语料库的相关理论

2.1.1语料库的特点和建库原则

2.1.2语料库的选样原则

2.1.3语料库的数据管理方式

2.2中文文本分类语料库的特点

2.3典型的中文文本分类语料库简介

2.4主题网页抓取技术

2.4.1网络蜘蛛

2.4.2其他抓取网页方法

2.5网页清洗相关技术

2.5.1HTML、XHTML、XML相关技术标准

2.5.2网页解析技术

2.6中文分词技术

2.6.1中文分词技术简介

2.6.2现有的分词系统

2.7文本分类技术

2.7.1文本表示方法

2.7.2特征词提取方法

2.7.3文本分类方法

第3章文本分类语料库自动建立系统的设计思想

3.1现有中文文本分类语料库的缺点

3.2基于中文文本分类的大规模语料库自动建立系统的基础

3.2.1大规模语料的来源

3.2.2语料库的选样方法

3.2.3小结

3.3基于中文文本分类的大规模语料库自动建立系统的目标

3.4文本分类语料库自动建立系统的设计

3.4.1整体研究思路

3.4.2系统设计的流程图

3.4.2系统具备的功能

第4章文本分类语料库自动建立系统的实现

4.1自动抓取页面

4.1.1 Google Soap API特点

4.1.2自动抓取页面程序实现

4.1.3实验结果分析

4.2页面清洗

4.2.1WEB编码标准

4.2.2 Web编码识别的传统方法

4.2.2 IUC算法的原理

4.2.3 IUC算法的描述

4.2.4算法评测和应用

4.2.5小结

4.3页面标准化处理

4.3.1HTML各种标准的区别

4.3.2网页标准化的思路

4.3.3Tidy使用方法和程序实现介绍

4.3.4实验结果验证

4.4页面解析和主题信息提取

4.4.1解析思路

4.4.2初步清洗

4.4.4正文提取以及噪音去除

4.4.5实验结果分析

4.5中文分词以及停用词处理

4.6类别核心词获取算法

4.6.1目前语料库的结构

4.6.2词典与词频的统计算法

4.6.3核心词算法描述

4.6.4类别核心词的排序算法

4.7语料库扩充及其反馈机制

第5章自动的建立语料库有效性验证

5.1文本分类语料库的评价方法

5.2语料库验证测试的基础

5.3语料库的自动创建

5.4测试结果分析

第6章总结与展望

参考文献

致谢

攻读硕士研究生期间参与的项目和所发表的论文

展开▼

摘要

大规模计算机语料库包含丰富的语言现象,能够充分的反应语言使用的普遍规律,已经引起许多国家的信息技术领域和语言学界日益浓厚的兴趣,成为自然语言处理领域的热点话题。特别地,随着基于统计规则的研究方法的兴起,语料库更是成为其研究的核心内容和基础。但是目前中文语料库稀缺,尤其是在文本分类领域,各种类型的中文文本分类语料库更是缺乏。在文本分类已经成为大规模数据处理应用的核心和基础的今天,语料库研究的滞后成为信息技术发展的阻碍。目前,创建计算机语料库的方法一般是组织各个领域的专家,从浩如烟海的知识中,选取符合语料库要求的语料,在这个过程中需要大量的人力物力资源,并且创建的语料库的优劣通常与参与专家的水平有关,带有一定的主观特性。同时信息处理技术在快速发展,也需要大量的各种专业、垂直语料库。因此为了减少创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间,本文在对现有各种语料库特点进行分析的基础上,提出了一种自动创建中文文本分类语料库的方法。主要内容包括以下几个方面: 1.设计并实现了一种自动创建中文文本分类语料库系统。该系统能够自动抓取Internet上各个网站的页面,并对其进行页面处理、主题信息提取、核心词获取以及规模控制,最终将这些信息作为语料库的语料。 2.提出并实现了一种自动识别和统一页面编码的算法。该算法能够有效地识别从网络上下载的大量网页的编码方式。同时能够将所有的页面的编码方式转变成一种程序易于处理的方式,并且该模块可以方便地应用到各种Web数据处理的程序中。 3.对下载的页面进行了结构分析,并实现了一种页面正文信息抽取的方法。该方法能够对页面进行处理后取出页面中主题相关信息。 4.提出了类别核心词的概念,同时实现了获取类别核心词的算法。通过该算法能够获取到类别的核心词,在对这些核心词的重要性排序后,可以根据这些核心词和类别的名称联合来扩充语料库的规模。

著录项

  • 作者

    吴韦;

  • 作者单位

    武汉理工大学;

  • 授予单位 武汉理工大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 胡燕;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.12;TP311.13;
  • 关键词

    计算机网络; 中文语料库; 信息提取; 数据处理;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号