文摘
英文文摘
声明
第1章绪论
1.1论文选题背景及意义
1.2国内外研究现状和发展趋势
1.2.1语料库的定义及发展历史
1.2.2语料库的发展方向和前景
1.2.3中文文本分类技术的现状和发展趋势
1.3论文的结构与主要研究工作
第2章自动创建计算机语料库的相关技术理论
2.1计算机语料库的相关理论
2.1.1语料库的特点和建库原则
2.1.2语料库的选样原则
2.1.3语料库的数据管理方式
2.2中文文本分类语料库的特点
2.3典型的中文文本分类语料库简介
2.4主题网页抓取技术
2.4.1网络蜘蛛
2.4.2其他抓取网页方法
2.5网页清洗相关技术
2.5.1HTML、XHTML、XML相关技术标准
2.5.2网页解析技术
2.6中文分词技术
2.6.1中文分词技术简介
2.6.2现有的分词系统
2.7文本分类技术
2.7.1文本表示方法
2.7.2特征词提取方法
2.7.3文本分类方法
第3章文本分类语料库自动建立系统的设计思想
3.1现有中文文本分类语料库的缺点
3.2基于中文文本分类的大规模语料库自动建立系统的基础
3.2.1大规模语料的来源
3.2.2语料库的选样方法
3.2.3小结
3.3基于中文文本分类的大规模语料库自动建立系统的目标
3.4文本分类语料库自动建立系统的设计
3.4.1整体研究思路
3.4.2系统设计的流程图
3.4.2系统具备的功能
第4章文本分类语料库自动建立系统的实现
4.1自动抓取页面
4.1.1 Google Soap API特点
4.1.2自动抓取页面程序实现
4.1.3实验结果分析
4.2页面清洗
4.2.1WEB编码标准
4.2.2 Web编码识别的传统方法
4.2.2 IUC算法的原理
4.2.3 IUC算法的描述
4.2.4算法评测和应用
4.2.5小结
4.3页面标准化处理
4.3.1HTML各种标准的区别
4.3.2网页标准化的思路
4.3.3Tidy使用方法和程序实现介绍
4.3.4实验结果验证
4.4页面解析和主题信息提取
4.4.1解析思路
4.4.2初步清洗
4.4.4正文提取以及噪音去除
4.4.5实验结果分析
4.5中文分词以及停用词处理
4.6类别核心词获取算法
4.6.1目前语料库的结构
4.6.2词典与词频的统计算法
4.6.3核心词算法描述
4.6.4类别核心词的排序算法
4.7语料库扩充及其反馈机制
第5章自动的建立语料库有效性验证
5.1文本分类语料库的评价方法
5.2语料库验证测试的基础
5.3语料库的自动创建
5.4测试结果分析
第6章总结与展望
参考文献
致谢
攻读硕士研究生期间参与的项目和所发表的论文