声明
摘要
1.1 研究目的和意义
1.2 国内外相关研究现状
1.2.1 网络爬虫
1.2.2 大数据环境下的数据挖掘
1.2.3 文本分类与中文新闻信息分类
1.2.4 基于Hadoop的文本分类
1.3 主要研究内容及论文结构
1.4 本文结构
2.1 引言
2.2 网络爬虫技术
2.3 文本分类概述
2.3.1 文本预处理过程
2.3.2 空间向量模型
2.3.3 文本特征选取
2.3.4 文本分类算法
2.4 Hadoop相关技术
2.4.1 HDFS分布式文件系统
2.4.2 MapReduce并行计算框架
2.4.3 Hive数据仓库
2.5 增量学习
2.6 本章小结
3.1 引言
3.2 系统需求分析
3.3 系统总体设计
3.4 分类模型分析与设计
3.4.1 基于MMSEG算法的文本预处理
3.4.2 基于TF-IDF的特征提取
3.4.3 基于朴素贝叶斯的分类器的设计
3.4.4 贝叶斯分类增量学习
3.5 本章小结
4.1 引言
4.2 爬虫模块的实现
4.3 基于MapReduce的朴素贝叶斯分类器构造
4.3.1 预处理阶段的并行化
4.3.2 文本向量化的并行化
4.3.3 模型训练的并行化
4.3.4 预测分类的并行化
4.4 基于MapReduce增量分类模型实现
4.5 本章小结
5.1 引言
5.2 测试环境配置
5.2.1 环境参数
5.2.2 集群构建
5.3 爬虫功能测试
5.4 文本分类结果及分析
5.5 增量学习测试结果及分析
5.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文
致谢