首页> 中文学位 >分布式环境下企业新闻信息分类子系统的设计与实现
【6h】

分布式环境下企业新闻信息分类子系统的设计与实现

代理获取

目录

声明

摘要

1.1 研究目的和意义

1.2 国内外相关研究现状

1.2.1 网络爬虫

1.2.2 大数据环境下的数据挖掘

1.2.3 文本分类与中文新闻信息分类

1.2.4 基于Hadoop的文本分类

1.3 主要研究内容及论文结构

1.4 本文结构

2.1 引言

2.2 网络爬虫技术

2.3 文本分类概述

2.3.1 文本预处理过程

2.3.2 空间向量模型

2.3.3 文本特征选取

2.3.4 文本分类算法

2.4 Hadoop相关技术

2.4.1 HDFS分布式文件系统

2.4.2 MapReduce并行计算框架

2.4.3 Hive数据仓库

2.5 增量学习

2.6 本章小结

3.1 引言

3.2 系统需求分析

3.3 系统总体设计

3.4 分类模型分析与设计

3.4.1 基于MMSEG算法的文本预处理

3.4.2 基于TF-IDF的特征提取

3.4.3 基于朴素贝叶斯的分类器的设计

3.4.4 贝叶斯分类增量学习

3.5 本章小结

4.1 引言

4.2 爬虫模块的实现

4.3 基于MapReduce的朴素贝叶斯分类器构造

4.3.1 预处理阶段的并行化

4.3.2 文本向量化的并行化

4.3.3 模型训练的并行化

4.3.4 预测分类的并行化

4.4 基于MapReduce增量分类模型实现

4.5 本章小结

5.1 引言

5.2 测试环境配置

5.2.1 环境参数

5.2.2 集群构建

5.3 爬虫功能测试

5.4 文本分类结果及分析

5.5 增量学习测试结果及分析

5.6 本章小结

结论

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

近年来,随着互联网的迅猛发展,各种各样的新闻层出不穷,新闻信息在人们的文化、生活等各个方面发挥着越来越重要的作用。如何对大量的新闻数据进行收集、整理,并突显出人们想要查找的新闻,是本文研究的主要问题。针对目前常见的搜索引擎存在着查找到的新闻信息过多,与主题关联性不强等问题,本文提出并设计了一个面向企业的新闻分类子系统。该系统具备新闻采集、信息处理及新闻展示等功能。企业用户可以利用该系统快速、准确地获取与其行业相关的新闻。
  首先,系统设计了网络爬虫模块。使用广度优先算法编写了爬虫软件,通过该软件可以实现对企业感兴趣新闻信息高效的采集与识别。
  其次,设计并实现了文本分类模块。在该模块中,使用分布式贝叶斯算法对新闻文本进行分类。在分类过程中,文本的预处理、特征选择以及向量化需要大量计算;在模型训练时,也存在着训练时间长、数据库存储容量有限等问题。为了解决以上问题,本文搭建了Hadoop分布式计算平台,利用MapReduce并行计算模型对文本分类过程中的不同阶段进行了分布式并行处理,并建立Hive数据仓库以解决占用存储空间大的问题。当面临大量新增数据时,传统的贝叶斯方法需要将之前的所有样本数据全部重新学习一次,这样不仅会耗费大量时间,而且操作起来也相当麻烦。针对这种情况,本文引用了传统的增量学习方法,设计并实现了增量式贝叶斯算法,该方法不用重新训练数据,只需对原有的数据进行修正。
  最后设计了一个面向企业新闻信息的分类子系统,主要包括信息采集、文本预处理、特征提取、分类器构造、分类性能评估和增量学习几个流程,并对系统的几个模块功能进行了测试。
  本系统利用爬虫进行新闻信息的获取,并在Hadoop环境下对新闻信息进行分类。通过测试表明,在大规模新闻信息的情况下,Hadoop下的增量分类器相比于传统的贝叶斯分类器算法准确率提高4%左右,表现出了良好的执行效率及较高的拓展性。本文给出了网络新闻文本分类的实现方案,对其它领域的文本分类具有借鉴意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号