首页> 中文学位 >基于分布式平台的高校网络舆情分析系统研究与实现
【6h】

基于分布式平台的高校网络舆情分析系统研究与实现

代理获取

目录

声明

第一章 绪 论

1.1课题研究背景及意义

1.2国内外研究现状

1.3主要工作内容

1.4论文结构安排

第二章 相关技术与理论研究

2.1概述

2.2 Hadoop2.x 核心组件

2.3 MongoDB数据库

2.4中文分词

2.5舆情分析理论研究

2.6本章小结

第三章 系统需求分析

3.1概述

3.2功能性需求

3.3非功能性需求

3.4本章小结

第四章 系统总体设计

4.1概述

4.2系统总体架构

4.3功能设计原则

4.4系统工作流程

4.5系统网络拓扑

4.6系统维护及服务提供方式

4.7系统配置

4.8本章小结

第五章 基于分布式平台的高校网络舆情分析系统详细设计

5.1概述

5.2数据导入导出模块设计

5.3 数据存储模块设计

5.4数据预处理模块设计

5.5数据分析模块设计

5.6 WEB应用展示模块设计

5.7本章小结

第六章 基于分布式平台的高校网络舆情分析系统实现

6.1概述

6.2导入导出模块实现

6.3数据存储模块实现

6.4数据预处理模块实现

6.5数据分析模块实现

6.6 WEB应用展示模块实现

6.7本章小结

第七章 系统测试分析

7.1概述

7.2分布式平台部署

7.3功能测试

7.4性能测试

7.5本章小结

第八章 全文总结与展望

8.1全文总结

8.2展望

致谢

参考文献

攻读硕士期间取得的学术成果

展开▼

摘要

随着信息技术快速发展及网络设施的不断升级,网络信息技术已融入进社会生活的各个领域,互联网已成为庞大的公共信息平台。高校师生通过微信、微博、官方网站或论坛发布言论和观点的行为更加普遍,其中不乏存在一些消极的、负面的言论,这些消极言论的传播可能给社会带来极大的不稳定性。利用高校网络舆情监控系统能够对高校师生言论进行有效监控,及时阻止错误言论的传播,对维护社会稳定具有重要现实意义。
  目前大多数舆情监控系统多采用关系型数据库作为数据存储平台或采用单机资源进行数据分析处理,当面对海量的数据存储需求时,此类系统显然已不符合实际的应用场景,无法达到预期的效果。一些舆情分析系统虽使用了分布式架构,但对于集群状态的监控不能做到有效管理。本课题首先构建了一个针对高校网络环境的情感词典,然后将情感强度引入到TF-IDF算法中,增强其对负面文本的识别能力,再结合大数据处理技术和文本情感倾向性计算规则实现了基于分布式平台的高校网络舆情分析系统。在数据存储方面具有高可用性、高可靠性、弹性可伸缩等特点。在数据分析方面具有快速性、准确性等特点。本系统整体架构不仅考虑到了海量数据存储特点和计算性能,还考虑了对于分布式集群的有效管理。因此,本系统完全满足此类应用需求。
  本系统主要由数据导入导出模块、存储模块、数据预处理模块、数据分析模块以及WEB应用展示模块构成。其中,导入导出模块主要利用Sqoop工具进行模块开发,实现结果数据在HDFS和Mysql之间的数据传输功能。存储模块使用HDFS、MongoDB、Mysql作为底层数据存储单元,实现了通过MapReduce并行读取MongoDB数据库,并将处理后的数据并行写入HDFS文件系统中的功能。数据预处理模块使用结巴分词、去停用词、改进的TF-IDF以及MapReduce并行计算框架,实现了中文文本数据的分词以及生成词向量功能。数据分析模块通过自定义情感词典、算法规则并结合传统聚类算法实现了话题检测、敏感话题发现以及情感倾向性分析等功能。
  本文最后对系统的功能及性能进行测试,能够完成对高校网站爬取的信息进行存储、预处理、分析等功能,为相关管理部门实现舆情监控提供技术支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号