分布式环境下企业新闻信息分类子系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着互联网的迅猛发展，各种各样的新闻层出不穷，新闻信息在人们的文化、生活等各个方面发挥着越来越重要的作用。如何对大量的新闻数据进行收集、整理，并突显出人们想要查找的新闻，是本文研究的主要问题。针对目前常见的搜索引擎存在着查找到的新闻信息过多，与主题关联性不强等问题，本文提出并设计了一个面向企业的新闻分类子系统。该系统具备新闻采集、信息处理及新闻展示等功能。企业用户可以利用该系统快速、准确地获取与其行业相关的新闻。
　　首先，系统设计了网络爬虫模块。使用广度优先算法编写了爬虫软件，通过该软件可以实现对企业感兴趣新闻信息高效的采集与识别。
　　其次，设计并实现了文本分类模块。在该模块中，使用分布式贝叶斯算法对新闻文本进行分类。在分类过程中，文本的预处理、特征选择以及向量化需要大量计算;在模型训练时，也存在着训练时间长、数据库存储容量有限等问题。为了解决以上问题，本文搭建了Hadoop分布式计算平台，利用MapReduce并行计算模型对文本分类过程中的不同阶段进行了分布式并行处理，并建立Hive数据仓库以解决占用存储空间大的问题。当面临大量新增数据时，传统的贝叶斯方法需要将之前的所有样本数据全部重新学习一次，这样不仅会耗费大量时间，而且操作起来也相当麻烦。针对这种情况，本文引用了传统的增量学习方法，设计并实现了增量式贝叶斯算法，该方法不用重新训练数据，只需对原有的数据进行修正。
　　最后设计了一个面向企业新闻信息的分类子系统，主要包括信息采集、文本预处理、特征提取、分类器构造、分类性能评估和增量学习几个流程，并对系统的几个模块功能进行了测试。
　　本系统利用爬虫进行新闻信息的获取，并在Hadoop环境下对新闻信息进行分类。通过测试表明，在大规模新闻信息的情况下，Hadoop下的增量分类器相比于传统的贝叶斯分类器算法准确率提高4％左右，表现出了良好的执行效率及较高的拓展性。本文给出了网络新闻文本分类的实现方案，对其它领域的文本分类具有借鉴意义。

著录项

作者
徐保鑫;
展开▼
作者单位

延边大学;

展开▼
授予单位延边大学;
学科计算机技术
授予学位硕士
导师姓名怀丽波,吕仁秋;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类企业现代化管理;
关键词
企业用户; 新闻信息; 分类子系统; 网络爬虫; 分布式贝叶斯;

相似文献

中文文献
外文文献
专利

1. 分布式环境下 C/S模式客户端软件自动在线升级的设计与实现 [J] . 岳国华 . 西安科技大学学报 . 2011,第001期
2. 分布式环境下通用数据库浏览接口的设计与实现 [J] . 代亚非 ,刘刚 . 小型微型计算机系统 . 2000,第010期
3. 分布式环境中粒子系统同步实现 [J] . 刘玲 ,陈福民 ,徐又丰 . 计算机应用 . 2007,第0z1期
4. 分布式环境中粒子系统同步实现 [J] . 刘玲 ,陈福民 ,徐又丰 . 计算机应用 . 2007,第B06期
5. iS-ERP环境下供应管理子系统的设计与实现 [J] . 高家全 ,何桂霞 . 计算机工程与设计 . 2006,第010期
6. 分布式环境下的协同开发系统的设计与实现 [C] . 肖玉军 ,张卫民 ,刘海 . 第三届江苏计算机大会 . 2008
7. 分布式环境下通用日志系统的设计与实现 [A] . 阮厦城 . 2015

分布式环境下企业新闻信息分类子系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅