面向大规模中文文本分类的朴素贝叶斯并行Spark算法

刘鹏; 赵慧含; 滕家雨; 仰彦妍; 刘亚峰; 朱宗卫

首页> 中文期刊> 《中南大学学报》 >面向大规模中文文本分类的朴素贝叶斯并行Spark算法

面向大规模中文文本分类的朴素贝叶斯并行Spark算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对互联网中中文文本数据量激增使得对其作分类运算的处理时间显著延长的问题,提出并实现了一种基于内存计算模型Spark的并行朴素贝叶斯中文文本分类算法,主要利用弹性分布数据集编程模型,实现了朴素贝叶斯分类器训练过程和预测过程的全程并行化算法。为便于比较,同时实现了基于Hadoop-MapReduce的并行朴素贝叶斯版本。实验结果表明,在相同计算环境下,对同一数据量的中文文本集,基于Spark的朴素贝叶斯中文文本分类并行化算法在加速比、扩展性等主要指标上明显优于基于Hadoop的实现,因此能更好地满足大规模中文文本数据挖掘的要求。

著录项

来源
《中南大学学报》 |2019年第1期|P.1-12|共12页
作者
刘鹏; 赵慧含; 滕家雨; 仰彦妍; 刘亚峰; 朱宗卫;
展开▼
作者单位

[1]Internet of Things Perception Mine Research Centre;

China University of Mining and Technology;

Xuzhou 221008;

China;

[2]National and Local Joint Engineering Laboratory of Internet Application Technology on Mine;

Xuzhou 221008;

China;

[3]School of Information and Control Engineering;

China University of Mining and Technology;

Xuzhou 221116;

China;

[4]Communication Division;

NARI Technology Co.;

Ltd.;

Nanjing 211106;

China;

[3]School of Information and Control Engineering;

China University of Mining and Technology;

Xuzhou 221116;

China;

[1]Internet of Things Perception Mine Research Centre;

China University of Mining and Technology;

Xuzhou 221008;

China;

[2]National and Local Joint Engineering Laboratory of Internet Application Technology on Mine;

Xuzhou 221008;

China;

[5]Suzhou Institute of University of Science and Technology of China;

Suzhou 215123;

China;

展开▼
原文格式 PDF
正文语种 CHI
中图分类文字信息处理;
关键词
中文文本分类; 朴素贝叶斯; Spark; Hadoop; 弹性分布式数据集; 并行化;

相似文献

中文文献
外文文献
专利

1. 并行化改进的朴素贝叶斯算法在中文文本分类上的应用 [J] . 彭子豪 ,谭欣 . 黑龙江科技信息 . 2020,第026期
2. 并行化改进的朴素贝叶斯算法在中文文本分类上的应用 [J] . 彭子豪 ,谭欣 . 科学技术创新 . 2020,第026期
3. 一种朴素贝叶斯文本分类算法的分布并行实现 [J] . 郭绪坤 ,范冰冰 . 计算机应用与软件 . 2016,第011期
4. 一种基于朴素贝叶斯算法的中文文本分类系统 [J] . 崔伟 . 信息技术与信息化 . 2015,第010期
5. 基于Spark的大规模并行协同过滤算法研究 [C] . 佟强 ,张煦渤 ,张蓓赟 . 2017“互联网+、大数据与商业创新国际会议” . 2017
6. 面向不平衡数据集的朴素贝叶斯文本分类算法改进研究 [A] . 陈凯 . 2018

面向大规模中文文本分类的朴素贝叶斯并行Spark算法

摘要

著录项

相似文献

相关主题

期刊订阅