首页> 中文期刊> 《中南大学学报》 >面向大规模中文文本分类的朴素贝叶斯并行Spark算法

面向大规模中文文本分类的朴素贝叶斯并行Spark算法

         

摘要

针对互联网中中文文本数据量激增使得对其作分类运算的处理时间显著延长的问题,提出并实现了一种基于内存计算模型Spark的并行朴素贝叶斯中文文本分类算法,主要利用弹性分布数据集编程模型,实现了朴素贝叶斯分类器训练过程和预测过程的全程并行化算法。为便于比较,同时实现了基于Hadoop-MapReduce的并行朴素贝叶斯版本。实验结果表明,在相同计算环境下,对同一数据量的中文文本集,基于Spark的朴素贝叶斯中文文本分类并行化算法在加速比、扩展性等主要指标上明显优于基于Hadoop的实现,因此能更好地满足大规模中文文本数据挖掘的要求。

著录项

  • 来源
    《中南大学学报》 |2019年第1期|P.1-12|共12页
  • 作者单位

    [1]Internet of Things Perception Mine Research Centre;

    China University of Mining and Technology;

    Xuzhou 221008;

    China;

    [2]National and Local Joint Engineering Laboratory of Internet Application Technology on Mine;

    Xuzhou 221008;

    China;

    [3]School of Information and Control Engineering;

    China University of Mining and Technology;

    Xuzhou 221116;

    China;

    [4]Communication Division;

    NARI Technology Co.;

    Ltd.;

    Nanjing 211106;

    China;

    [3]School of Information and Control Engineering;

    China University of Mining and Technology;

    Xuzhou 221116;

    China;

    [1]Internet of Things Perception Mine Research Centre;

    China University of Mining and Technology;

    Xuzhou 221008;

    China;

    [2]National and Local Joint Engineering Laboratory of Internet Application Technology on Mine;

    Xuzhou 221008;

    China;

    [5]Suzhou Institute of University of Science and Technology of China;

    Suzhou 215123;

    China;

  • 原文格式 PDF
  • 正文语种 CHI
  • 中图分类 文字信息处理;
  • 关键词

    中文文本分类; 朴素贝叶斯; Spark; Hadoop; 弹性分布式数据集; 并行化;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号