首页> 中文期刊> 《计算机与现代化》 >基于Spark的分布式大数据机器学习算法

基于Spark的分布式大数据机器学习算法

         

摘要

对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度.然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术.Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集.因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化.为了实现充分配置资源批量运行脚本,本文也实现SparkML调度框架来调度以上优化算法.实验结果表明,优化后的3种算法平均误差降低了40%,平均时间缩短了90%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号