基于Spark的分布式大数据机器学习算法

WANG Rui; HAN Rui; Jia Yu-xiang

首页> 中文期刊> 《计算机与现代化》 >基于Spark的分布式大数据机器学习算法

基于Spark的分布式大数据机器学习算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度.然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术.Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集.因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化.为了实现充分配置资源批量运行脚本,本文也实现SparkML调度框架来调度以上优化算法.实验结果表明,优化后的3种算法平均误差降低了40％,平均时间缩短了90％.

著录项

来源
《计算机与现代化》 |2018年第11期|119-126|共8页
作者
WANG Rui; HAN Rui; Jia Yu-xiang;
展开▼
作者单位

展开▼
原文格式 PDF
正文语种 chi
中图分类人工神经网络与计算;
关键词
数据压缩; 偏向抽样; 随机梯度下降; 神经网络; 支持向量机;

相似文献

中文文献
外文文献
专利

1. 基于Spark视域下的分布式大数据算法分析——以计算机维修实验室管理系统为例 [J] . 赵伟华 . 软件 . 2021,第009期
2. 基于Spark的分布式健康大数据分析系统设计与实现 [J] . 吴磊 ,欧阳赫明 . 软件导刊 . 2020,第007期
3. 基于Spark的分布式大数据分析算法研究 [J] . 宋泊东 ,张立臣 ,江其洲 . 计算机应用与软件 . 2019,第001期
4. 基于Spark的分布式大数据并行化聚类方法研究 [J] . 陶婧 . 湖北第二师范学院学报 . 2019,第008期
5. 基于Spark的分布式大数据分析建模系统的设计与实现 [J] . 徐时芳 ,罗晓宾 ,陈阳华 . 现代电子技术 . 2018,第020期
6. 基于大数据机器学习算法的高价值故障的特征关联挖掘探索 [C] . 霍龙浩 ,吴茜 ,李尧辉 . 2018广东通信青年论坛 . 2018
7. 基于MapReduce/Spark的大数据样例选择研究 [A] . 宋丹丹 . 2020

基于Spark的分布式大数据机器学习算法

摘要

著录项

相似文献

相关主题

期刊订阅