基于Spark的并行频繁项集挖掘算法

毛伊敏; 吴斌; 许春冬; 张茂省

首页> 中文期刊> 《计算机集成制造系统》 >基于Spark的并行频繁项集挖掘算法

基于Spark的并行频繁项集挖掘算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。

著录项

来源
《计算机集成制造系统》 |2023年第4期|1267-1283|共17页
作者
毛伊敏; 吴斌; 许春冬; 张茂省;
展开▼
作者单位

江西理工大学信息工程学院;

西安交通大学人居环境与建筑工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
大数据; Spark框架; 并行频繁项集挖掘; 频繁模式增长算法; 非负矩阵分解;

相似文献

中文文献
外文文献
专利

1. 基于Spark的并行频繁项集挖掘算法 [J] . 张素琪 ,孙云飞 ,武君艳 . 计算机应用与软件 . 2019,第002期
2. 一种基于Spark的频繁项集快速挖掘算法 [J] . 丁家满 ,李海滨 ,邓斌 . 软件学报 . 2023,第5期
3. 基于Spark框架的大数据局部频繁项集挖掘算法设计 [J] . 王黎 ,吕殿基 . 微型电脑应用 . 2021,第004期
4. 基于Spark的投影树频繁项集挖掘算法 [J] . 冯兴杰 ,潘轩 . 计算机工程与设计 . 2018,第008期
5. 基于Spark框架的FP-Growth大数据频繁项集挖掘算法 [J] . 邵梁 ,何星舟 ,尚俊娜 . 计算机应用研究 . 2018,第010期
6. 基于SPARK的两阶段频繁项集挖掘算法 [C] . . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于Spark的高效并行频繁项集挖掘算法的研究与实现 [A] . 张舫 . 2018

基于Spark的并行频繁项集挖掘算法

摘要

著录项

相似文献

相关主题

期刊订阅