一种基于Spark的频繁项集快速挖掘算法

丁家满; 李海滨; 邓斌; 贾连印; 游进国

首页> 中文期刊> 《软件学报》 >一种基于Spark的频繁项集快速挖掘算法

一种基于Spark的频繁项集快速挖掘算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.

著录项

来源
《软件学报》 |2023年第5期|2446-2464|共19页
作者
丁家满; 李海滨; 邓斌; 贾连印; 游进国;
展开▼
作者单位

昆明理工大学信息工程与自动化学院;

云南省人工智能重点实验室;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
频繁项集; 模式增长; 位串; 位运算; 垂直分组; SPARK;

相似文献

中文文献
外文文献
专利

1. 基于Spark的并行频繁项集挖掘算法 [J] . 毛伊敏 ,吴斌 ,许春冬 . 计算机集成制造系统 . 2023,第4期
2. 基于Spark框架的大数据局部频繁项集挖掘算法设计 [J] . 王黎 ,吕殿基 . 微型电脑应用 . 2021,第004期
3. 基于Spark的并行频繁项集挖掘算法 [J] . 张素琪 ,孙云飞 ,武君艳 . 计算机应用与软件 . 2019,第002期
4. 基于Spark的投影树频繁项集挖掘算法 [J] . 冯兴杰 ,潘轩 . 计算机工程与设计 . 2018,第008期
5. 基于Spark框架的FP-Growth大数据频繁项集挖掘算法 [J] . 邵梁 ,何星舟 ,尚俊娜 . 计算机应用研究 . 2018,第010期
6. 基于SPARK的两阶段频繁项集挖掘算法 [C] . . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于Spark的高效并行频繁项集挖掘算法的研究与实现 [A] . 张舫 . 2018

一种基于Spark的频繁项集快速挖掘算法

摘要

著录项

相似文献

相关主题

期刊订阅