首页> 中国专利> 基于Spark框架的FP-Growth大数据频繁项集挖掘算法

基于Spark框架的FP-Growth大数据频繁项集挖掘算法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提出了一种基于Spark框架的FP‑Growth大数据频繁项集挖掘算法，包括如下步骤：S1、获得垂直布局的频繁1‑项集：首先输入文件；然后通过flatMap()函数生成项，通过Mpa()函数生成键‑值对；再构建垂直项集；并通过FP‑Grwth算法筛选非频繁项；最后获得垂直布局的频繁1‑项集；S2、获得频繁项集：计算项集支持度；生产N‑基数的潜在候选项集；获得k‑1技术的所有子集；将子集中相同实物存储到列表common；列表common的长度与min_sup比较；频繁项集获得。算法同时使用数据的垂直和水平布局来解决数据集过度扫描问题。

著录项

公开/公告号CN108021695A

专利类型发明专利
公开/公告日2018-05-11

原文格式PDF
申请/专利权人佛山市米良仓科技有限公司;
展开▼

申请/专利号CN201711365857.3
发明设计人莫燮彬;
展开▼

申请日2017-12-18
分类号G06F17/30(20060101);
代理机构44387 佛山帮专知识产权代理事务所(普通合伙);
代理人颜春艳
地址 528200 广东省佛山市南海区桂城街道桂澜北路2号亿能国际广场2座6层616之三
入库时间 2023-06-19 05:21:36

法律信息

法律状态公告日

法律状态信息

法律状态
2018-06-05

实质审查的生效 IPC(主分类):G06F17/30 申请日:20171218

实质审查的生效
2018-05-11

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于Spark框架的FP-Growth大数据频繁项集挖掘算法 [P] . 中国专利： CN108021695A . 2018-05-11
2. 一种基于Spark框架的增量式频繁项集挖掘方法 [P] . 中国专利： CN109739897A . 2019-05-10
3. METHOD FOR ESTABLISHING INDEX ON HDFS-BASED SPARK-SQL BIG-DATA PROCESSING SYSTEM [P] . 世界知识产权组织专利： WO2017096939A1 . 2017-06-15

机译：在基于HDFS的SPARK-SQL大数据处理系统上建立索引的方法
4. SEMANTIC FRAME OPERATING METHOD BASED ON TEXT BIG-DATA AND ELECTRONIC DEVICE SUPPORTING THE SAME [P] . 韩国专利： KR20150082783A . 2015-07-16

机译：基于文本大数据和支持相同功能的电子设备的语义框架操作方法
5. SEMANTIC FRAME OPERATING METHOD BASED ON TEXT BIG-DATA AND ELECTRONIC DEVICE SUPPORTING THE SAME [P] . 美国专利： US2015193428A1 . 2015-07-09

机译：基于文本大数据和支持相同功能的电子设备的语义框架操作方法