首页> 中文学位 >DELAY-CFIM:基于滑动窗口的高速数据流闭合频繁模式挖掘方法
【6h】

DELAY-CFIM:基于滑动窗口的高速数据流闭合频繁模式挖掘方法

代理获取

目录

DELAY-CFIM:基于滑动窗口的高速数据流闭 合频繁模式挖掘方法

DELAY-CFIM: A SLIDING WINDOW BASED METHOD ON MINING CLOSED FREQUENT ITEMSETS OVER HIGH-SPEED DATA STREAMS

摘 要

ABSTRACT

ACKNOWLEDGEMENTS

CONTENTS

CHAPTER 1 INTRODUCTION

1.1 Background

1.2 Literature review

1.2.1 Related work based on sliding window

1.2.2 Related work based on landmark window

1.2.3 Related work based on damped window

1.3 The main contents and organization of the thesis

CHAPTER 2 PRELIMINARY

2.1 Introduction

2.2 Closed frequent itemsets

2.2.1 Definition of closed frequent itemsets

2.2.2 Features of closed frequent itemsets

2.3 Sliding window

2.4 Conclusion

CHAPTER 3 ORDERLY TRANSACTION TREE AND CLOSED FREQUENT ITEMSET TREE

3.1 Introduction

3.2 The summary data structure - OTT

3.2.1 Definition of OTT

3.2.2 Construction and maintenance of OTT

3.3 Closed frequent itemset tree - CFIT

3.3.1 Definition of CFIT

3.3.2 Construction of CFIT

3.4 Conclusion

CHAPTER 4 ALGORITHM DELAY-CFIM

4.1 Introduction

4.2 Frequent itemset generation

4.2.1 Introduction of frequent itemset generation algorithm

4.2.2 Correctness proof for frequent itemset generation algorithm

4.3 Closure detection

4.3.1 Introduction of closure detection algorithm

4.3.2 Correctness proof for closure detection algorithm

4.4 Pruning

4.4.1 Pruning in frequent itemset generation

4.4.2 Pruning in closure detection

4.5 Conclusion

CHAPTER 5 EXPERIMENTAL RESULTS

5.1 Introduction

5.2 Datasets used in experiments

5.3 Experiments on sliding window

5.3.1 Experiments on different windowSize

5.3.2 Experiments on different min_sup

5.3.3 Experiments on different transaction length

5.3.4 Experiments on different query frequencies

5.3.5 Experiments on different datasets

5.4 Conclusion

CONCLUSION

REFERENCES

攻读硕士学位期间发表的学术论文

哈尔滨工业大学学位论文原创性声名及使用授权说明

展开▼

摘要

随着信息技术的发展,很多应用领域都产生了大量流数据,因此流数据挖掘成为数据挖掘领域的热门研究课题。其中流数据闭合频繁模式挖掘是流数据挖掘领域的一项关键技术,被广泛应用在商业决策,购物篮分析和网络数据分析等多个领域。流数据闭合频繁模式挖掘要求在快速到达的数据流中高速的存储有用的数据信息,在客户有需求的时候进行闭合频繁模式输出,以指导客户做出决策。但是现存的流数据闭合频繁模式挖掘方法存在在线处理时间过长的问题,从而不能处理数据高速产生的情况。
  本文深入分析了现有的流数据闭合频繁模式方法,针对现有方法存在的在线处理时间较长的问题提出了一种新的解决方法 DELAY-CFIM,将流数据闭合频繁模式挖掘分成数据压缩与闭合频繁模式挖掘两个步骤。首先,在数据产生时对其进行简单的统计和压缩。然后,在客户提出查询要求时,再进行闭合频繁模式挖掘,从而能够处理数据高速产生的情况。在客户查询不是很密集的情况下可以产生很好的结果。
  本文的主要研究内容如下:
  (1)本文提出了一种新的基于滑动窗口概要数据存储结构 OTT。OTT在数据到达的时候被用来存储数据频度信息,达到数据统计与压缩的作用,使得在客户提出查询请求时可以缩短闭合模式挖掘所需时间。
  (2)本文提出了一种新的闭合树模型 CFIT。CFIT结合了链表与树,将闭合模式进行存储,在有需要的时候对频繁模式进行检测以判断它的闭合性,CFIT的特殊存储结构能够大大加快闭合模式检测的速度。
  (3)本文提出了一种基于 OTT和CFIT的闭合频繁模式挖掘方法 DELAY-CFIM。首先在OTT上通过后缀重新插入的方法产生频繁模式,再通过 CFIT对这些模式进行闭合模式检测。从而在客户提出查询请求时正确输出闭合频繁模式。
  (4)本文在上诉提出的闭合频繁模式挖掘方法的基础上提出了四种剪枝策略,既减少了OTT上产生的潜在闭合频繁模式数量又缩短了闭合检测所需时间,从而大大减少了算法运行时间。
  本文最后将所提出的算法 DELAY-CFIM与经典流数据闭合频繁模式挖掘算法CFI-Stream进行了比较。结果显示在客户查询不是很密集的情况下,本文算法可以大大减少数据在线处理时间,从而可以对高速产生的数据进行有效的处理,避免数据丢失的情况产生。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号