首页> 中文学位 >分类关联规则归纳算法及应用研究
【6h】

分类关联规则归纳算法及应用研究

代理获取

目录

文摘

英文文摘

华南理工大学学位论文原创性声明及学位论文版权使用授权书

第一章绪论

1.1本课题的研究背景及意义

1.1.1数据挖掘的兴起

1.1.2数据挖掘的理论与技术

1.1.3数据挖掘的应用领域与发展前景

1.2与本课题相关的国内外研究进展

1.2.1关联规则挖掘算法综述

1.2.2分类关联规则归纳算法研究

1.2.3关联分类技术的发展与研究现状

1.3本课题研究的目标与内容

1.3.1研究的目标

1.3.2研究的内容

1.4本课题解决的关键问题

1.5本文的组织

第二章有关的术语及形式化描述

2.1基本术语

2.2关联规则与分类关联规则描述

2.3分类问题描述

2.3.1度量分类模型的指标体系

2.3.2分类规则质量评价函数

2.3.3分类模型的评价方法

2.4分类基准算法C4.5

2.5分类关联规则的搜索空间分析

2.5.1搜索全部关联规则属于NP难解问题

2.5.2分类关联规则的搜索空间

2.6小结

第三章分类关联规则的演化搜索研究

3.1研究的目的

3.2遗传算法

3.2.1遗传算法的出现和发展

3.2.2遗传算法的原理

3.2.3遗传算法的特点

3.2.4遗传算法求解问题的步骤

3.2.5基于遗传算法的机器学习

3.3设计搜索分类关联规则的遗传算法

3.3.1分类关联规则的染色体编码

3.3.2分类关联规则的演化方式

3.3.3基于遗传算法的关联分类

3.4影响规则演化搜索的主要因素

3.4.1适应值函数

3.4.2属性选择概率

3.4.3遗传算子

3.5适应值函数的理论研究

3.5.1混淆矩阵与关联规则度量的关系

3.5.2分类规则的演化机理研究

3.5.3一个规则演化实例

3.6实验结果及分析

3.6.1实验条件

3.6.2单因素实验

3.6.3综合实验

3.7小结

第四章原子型分类关联规则导向的知识要点发现

4.1研究的动机

4.2基本原理

4.2.1发现知识要点的机理

4.2.2复合规则支持度和置信度边界值计算

4.2.3数据结构

4.2.4挖掘知识要点的步骤

4.3算法设计

4.4算法的复杂度分析

4.5知识要点在分类中的应用

4.5.1基于知识要点的分类步骤

4.5.2分类规则的选择

4.6实验结果及分析

4.6.1实验条件

4.6.2知识要点的发现

4.6.3基于知识要点的部分分类

4.6.4从部分分类到完全分类

4.7 小结

第五章原子关联规则分类算法CAAR

5.1研究背景

5.2原子关联规则分类原理

5.2.1 CAAR算法的分类原理

5.2.2 CAAR算法与CBA的分类机理比较

5.2.3原子关联规则分类的理论计算

5.2.4 CAAR算法的分类步骤

5.2.5 CAAR分类的一个范例及演示

5.2.6 CAAR与1R算法的比较

5.3算法设计

5.3.1 CAAR分类算法设计

5.3.2 CAAR的强原子规则生成算法

5.3.3 CAAR的冗余规则剪枝函数

5.4 CAAR的分类能力度量

5.4.1 P型和N型数据集

5.4.2提高CAAR的适应能力

5.5算法分析

5.5.1 CAAR算法的时间效率分析

5.5.2 CAAR算法的空间效率分析

5.5.3基于x2检验的鲁棒性分析

5.6实验结果及分析

5.6.1实验条件

5.6.2剖析CAAR的分类过程

5.6.3 P型和N型数据集的划分

5.6.4 CAAR的分类性能实验

5.6.5 CAAR的鲁棒性实验

5.7 CAAR在图像内容分类学习中的应用

5.7.1基于关联规则的图像处理技术

5.7.2图像数据集

5.7.3基于CAAR的图像内容关联分类实验

5.8 CAAR在大规模数据挖掘中的应用

5.8.1大规模数据挖掘技术

5.8.2基于Mu lt i-Agents的分布式关联分类

5.8.3基于CAAR的大规模数据挖掘的特点

5.8.4实验结果及分析

5.9 小结

结束语

参考文献

攻读博士学位期间发表的与学位论文内容相关的学术论文

攻读博士学位期间主要参与的研究项目

附录:本论文常用符号对照表

致谢

展开▼

摘要

随着社会信息化程度的提高,数据量呈指数增长。从大量数据中挖掘有价值的知识在当今信息时代具有重要意义。  关联规则挖掘是数据挖掘领域中的重要课题之一。特别是分类关联规则既能用于概念描述又能用于分类预测与决策,在数据挖掘中发挥重要作用。目前分类关联规则挖掘技术在学术界与产业界受到广泛关注。自1998年出现第一个基于关联的分类算法(CBA)以来,关联分类算法的设计及应用研究一直非常活跃。目前,在关联分类问题上存在的共识是:关联分类的准确度总体上显著地高于传统的决策树分类,但关联分类存在的主要问题是产生太多的关联规则,导致计算速度慢、内存开销大、分类模型难以理解。  本文研究分析了现有的分类关联规则归纳算法,给出了关联分类的有关定义及形式化描述,提出基于数据挖掘标准的分类规则质量评价新函数,首次提出挖掘知识要点的新思想,创立了基于原子关联规则的分类新技术CAAR(C1assificationbasedonAtomicAssociationRules),从根本上解决了关联分类执行效率低、内存开销大、分类模型较复杂的问题。将CAAR分类新技术应用于有监督的图像内容分类学习和大规模数据机器学习取得了很好的效果。本文的创新点主要表现在以下五个方面:  1)首次提出置信度主导的、基于置信度和支持度加权和的分类规则质量评价函数。目前,在机器学习领域内,广泛采用的分类规则质量评价函数是基于混淆矩阵计算的灵敏度(Se)和选择性(Sp)的乘积。这种传统方法被称为评价分类规则质量的“黄金标准”。然而,从数据挖掘的角度分析灵敏度和选择性后,我们发现传统的方法不及我们提出的基于规则置信度和支持度加权和的新方法。为了在较大的分类关联规则搜索空间上验证我们提出的新函数,采用遗传算法进行了实验。结果表明基于数据挖掘的新函数显著地优于传统的分类规则质量评价函数。  2)首次提出挖掘知识要点的新思想。采用原子型分类关联规则导向的知识要点挖掘技术能快速地发现不完全的、非精确的描述性分类知识。知识要点包括通过一次扫描数据集得到的精确原子型分类关联规则和通过组合计算得到的不完全的、非精确的复合型分类关联规则。算法能计算复合型分类关联规则的支持度和置信度的边界值。对于一个复合型分类关联规则,如果规则的支持度和置信度的下界都分别超过支持度阈值和置信度阈值,则称该规则的存在性是确定的;如果规则的支持度和置信度各自的上界与下界之差小于一个给定的常量,则认为规则的度量参数是确定的。因此复合型分类关联规则可分为三种类型:(1)确定型:指规则的存在性和度量参数是确定的;(2)半确定型:指规则的存在性是确定的,但度量参数是不确定的;(3)不确定型:指规则的存在性是不确定的。可以使用一个概率来度量不确定的复合型分类关联规则的存在性。该方法支持用户兴趣导向的探索型知识发现服务,能快速有效地发现描述性的知识要点;能利用知识要点进行部分分类,结合算法设计策略,能进一步实现完全的、精确的分类。  3)创立了原子关联规则分类算法CAAR。与知识要点发现算法不同的是:CAAR算法仅挖掘原子型分类关联规则用于分类器构建,避免了一般关联分类遇到的频繁项集“组合爆炸效应”。CAAR算法采用“基于原子型分类关联规则的突出特征”进行部分分类,结合“先易后难”策略从根本上解决了关联分类效率低的问题。算法分析和大量的实验结果表明CAAR算法在执行速度上显著地优于关联分类基准算法CBA。而且CAAR算法中规则的原子性有效地减少了过学习现象,对数据集中属性值遗失较多的实际应用场合,CAAR算法表现出好的鲁棒性。  4)首次提出只利用具有最高置信度和接近最高置信度的、强的分类关联规则用于分类器构建,确保了CAAR算法的分类预测准确性。10-折交叉验证试验结果表明:CAAR算法显著地优于决策树算法和CBA算法。  5)首次提出自适应置信度阈值,使原子关联规则分类算法具有很好的自适应能力;提出的相对支持度阈值能确保CAAR算法在数据集中类分布严重不均匀时对少数类实例分类预测的准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号