首页> 中文学位 >混合数据的核密度估计熵与快速的贪心特征选择算法
【6h】

混合数据的核密度估计熵与快速的贪心特征选择算法

代理获取

目录

声明

摘要

图目录

表目录

1.1 研究背景和意义

1.2 研究现状和论文主要内容

1.3 论文组织结构

第2章 相关内容及方法

2.2 特征选择算法

2.3 核密度估计(KDE)

2.4 本章小结

第3章 KDE熵及贪心特征选择算法

3.1.1 KDE概率

3.1.2 KDE熵

3.2 混合特征KDE熵

3.2.1 KDE概率

3.2.2 KDE熵

3.3 基于混合特征KDE条件熵的贪心特征选择算法

3.3.1 算法描述与时间复杂度分析

3.3.2 特征选择算法的效果评估实验

3.4 本章小结

第4章 KDE熵的矩阵式及快速的贪心特征选择算法

4.1 核矩阵

4.1.1 第一种增量方法

4.1.2 第二种增量方法

4.2 数据向量和划分矩阵

4.3 核划分矩阵

4.4 离散特征熵的矩阵式

4.5 连续特征KDE熵的矩阵式

4.6 混合特征KDE熵的矩阵式

4.7 快速的基于混合特征KDE条件熵矩阵式的贪心特征选择算法

4.7.1 算法描述与时间复杂度分析

4.7.2 特征选择算法的速度实验

4.8 本章小结

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

在海量数据的时代,特征选择作为数据挖掘、模式识别、机器学习的关键步骤,在降低维度、提升算法速度与精确度等方面发挥着越来越重要的作用。信息论中熵和互信息等概念在特征选择算法中占据重要的地位,具有无需先验知识检测非线性关系、抗噪声干扰等优点。但传统基于信息论的特征选择方法主要针对离散特征,而现实世界存在着大量连续特征、混合特征的数据。离散化是一种常见的解决方法,即将连续特征转换为离散特征,再间接地计算信息论中的概率值,这种方法可能导致原始信息的损失。核密度估计(简写KDE)在统计学理论中用于对随机变量的概率密度函数进行无参估计,部分研究者由此提出了基于KDE的条件熵,并应用于特征选择算法,实验结果证明这类方法具有较好的效果。但现有研究中,KDE熵公式较少且局限于连续特征,KDE熵计算用时较长、效率较低,且在高维下更加严重。这些问题导致基于KDE熵的特征选择算法的种类较少、速度非常慢,难以被广泛应用。
  本研究主要内容包括:⑴提出较完整的连续特征KDE熵,提出混合特征的KDE熵,并实现离散熵和连续KDE熵的统一。⑵提出一个基于混合特征KDE条件熵的贪心特征选择算法,实验结果表明该算法具有有效性。⑶提出具有增量特性的核矩阵、数据向量、划分矩阵和核划分矩阵的新概念,并基于它们推导出与KDE熵定义式等价的KDE熵矩阵式。⑷提出一个快速的基于混合特征KDE条件熵矩阵式的特征选择算法,它在每一轮增量地计算离散部分和连续部分数据,并适时压缩,不断累积矩阵式的速度优势,实验结果表明该算法具有高效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号