混合数据的核密度估计熵与快速的贪心特征选择算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在海量数据的时代，特征选择作为数据挖掘、模式识别、机器学习的关键步骤，在降低维度、提升算法速度与精确度等方面发挥着越来越重要的作用。信息论中熵和互信息等概念在特征选择算法中占据重要的地位，具有无需先验知识检测非线性关系、抗噪声干扰等优点。但传统基于信息论的特征选择方法主要针对离散特征，而现实世界存在着大量连续特征、混合特征的数据。离散化是一种常见的解决方法，即将连续特征转换为离散特征，再间接地计算信息论中的概率值，这种方法可能导致原始信息的损失。核密度估计（简写KDE）在统计学理论中用于对随机变量的概率密度函数进行无参估计，部分研究者由此提出了基于KDE的条件熵，并应用于特征选择算法，实验结果证明这类方法具有较好的效果。但现有研究中，KDE熵公式较少且局限于连续特征，KDE熵计算用时较长、效率较低，且在高维下更加严重。这些问题导致基于KDE熵的特征选择算法的种类较少、速度非常慢，难以被广泛应用。
　　本研究主要内容包括：⑴提出较完整的连续特征KDE熵，提出混合特征的KDE熵，并实现离散熵和连续KDE熵的统一。⑵提出一个基于混合特征KDE条件熵的贪心特征选择算法，实验结果表明该算法具有有效性。⑶提出具有增量特性的核矩阵、数据向量、划分矩阵和核划分矩阵的新概念，并基于它们推导出与KDE熵定义式等价的KDE熵矩阵式。⑷提出一个快速的基于混合特征KDE条件熵矩阵式的特征选择算法，它在每一轮增量地计算离散部分和连续部分数据，并适时压缩，不断累积矩阵式的速度优势，实验结果表明该算法具有高效性。

著录项

作者
张婧虹;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机技术
授予学位硕士
导师姓名代建华;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
信息检索; 数据挖掘; 核密度估计; 程序语言;

相似文献

中文文献
外文文献
专利

1. 基于信息熵的不完备数据特征选择算法 [J] . 陈圣兵 ,王晓峰 . 模式识别与人工智能 . 2014,第012期
2. 基于矩阵策略的不完备混合型数据增量式特征选择算法 [J] . 沈玉峰 ,林徐 . 西昌学院学报（自然科学版） . 2020,第001期
3. 基因数据集混合特征选择算法研究 [J] . 马国娟 ,吴辰文 ,刘文祎 . 测控技术 . 2019,第010期
4. 混合数据特征选择算法及在客户流失预测中的应用 [J] . 周君仪 ,马少辉 . 江苏科技大学学报（自然科学版） . 2013,第006期
5. 基于SVM评价准则的高维数据混合特征选择算法 [J] . 鲍捷 ,杨明 ,何志芬 . 吉林大学学报（理学版） . 2012,第006期
6. 基于半贪心策略的特征子集选择算法 [C] . 郭金喜 ,朱文兴 . 第六届中国Rough集与软计算学术研讨会（CRSSC'2006） . 2006
7. 基于粗糙集的混合数据的半监督特征选择算法研究 [A] . 樊鑫 . 2019

混合数据的核密度估计熵与快速的贪心特征选择算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅