密度峰值优化的球簇划分欠采样不平衡数据分类算法

刘学文; 王继奎; 杨正国; 李强; 易纪海; 李冰; 聂飞平

首页> 中文期刊> 《计算机应用》 >密度峰值优化的球簇划分欠采样不平衡数据分类算法

密度峰值优化的球簇划分欠采样不平衡数据分类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。

著录项

来源
《计算机应用》 |2022年第5期|1455-1463|共9页
作者
刘学文; 王继奎; 杨正国; 李强; 易纪海; 李冰; 聂飞平;
展开▼
作者单位

兰州财经大学信息工程学院;

甘肃省电子商务技术与应用重点实验室(兰州财经大学);

西北工业大学光学影像分析与学习中心;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
不平衡数据分类; 密度峰值; 球聚类; 代价敏感; 欠采样;

相似文献

中文文献
外文文献
专利

1. 基于欠采样和代价敏感的不平衡数据分类算法 [J] . 王俊红 ,闫家荣 . 计算机应用 . 2021,第1期
2. 一种基于欠采样的不平衡数据分类算法 [J] . 程险峰 ,李军 ,李雄飞 . 计算机工程 . 2011,第13期
3. 基于样本密度峰值的不平衡数据欠抽样方法 [J] . 苏俊宁 ,叶东毅 . 计算机应用 . 2020,第1期
4. 融合级联上采样与下采样的改进随机森林不平衡数据分类算法 [J] . 郑建华 ,李小敏 ,刘双印 . 计算机科学 . 2021,第7期
5. 基于密度峰值聚类的自适应欠采样方法 [J] . 崔彩霞 ,曹付元 ,梁吉业 . 模式识别与人工智能 . 2020,第9期
6. 基于密度峰值的三维模型无监督分类算法 [C] . Shu Zhenyu ,舒振宇 ,Qi Chengwu . 第九届全国几何设计与计算学术会议（GDC2016） . 2016
7. 基于无监督智能欠采样方法的不平衡数据分类算法研究 [A] . 罗英 . 2019

密度峰值优化的球簇划分欠采样不平衡数据分类算法

摘要

著录项

相似文献

相关主题

期刊订阅