基于凸边界的学习样本抽取方法

顾依依; 谈询滔; 袁玉波

首页> 中文期刊> 《计算机应用》 >基于凸边界的学习样本抽取方法

基于凸边界的学习样本抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

学习样本的质量和数量对于智能数据分类系统至关重要,但在数据分类系统中没有一个通用的良好方法用于发现有意义的样本.以此为动机,提出数据集合凸边界的概念,给出了快速发现有意义样本集合的方法.首先,利用箱型函数对学习样本集合中的异常和特征不全样本进行清洗;接着,提出数据锥的概念,对归一化的学习样本进行锥形分割;最后,对每个锥形样本子集进行中心化,以凸边界为基础提取距离凸边界差异极小的样本构成凸边界样本集合.实验在12个UCI数据集上进行,并与高斯朴素贝叶斯(GNB)、决策树(CART)、线性判别分析(LDA)、提升算法(AdaBoost)、随机森林(RF)和逻辑回归(LR)这六种经典的数据分类算法进行对比.结果表明,各个算法在凸边界样本集合的训练时间显著缩短,同时保持了分类性能.特别地,对包含噪声数据较多的数据集,如剖腹产、电网稳定性、汽车评估等数据集,凸边界样本集合能使分类性能得到提升.为了更好地评价凸边界样本集合的效率,以样本变化率和分类性能变化率的比值定义了样本清洗效率,并用该指标来客观评价凸边界样本的意义.清洗效率大于1时说明方法有效,且数值越高效果越好.在脉冲星数据集合上,所提方法对GNB算法的清洗效率超过68,说明所提方法性能优越.

著录项

来源
《计算机应用》 |2019年第8期|2281-2287|共7页
作者
顾依依; 谈询滔; 袁玉波;
展开▼
作者单位

华东理工大学信息科学与工程学院;

上海200237;

华东理工大学信息科学与工程学院;

上海200237;

华东理工大学信息科学与工程学院;

上海200237;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计;
关键词
机器学习; 数据分类; 样本选择; 凸锥; 边界样本;

相似文献

中文文献
外文文献
专利

1. 基于边界样本的训练样本选择方法 [J] . 张莉 ,郭军 . 北京邮电大学学报 . 2006,第4期
2. 一种抽取多数类边界样本的入侵检测算法 [J] . 彭胜伟 . 科技通报 . 2013,第10期
3. 基于改进样本抽取方法图像隐写分析 [J] . 曹镇 ,张英男 ,牛向洲 . 黑龙江科技信息 . 2017,第034期
4. 基于改进样本抽取方法图像隐写分析 [J] . 曹镇 ,张英男 ,牛向洲 . 科学技术创新 . 2017,第034期
5. 基于影响度的光电测量设备测试性验证试验样本抽取方法 [J] . 何洋 ,李洪涛 ,张凯 . 现代电子技术 . 2014,第003期
6. 多对象双向列联表设计技术研究——MATLAB抽取样本群的方法及应用 [C] . 蒋志华 ,陈孝春 . 2008第四届海峡两岸应用统计学术研讨会 . 2008
7. 基于样本选择和连续学习的关系抽取研究 [A] . 郑天鹏 . 2020

基于凸边界的学习样本抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅