首页> 中国专利> 基于重复编辑最近邻与聚类过采样的数据重采样方法

基于重复编辑最近邻与聚类过采样的数据重采样方法

摘要

本发明涉及一种基于重复编辑最近邻与聚类过采样的数据重采样方法,计算每个待取样本与附近样本之间欧式距离,选取距离最小的作为待取样本的临近样本,对比该样本与其邻近样本的标签是否相同,如果不同则将其删除;使用K‑means将剩余样本划分为k个聚类,过滤掉多数类样本数与少数类样本数之比小于不平衡率阈值c的聚类;对每个聚类计算该聚类中各个少数类样本之间的欧氏距离,构造该聚类的距离矩阵,对矩阵中所有非对角元素求和,然后除以非对角元素个数得到该聚类的平均距离;计算每个聚类的稀疏因子;计算各个聚类的重采样权重值,使用SMOTE方法根据权重值确定生成的新样本数量。本发明解决了数据中类不平衡问题,使得分类器能够获得更好的分类效果。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-04-24

    实质审查的生效 IPC(主分类):G06N20/00 申请日:20191111

    实质审查的生效

  • 2020-03-31

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号