您现在的位置: 首页> 研究主题> 不平衡数据

不平衡数据

不平衡数据的相关文献在1990年到2023年内共计533篇,主要集中在自动化技术、计算机技术、经济计划与管理、电工技术 等领域,其中期刊论文390篇、会议论文8篇、专利文献626644篇;相关期刊196种,包括中国卫生统计、计算机工程、计算机工程与科学等; 相关会议7种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十一届全国计算语言学学术会议、2009年全国模式识别学术会议暨首届中日韩模式识别学术研讨会等;不平衡数据的相关文献由1454位作者贡献,包括刘三阳、李克文、王蕾等。

不平衡数据—发文量

期刊论文>

论文:390 占比:0.06%

会议论文>

论文:8 占比:0.00%

专利文献>

论文:626644 占比:99.94%

总计:627042篇

不平衡数据—发文趋势图

不平衡数据

-研究学者

  • 刘三阳
  • 李克文
  • 王蕾
  • 何田中
  • 刘万里
  • 王喆
  • 黄再祥
  • 李冬冬
  • 胡峰
  • 薛贞霞
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 邓柙; 吕王勇; 代娟; 陈雯; 李思奇
    • 摘要: 针对不平衡分类问题中各类别规模差异较大导致的较小类别分类精度不高的情况,提出基于先验概率的加权神经网络模型.为了提高较小类别在迭代神经网络中的重要性,以每一类样本的先验概率的倒数作为该类数据的权重,将该权重加入神经网络的目标损失函数中,并基于新构造的目标函数进行网络迭代,加强对少数类别的代价敏感学习,从而提高对小类别样本的识别率.最后利用真实分类数据进行实证分析,与经典神经网络对比,证明模型的有效性与实用性.
    • 张浩; 康海燕
    • 摘要: 为了降低在线交易欺诈数据的不平衡性对欺诈检测效果的影响,提出了一种基于特征优化生成对抗网络的在线交易反欺诈方法.该方法建立了WGAN网络包括生成模型和判别模型,对数据进行Key特征选取,在数据生成过程中进行Gumbel-softmax技巧采样输出,优化生成数据质量和提高训练稳定性;交替训练判别模型和生成模型直至模型收敛;接着将收敛的生成模型作为样本生成器生成少数类样本对原始数据进行平衡处理;利用平衡处理后的数据训练分类模型并进行模型评估.通过实验证明,该方法生成数据的效果优于SMOTE及其变种方法.
    • 张田华; 罗康洋
    • 摘要: 我国证券市场中高送转题材股备受中小投资者的追捧,但市场中也存在着借高送转概念炒作的乱象,如何利用上市公司的财务数据挖掘真正有潜力的股票无疑具有重要意义。采用2158家制造业上市公司7年的财务指标作为研究数据,利用采样、特征选择以及集成学习算法构建上市公司高送转预测模型并进行实证研究。结果显示:采样和特征选择方法均能有效提高集成预测模型的性能;相较于数据集中的冗余信息,数据不平衡问题对模型预测准确率的影响更显著;ADASYN+mRMR+XGBoost组合模型取得了最好的预测结果,高送转样本的分类准确率达到84.96%,建议投资者优先选用该组合模型对上市公司的高送转情况进行预测。
    • 王俊杰; 焦柯; 彭子祥; 谭丽红; 王文波
    • 摘要: 人工智能的逐步应用对行业的生产效率和技术变革影响显著,传统行业因样本收集难度大、成本高、涉及个人隐私等原因,进行深度学习时,面临着小样本和不平衡数据问题.现有的样本扩充方法存在着生成效果不能兼顾广泛性和合理性等问题.为此,提出一种基于变分自编码器潜变量语义提炼的样本扩充算法,利用神经网络的权重作为输入特征与潜变量相关性的度量,获取输入特征与变分自编码器潜变量的依赖关系,为潜变量赋予语义提供重要依据,实现显式控制潜变量的不同维度,生成满足总体分布且在原训练集未包含的样本.在对民用建筑结构安全数据库的样本扩充结果表明,该方法能有效生成特定属性的样本,能一定程度上解决小样本问题和不平衡数据问题.
    • 叶枫; 朱彩霞
    • 摘要: 近年来,如何提高不平衡数据分类精度的问题受到广泛关注。对于不平衡数据问题主要从数据集和算法两方面来解决。研究提出一种基于k-means++聚类算法和过采样的堆叠算法(K-SMO-Stacking)。在Stacking集成算法基础上将k-means++聚类算法应用到分类过程当中,形成新的少数类和多数类,用过采样方法生成更多更密集的少数类样本,均衡数据集后再进行回归训练。实验在多份金融不平衡数据集上进行验证,结合AUC、F1-score和G-mean主流评价指标,结果显示该算法在不平衡金融数据中的分类性能有显著提高。
    • 张喜龙; 韩萌; 陈志强; 武红鑫; 李慕航
    • 摘要: 数据流中的不平衡问题会严重影响算法的分类性能,其中概念漂移更是流数据挖掘研究领域的一个难点问题。为了提高此类问题下的分类性能,提出了一种新的基于Hellinger距离的不平衡漂移数据流Boosting分类BCA-HD算法。该算法创新性地采用实例级和分类器级的权重组合方式来动态更新分类器,以适应概念漂移的发生,在底层采用集成算法SMOTEBoost作为基分类器,该分类器内部使用重采样技术处理数据的不平衡。在16个突变型和渐变型的数据集上将所提算法与9种不同算法进行比较,实验结果表明,所提算法的G-mean和AUC的平均值和平均排名均为第1名。因此,该算法能更好地适应概念漂移和不平衡现象的同时发生,有助于提高分类性能。
    • 徐玲玲; 迟冬祥(指导); 黄彦乾; 曹钧烨
    • 摘要: 以不平衡数据分类为背景,针对生活和生产中存在的不平衡数据分类问题进行讨论研究和实验分析,在几何合成少数类过采样技术(GSMOTE)的基础上,结合k-means聚类算法,提出了一种改进的k-GSMOTE过采样方法。该方法在使用GSMOTE过采样前,对不平衡数据进行聚类划分,有效地缓解了GSMOTE采样方法难以处理类内不平衡数据的局限问题,将k-GSMOTE过采样方法用于经典的不平衡数据集上进行实验验证。结果表明:分类器的分类性能得以明显提升。
    • 董奇达; 王喆; 吴松洋
    • 摘要: 不平衡问题在现实世界中普遍存在,而不平衡数据的分布不平衡性会严重影响模型的性能。不平衡数据通常从两方面影响模型性能:一方面是数量上的不平衡导致多数类的数据对参数有更多的更新,导致模型更加偏向多数类;另一方面是少数类样本特别少,多样性不足从而导致模型表征能力不足。针对上述问题,提出了一个结合注意力机制与几何信息的特征融合框架。具体而言,该模型首先通过预训练使模型学习数据的语义信息和判别性信息,并结合注意力机制发掘模型对不同类别数据的关注点。在第二阶段,模型通过几何信息挖掘边界特征,并且结合第一阶段得到的注意力权重对边界特征进行融合,从而对少数类的数据进行补充。基于长尾CIFAR10,CIFAR100和KDDCup99数据集的实验结果表明,所提的结合注意力机制与几何信息的特征融合框架能够有效提升对不平衡数据的分类性能,并且对于不同类型的数据,包括图像数据和结构化数据,都能有效提高分类性能。
    • 孙海蓉; 曹瑶佳; 张雨晴
    • 摘要: 针对风电机组运行数据中故障数据占比小,不平衡数据集影响故障诊断精度与诊断结果的问题,提出一种基于加权模糊核C均值(WeightedKernelFuzzyC⁃means,WKFCM)算法改进的合成少数类过采样技术(SyntheticMinorityOvers⁃amplingTechnique,SMOTE)算法,结合随机森林算法实现风电机组故障诊断。使用随机森林的袋外误差进行数据特征排序和选取,采用WKFCM⁃SMOTE算法进行故障数据集扩充,基于随机森林算法搭建故障诊断模型,并对模型参数进行网格搜索优化。试验结果表明,基于该模型的风电机组故障诊断比传统方法准确率更高。
    • 张壮; 王士同
    • 摘要: 集成学习是非线性系统的主流建模方法之一。但当常规的集成TSK模糊模型直接用于不平衡数据集时,其学习性能容易受到数据不平衡性的影响,因而常常会导致泛化能力差。为解决这一问题,基于TSK模糊模型提出了一种对不平衡数据处理的分类集成模型。基本思想是:首先利用SMOTE过采样方法对不平衡样本集做预处理,使得类别分布相对平衡,再引入AdaBoost方法对集成TSK模糊模型进行学习,集成时根据权值大小对样本进行随机采样,并通过多次训练对权值进行迭代更新,最后将生成的各个模型结果根据特定的加权方法结合,产生最终输出,使各模型得到充分的训练,进而提升整个集成TSK模糊模型的泛化能力。由此,提出了对应的不平衡数据的集成TSK模糊模型,并使用模型在多个数据集上进行实验,采用均方误差和精度对模型进行评估均有较好的效果,然后改变模型数量和规则数量等参数探究它们对模型性能的影响,并使用图像表示它们的变化情况,实验结果证明了所提出的集成学习算法的有效性。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号