不平衡数据
不平衡数据的相关文献在1990年到2023年内共计533篇,主要集中在自动化技术、计算机技术、经济计划与管理、电工技术
等领域,其中期刊论文390篇、会议论文8篇、专利文献626644篇;相关期刊196种,包括中国卫生统计、计算机工程、计算机工程与科学等;
相关会议7种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十一届全国计算语言学学术会议、2009年全国模式识别学术会议暨首届中日韩模式识别学术研讨会等;不平衡数据的相关文献由1454位作者贡献,包括刘三阳、李克文、王蕾等。
不平衡数据—发文量
专利文献>
论文:626644篇
占比:99.94%
总计:627042篇
不平衡数据
-研究学者
- 刘三阳
- 李克文
- 王蕾
- 何田中
- 刘万里
- 王喆
- 黄再祥
- 李冬冬
- 胡峰
- 薛贞霞
- 陈丽芳
- 代琪
- 余红梅
- 刘双印
- 周斌
- 宋燕
- 张岩波
- 方滨兴
- 李军
- 李树栋
- 李雄飞
- 杨云
- 殷丽华
- 王乐
- 王舒梵
- 田志宏
- 罗艳虹
- 葛志强
- 贾焰
- 郑建华
- 韩伟红
- 黄子中
- 万静
- 严涛
- 乔少杰
- 于洪
- 刘文英
- 周旭
- 姜新盈
- 季梦遥
- 尹红
- 张永清
- 张涛
- 强冰冰
- 曲朝阳
- 曹路
- 朱巧明
- 杨明
- 杨杰明
- 王中卿
-
-
邓柙;
吕王勇;
代娟;
陈雯;
李思奇
-
-
摘要:
针对不平衡分类问题中各类别规模差异较大导致的较小类别分类精度不高的情况,提出基于先验概率的加权神经网络模型.为了提高较小类别在迭代神经网络中的重要性,以每一类样本的先验概率的倒数作为该类数据的权重,将该权重加入神经网络的目标损失函数中,并基于新构造的目标函数进行网络迭代,加强对少数类别的代价敏感学习,从而提高对小类别样本的识别率.最后利用真实分类数据进行实证分析,与经典神经网络对比,证明模型的有效性与实用性.
-
-
张浩;
康海燕
-
-
摘要:
为了降低在线交易欺诈数据的不平衡性对欺诈检测效果的影响,提出了一种基于特征优化生成对抗网络的在线交易反欺诈方法.该方法建立了WGAN网络包括生成模型和判别模型,对数据进行Key特征选取,在数据生成过程中进行Gumbel-softmax技巧采样输出,优化生成数据质量和提高训练稳定性;交替训练判别模型和生成模型直至模型收敛;接着将收敛的生成模型作为样本生成器生成少数类样本对原始数据进行平衡处理;利用平衡处理后的数据训练分类模型并进行模型评估.通过实验证明,该方法生成数据的效果优于SMOTE及其变种方法.
-
-
张田华;
罗康洋
-
-
摘要:
我国证券市场中高送转题材股备受中小投资者的追捧,但市场中也存在着借高送转概念炒作的乱象,如何利用上市公司的财务数据挖掘真正有潜力的股票无疑具有重要意义。采用2158家制造业上市公司7年的财务指标作为研究数据,利用采样、特征选择以及集成学习算法构建上市公司高送转预测模型并进行实证研究。结果显示:采样和特征选择方法均能有效提高集成预测模型的性能;相较于数据集中的冗余信息,数据不平衡问题对模型预测准确率的影响更显著;ADASYN+mRMR+XGBoost组合模型取得了最好的预测结果,高送转样本的分类准确率达到84.96%,建议投资者优先选用该组合模型对上市公司的高送转情况进行预测。
-
-
王俊杰;
焦柯;
彭子祥;
谭丽红;
王文波
-
-
摘要:
人工智能的逐步应用对行业的生产效率和技术变革影响显著,传统行业因样本收集难度大、成本高、涉及个人隐私等原因,进行深度学习时,面临着小样本和不平衡数据问题.现有的样本扩充方法存在着生成效果不能兼顾广泛性和合理性等问题.为此,提出一种基于变分自编码器潜变量语义提炼的样本扩充算法,利用神经网络的权重作为输入特征与潜变量相关性的度量,获取输入特征与变分自编码器潜变量的依赖关系,为潜变量赋予语义提供重要依据,实现显式控制潜变量的不同维度,生成满足总体分布且在原训练集未包含的样本.在对民用建筑结构安全数据库的样本扩充结果表明,该方法能有效生成特定属性的样本,能一定程度上解决小样本问题和不平衡数据问题.
-
-
叶枫;
朱彩霞
-
-
摘要:
近年来,如何提高不平衡数据分类精度的问题受到广泛关注。对于不平衡数据问题主要从数据集和算法两方面来解决。研究提出一种基于k-means++聚类算法和过采样的堆叠算法(K-SMO-Stacking)。在Stacking集成算法基础上将k-means++聚类算法应用到分类过程当中,形成新的少数类和多数类,用过采样方法生成更多更密集的少数类样本,均衡数据集后再进行回归训练。实验在多份金融不平衡数据集上进行验证,结合AUC、F1-score和G-mean主流评价指标,结果显示该算法在不平衡金融数据中的分类性能有显著提高。
-
-
张喜龙;
韩萌;
陈志强;
武红鑫;
李慕航
-
-
摘要:
数据流中的不平衡问题会严重影响算法的分类性能,其中概念漂移更是流数据挖掘研究领域的一个难点问题。为了提高此类问题下的分类性能,提出了一种新的基于Hellinger距离的不平衡漂移数据流Boosting分类BCA-HD算法。该算法创新性地采用实例级和分类器级的权重组合方式来动态更新分类器,以适应概念漂移的发生,在底层采用集成算法SMOTEBoost作为基分类器,该分类器内部使用重采样技术处理数据的不平衡。在16个突变型和渐变型的数据集上将所提算法与9种不同算法进行比较,实验结果表明,所提算法的G-mean和AUC的平均值和平均排名均为第1名。因此,该算法能更好地适应概念漂移和不平衡现象的同时发生,有助于提高分类性能。
-
-
徐玲玲;
迟冬祥(指导);
黄彦乾;
曹钧烨
-
-
摘要:
以不平衡数据分类为背景,针对生活和生产中存在的不平衡数据分类问题进行讨论研究和实验分析,在几何合成少数类过采样技术(GSMOTE)的基础上,结合k-means聚类算法,提出了一种改进的k-GSMOTE过采样方法。该方法在使用GSMOTE过采样前,对不平衡数据进行聚类划分,有效地缓解了GSMOTE采样方法难以处理类内不平衡数据的局限问题,将k-GSMOTE过采样方法用于经典的不平衡数据集上进行实验验证。结果表明:分类器的分类性能得以明显提升。
-
-
董奇达;
王喆;
吴松洋
-
-
摘要:
不平衡问题在现实世界中普遍存在,而不平衡数据的分布不平衡性会严重影响模型的性能。不平衡数据通常从两方面影响模型性能:一方面是数量上的不平衡导致多数类的数据对参数有更多的更新,导致模型更加偏向多数类;另一方面是少数类样本特别少,多样性不足从而导致模型表征能力不足。针对上述问题,提出了一个结合注意力机制与几何信息的特征融合框架。具体而言,该模型首先通过预训练使模型学习数据的语义信息和判别性信息,并结合注意力机制发掘模型对不同类别数据的关注点。在第二阶段,模型通过几何信息挖掘边界特征,并且结合第一阶段得到的注意力权重对边界特征进行融合,从而对少数类的数据进行补充。基于长尾CIFAR10,CIFAR100和KDDCup99数据集的实验结果表明,所提的结合注意力机制与几何信息的特征融合框架能够有效提升对不平衡数据的分类性能,并且对于不同类型的数据,包括图像数据和结构化数据,都能有效提高分类性能。
-
-
孙海蓉;
曹瑶佳;
张雨晴
-
-
摘要:
针对风电机组运行数据中故障数据占比小,不平衡数据集影响故障诊断精度与诊断结果的问题,提出一种基于加权模糊核C均值(WeightedKernelFuzzyC⁃means,WKFCM)算法改进的合成少数类过采样技术(SyntheticMinorityOvers⁃amplingTechnique,SMOTE)算法,结合随机森林算法实现风电机组故障诊断。使用随机森林的袋外误差进行数据特征排序和选取,采用WKFCM⁃SMOTE算法进行故障数据集扩充,基于随机森林算法搭建故障诊断模型,并对模型参数进行网格搜索优化。试验结果表明,基于该模型的风电机组故障诊断比传统方法准确率更高。
-
-
张壮;
王士同
-
-
摘要:
集成学习是非线性系统的主流建模方法之一。但当常规的集成TSK模糊模型直接用于不平衡数据集时,其学习性能容易受到数据不平衡性的影响,因而常常会导致泛化能力差。为解决这一问题,基于TSK模糊模型提出了一种对不平衡数据处理的分类集成模型。基本思想是:首先利用SMOTE过采样方法对不平衡样本集做预处理,使得类别分布相对平衡,再引入AdaBoost方法对集成TSK模糊模型进行学习,集成时根据权值大小对样本进行随机采样,并通过多次训练对权值进行迭代更新,最后将生成的各个模型结果根据特定的加权方法结合,产生最终输出,使各模型得到充分的训练,进而提升整个集成TSK模糊模型的泛化能力。由此,提出了对应的不平衡数据的集成TSK模糊模型,并使用模型在多个数据集上进行实验,采用均方误差和精度对模型进行评估均有较好的效果,然后改变模型数量和规则数量等参数探究它们对模型性能的影响,并使用图像表示它们的变化情况,实验结果证明了所提出的集成学习算法的有效性。
-
-
ZHU Shanshan;
朱珊珊;
HONG Yu;
洪宇;
DING Siyuan;
丁思远;
YAO Jianmin;
姚建民;
ZHU Qiaoming;
朱巧明
- 《中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)》
| 2015年
-
摘要:
隐式篇章关系分类是篇章分析领域的一个重要研究子任务,大部分已有研究都假设参与分类的正类样本和负类样本数量相等,采用随机欠采样等不平衡数据处理方法保持训练样本中数据平衡,然而,在实际语料中正类样本和负类样本的分布是不平衡的,这一现象往往制约隐式篇章关系分类性能的有效提升.针对该问题,本文提出一种基于框架语义向量的隐式篇章关系分类方法,该方法借助框架语义知识库,将论元表示成框架语义向量,在此基础上,从外部数据资源中挖掘有效的篇章关系样本,对训练样本进行扩展,解决数据不平衡问题.在宾州篇章树库(Penn Discourse Treebank,PDTB)语料上的实验结果表明,相较于目前主流的不平衡数据处理方法,本文方法能够明显提高隐式篇章关系分类性能.
-
-
-
张圆圆;
侯艳;
李康
- 《2017年中国卫生统计学学术年会》
-
摘要:
相比于常见的二分类问题,实际应用中多分类问题如不同癌症的诊断,同种癌症不同亚型的鉴别等问题更加复杂,数据的不平衡性对模型分类预测结果影响较大.本研究基于传统的Adaboost框架采用一种新的欠抽样boosting方法,用于处理高维组学多分类不平衡数据.
-
-
Xu Yangyang;
徐洋洋;
Chen Qiong;
陈琼;
Chen Linqing
- 《2016年全国高性能计算学术年会》
| 2016年
-
摘要:
阐述现实中数据分布不平衡的情况越来越多,给以数据分布基本均衡为前提的传统分类算法带来了一定的挑战.利用相关的辅助数据集对不平衡的目标数据集进行迁移学习可以解决数据分布不平衡的问题.以TrAdaboost迁移学习算法为基础提出了不平衡迁移学习算法UnbalanceTrAdaboost(UBTA),该算法使用部分抽样特征训练弱分类器,提出了一个基于AUG(the Area Under the ROC curve)的计算弱分类器权重、修改分类阈值,更新样本权重的方法。与其他算法的比较实验结果表明,在数据分布不平衡的分类问题中,UBTA算法具有较好的分类性能和较高的效率。
-
-
-
闫慈;
阿拉依·阿汗;
张伟文;
曹明芹
- 《2017年中国卫生统计学学术年会》
-
摘要:
目前流行的分类算法(如决策树、神经网络)都是基于类分布均衡的假设,以高总体准确度为目标.如在肿瘤的诊断中,将99%的个体诊断为健康,便可达到99%的准确度,但这种分类算法并无任何实际意义.医学中患者的数量远远小于健康个体,在医疗诊断中病人误诊为健康与健康个体误诊为病人付出的代价是不同的,因此,准确的识别出病人更加重要.那么,如何增加患者的识别率,同时兼顾健康个体的准确度,是亟待解决的分类问题.本文以代谢综合征为例,从数据处理角度出发,采用重采样技术平衡数据后,用BP神经网络、C4.5决策树分类体检中的代谢综合征患者.
-
-
-
-