首页> 中国专利> 一种基于区间平均值的模糊粗糙单调数据挖掘方法

一种基于区间平均值的模糊粗糙单调数据挖掘方法

摘要

本发明参照模糊粗糙集的理论,提出基于区间平均值的模糊粗糙单调数据挖掘方法,通过对决策属性与条件属性重新排列后,然后对重新排列后的集合进行区间划分,并通过每个区间的平均值进行单调判断,然后求出条件属性的隶属函数值,并根据区间的循环划分求出适合的划分数,进而得出干扰因素的作用范围,然后设定过滤规则,对不适合的数据进行过滤,从而获得约简的数据集和最优的数据。

著录项

  • 公开/公告号CN102609470A

    专利类型发明专利

  • 公开/公告日2012-07-25

    原文格式PDF

  • 申请/专利权人 华南师范大学;

    申请/专利号CN201210014925.2

  • 发明设计人 梁瑾;

    申请日2012-01-16

  • 分类号G06F17/30(20060101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人禹小明

  • 地址 510631 广东省广州市天河区中山大道西55号

  • 入库时间 2023-12-18 06:17:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-27

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2012100149252 申请日:20120116 授权公告日:20140507

    专利权的终止

  • 2014-05-07

    授权

    授权

  • 2012-09-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120116

    实质审查的生效

  • 2012-07-25

    公开

    公开

说明书

技术领域

本发明所涉及数据挖掘的技术领域,特别是设计一种基于区间平均值的模 糊粗糙单调数据挖掘方法。

背景技术

粗糙集理论是用来处理不确定和不完整数据信息的数学工具,而模糊集也 可以描述信息和知识的不确定性,由于两者有很强的互补性,因此可以把它们 结合起来对信息进行不确定性处理。在决策表中,粗糙集挖掘,条件属性和决 策属性之间的依赖关系,约简属性,找出哪些条件属性对决策属性比较重要, 主要的理论基础是等价关系,由于等价关系的局限性,许多人提出了不同的约 简关系,T.Y.Lin等人提出了领域和相容关系,S.Greco等人提出了优势关系, D.Dubois等人提出了模糊等价关系等。事实上条件属性和决策属性之间往往还 存在量的单调依赖关系。例如在生化反应中,条件成分和成品之间在一定范围 内有单调递增或者递减依赖关系,一般情况下越多的成品需要越多的条件成分, 而是否凡是包含成品成分的条件成分都与成品之间有这样的单调递增关系。显 然不是,有些条件成分虽然包含成品中的成分,但它们并不参与生成成品,当 然在某些情况下可以通过确定的生化反应方程较精确的计算出来,但大多数情 况下,生化反应处于一个复杂的环境中,受到很多物理、化学和生物等不确定 因素的影响,可以采用模糊粗糙的方法,先计算出条件成分与成品之间的单调 递增或者递减关系,从而精简掉冗余的条件成分,然后再进行相应的分析,也 就是挖掘出哪些条件属性的增加或减少会影响到决策属性的量的变化,并且挖 掘出哪些量影响程度大,得出主要控制哪些条件属性的量会影响决策属性量增 加或者减少,从而达到控制目的。

1997年和1998年C.J.Wu,Te-Shun Chou分别介绍和讨论了模糊单调函数及在 逻辑控制中的应用,某些文献讨论了Mamdani-Assilians模型和T-S推断方法中与 模糊单调相关的理论,近年来许多人讨论了决策表属性约简的不少算法等,在 决策表中,假设决策属性量的增加与减少依赖于某些条件属性量的增加与减少, 那么需要挖掘出对决策属性量的变化产生重要影响的条件属性,称这样的决策 属性和条件属性之间有重要的单调依赖关系,而这种单调依赖关系在决策表中 并非一定严格单调,也就是说在相邻两点的条件属性值单调性并不一定能一一 映射到决策属性相应两点的单调性,因为实际数据中存在各种干扰因素和误差, 但是现有技术中还没有能有效的挖掘出对决策属性变化产生重要影响的条件属 性,并可以通过控制这些条件属性去影响决策属性。

现有的技术模型主要是围绕着等价关系进行一些拓展和改变,因此在采用这 些技术模型进行知识约简和数据挖掘时都存在一些问题,具体归纳如下:(1) 面对众多的输入与输出属性和复杂庞大的数据,如何在属性数据之间构建等价 关系及其现有的一些拓展关系是比较难的问题;(2)复杂数据构成的决策表一 般都是不一致的决策表,而现有属性约简算法一般是建立在一致的决策表上; (3)复杂环境的数据一般都是连续性的数据,而现有的属性约简算法一般都要 对连续性的数据离散化处理,而对于不规则的复杂、多变和大量的数据,这是 一个难题;(4)对于现有的启发式知识约简方法,多数以核属性作为出发点, 每步把相对重要的最大属性优先加入要求约简结果中,而因为(1)所提的问题, 所以核属性不容易求出,相对重要性在的复杂环境中也比较难获取,因为在众 多的属性中,属性的重要性不容易观察出来,而且输入和输出数据很复杂,很 难通过人为统计而得出属性的相对重要性或者通过现有的分析方法得到;(5) 由于复杂环境中的数据基本都是不完备的,而这对现有的属性约简方法来说一 个难题;(6)现有的属性约简算法一般针对有限的数据值集,不适用大量不规 则的数据值集,而在复杂环境中所测出的数据往往是大量不规则的数据集。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于区间平均值的模糊 粗糙单调数据挖掘方法。

为了实现上述发明目的,采用的技术方案如下:

一种基于区间平均值的模糊粗糙单调数据挖掘方法,包括:

对决策属性集合D和条件属性集合Ci分别根据决策属性值按行进行排序后, 获得第二决策属性集合D′和第二条件属性集合C′i的步骤;

第二决策属性集合D′划分为2≤p<n个区间,并计算出相邻区间的距离和各 个区间的中心点,以及根据决策属性与条件属性之间的映射关系对第二条件属 性集合C′i划分区间的步骤,并计算出第二条件属性集合C′i相邻区间的距离和各 个区间的中心点,其中p为区间数,n为决策表的对象数;

从p到2循环计算出第二条件属性集合C′i在每个P值下各个区间的平均值, 判断各个区间平均值依区间划分是否为升序关系,若是则通过区间的平均值求 出求这次划分条件属性的隶属函数值,否则将该P值划分下条件属性的隶属函 数值置零的步骤;

求出最大的隶属函数值以及其对应的P值的步骤;

根据所述隶属函数的最大值计算出干扰因素的稳定作用范围的步骤;

根据干扰因素的作用范围设定过滤规则,求约简的数据和最优数据的步骤。

其中,决策表根据决策属性值的递增顺序按行进行排序。

或者,在所述决策属性值前加上负号,然后决策表根据添加负号后的决策属 性值的递增顺序按行进行排序。

优选地,所述划分区间的方法为:等距离设定决策属性集的p个区间的中心 点,把(max(D)-min(D))p=yn-y1p=dis作为相邻区间中心点的距离,第一个区间的 中心点设为记为ct1,第i个区间中心点记为cti,那么第i+1区间中心点 cti+1=cti+dis,得p个区间中心点的集合{ct1,ct2,...,ctp}把与中心点集合中任一中心 的距离小于等于dis/2的决策属性值归为相应的区间,其中yn′∈D′、y1′∈D′。

优选地,所述循环计算的内容为:

(1)求区间的平均值,并判断区间平均值是否依区间划分是升序关系,如 果是,那么进入下一步;否则,这次划分的隶属函数值赋0,进入p的下次循环;

(2)求出第二条件属性集合C′i每次划分所有相邻区间的隶属函数值,从这 些相邻区间的隶属函数值中找出最小值作为每次划分的隶属函数值;

(3)判断循环是否结束,若是就结束循环,否则进入下一次循环。

优选地,通过以下公式获取条件属性各个区间的隶属函数值:

其中,avg(Γh)表示区间Γh的平均值,num(avg(Γh)≥Γr))表示Γr中小于等于Γh的 平均值的元素的个数,|Γr|表示Γr中元素的个数,β为可选参数,0.5<β≤1,可以 根据具体情况进行选择从而得到决策规则。

优选地,计算出所述干扰因素的稳定作用范围的方法为:根据从P到2的循 环计算中得出的隶属函数值,在所述的隶属函数值不为0,且当模糊递增隶属函 数的值在p=k→2的过程中,后面的值大于等于前面的值,并且当P=2或P=3时, 所述隶属函数值最大时,记录k的值并根据k的值求出所述干扰因素的稳定作 用范围。

优选地,所述干扰因素的稳定作用范围为:

优选地,所述过滤规则具体为:

当p值越小时,设定的隶属函数过滤值则越大与P值呈反比;当p值越大时, 设定的隶属函数过滤值则越小与P值呈反比;所述过滤值至少大于0.5,用于把 不符合设定要求的条件属性过滤掉,达到属性约简和数据挖掘的目的。

与现有技术相比,本发明的优点在于:

可以针对复杂的具有输入输出特征的系统或者环境,根据输入和输出所采 集的数据,能迅速找出对关键输出有重要影响的主要输入,达到约简输入属性 或者达到挖掘主要输入的目的,并可以把握各个输入对输出的影响程度,从而 可以为如何控制输入达到控制输出提供决策的参考。

附图说明

图1为本发明数据递增情况下的流程图;

图2为本发明数据递减情况下的流程图。

具体实施方式

下面结合附图对本发明做进一步的说明。

如图1-2所示,本发明提供一种基于区间平均值的模糊粗糙单调数据挖掘方 法,包括:

对决策属性集合D和条件属性集合Ci分别根据决策属性值按行进行排序后, 获得第二决策属性集合D′和第二条件属性集合C′i的步骤;

由于决策属性和条件属性之间是一一映射的关系,必然存在映射f:DαCi, 其中对任意的k∈{1,2,...,n},yk∈D,xik∈Ci,有f(yk)=xik,也必然存在逆映射 f-1:CiαD,使得f-1(xik)=yk。同样存在映射g:Uα{D,C},使得 g(ek)={yk,x1k,x2k,..,xmk},同理有逆映射g-1(yk,x1k,x2k,...,xmk)=ek,对某个条件属性 Ci∈C={C1,C2,...,Cm},存在映射gi:Uα{D,Ci},使得gi(ek)={yk,xik},同样有逆映射 gi-1(yk,xik)=ek.

将第二决策属性集合D′划分为2≤p<n个区间,并计算出相邻区间的距离和 各个区间的中心点,得到区间集合Ω={Ω1、Ω2、…Ωp},并根据映射关系对第 二条件属性集合C′i划分区间,得到区间集合Γ={Γ1、Γ2、…Γp},其中p为区 间数,n为决策表的对象数;

从p到2循环计算出第二条件属性集合C′i在每个P值下各个区间的平均值, 判断区间平均值是否依区间划分是升序关系,若是则通过区间的平均值求出求 这次划分条件属性的隶属函数值,否则将该P值划分下条件属性的隶属函数值 置零的步骤;

所划分的每个区间平均值,平均值就是该区间所有数值的平均值,依区间 划分是升序关系:比如:区间1的平均值为a1,区间2的平均值是a2,…,区间n 的平均值为an,那么a1,a2,…,an是否是升序关系。

其中上述,通过求区间的平均值,并判断区间平均值是否依区间划分是升 序关系,如果是,则判断决策属性和条件属性之间存在模糊粗糙单调关系并记 录模糊单调依赖隶属函数值,否则判断决策属性和条件属性之间不存在模糊粗 糙单调关系,模糊单调依赖隶属函数值赋零。

其中所述模糊粗糙单调关系具体为:

量a与量b模糊单调的特征内涵是:当量a在某范围内出现增长或者减少的 趋势时,量b在某范围内也会出现增长或者减少的趋势。下面给出模糊粗糙单调 的更具体化的文字描述定义:当输入值在某个区间范围的值相对另一个区间范 围的值出现递增关系,或者说一个区间范围的值大部分大于另一个区间范围的 值时,由于干扰因素的存在,输出值也出现在对应区间范围的值大部分大于对 应的另一个区间范围的值,称这样的递增关系为区间的模糊递增关系;同样, 当输入值在一个区间范围的值大部分大于另一个区间范围的值时,而输出值出 现在对应区间范围的值大部分小于对应的另一个区间范围的值,则称这样的递 减关系为区间的模糊递减关系。只要符合模糊单调特征内涵的数学模型都可以 是模糊单调的数学模型。

求出最大的隶属函数值以及其对应的P值的步骤;

根据所述隶属函数的最大值计算出干扰因素的稳定作用范围的步骤;

根据干扰因素的作用范围设定过滤规则,求约简的数据和最优数据的步骤。

所述决策表的重新排列可以为:决策表根据决策属性值的递增顺序按行进 行排序。或在所述决策属性值前加上负号,然后决策表根据添加负号后的决策 属性值的递增顺序按行进行排序。

进一步优选地,所述对区间的划分采用的方法为:等距离设定决策属性集 的p个区间的中心点,把(max(D)-min(D))p=yn-y1p=dis作为相邻区间中心点的距 离,第一个区间的中心点设为记为ct1,第i个区间中心点记为cti,那么第 i+1区间中心点cti+1=cti+dis,得p个区间中心点的集合{ct1,ct2,...,ctp}把与中心点 集合中任一中心的距离小于等于dis/2的决策属性值归为相应的区间,其中yn′ ∈D′、y1′∈D′,,设y′l∈D′,如果|y′l-cti-1>dis/2,且|y′l-cti|≤dis/2,那么把y′l归 为区间Ωi,这种划分方法,简称为ψ划分,D′经过ψ划分后,得Ω1,Ω2,...,Ωp,其 中Ω12U...UΩp=D′,对任意的1≤r<h≤p,有 sup(Ωr)≤inf(Ωh)sup为上确界,inf为下确界,通过映射f,可得C′i的区间划分 Γ1,Γ2,...,Γp,简称为Z划分。

求出Γ1,Γ2,...,Γp区间之间模糊递增依赖隶属函数的最小数值,作为条件属性 C′i相对决策属性D′依区间划分ψ的递增程度,或说C′i依区间划分Z的递增程度。 如果最小数值为0,那么认为C′i相对D′依区间划分ψ没有递增,或说C′i依区间 划分Z没有递增。

上述的判断用于考察条件属性与决策属性的模糊单调程度,从而可以通过 后面设定的过滤规则把模糊单调程度弱的条件属性过滤掉,达到约简的目的。

上述步骤中需要循环计算的内容为:

(1)求区间的平均值,并判断区间平均值是否依区间划分是升序关系,如 果是,那么进入下一步;否则,这次划分的隶属函数值赋0,进入p的下次循环;

(2)求出第二条件属性集合C′i每次划分所有相邻区间的隶属函数值,从这 些相邻区间的隶属函数值中找出最小值作为每次划分的隶属函数值;

(3)判断循环是否结束,若是就结束循环,否则进入下一次循环。

优选地,通过以下公式获取条件属性各个区间的隶属函数的值:

其中,avg(Γh)表示区间Γh的平均值,num(avg(Γh)≥Γr))表示Γr中小于等于Γh的 平均值的元素的个数,|Γr|表示Γr中元素的个数,β为可选参数,0.5<β≤1,可以 根据具体情况进行选择从而得到决策规则。

因此μavgh,Γr)=0或β<μavgh,Γr)≤1。当μavgh,Γr)=0时,认为区间Γh相对 区间Γr没有发生模糊递增的情况,否则称Γh相对区间Γr依程度μavgh,Γr)模糊递 增

优选地,计算出所述干扰因素的稳定作用范围的方法为:根据从P到2的 循环计算中得出的隶属函数值,在所述的隶属函数值不为0,且当模糊递增隶属 函数的值在p=k→2的过程中,后面的值大于等于前面的值,并且当P=2或P=3 时,所述隶属函数值最大时,记录k的值并根据k的值求出所述干扰因素的稳 定作用范围。

进一步地,所述干扰因素的稳定作用范围为:

进一步地,所述过滤规则具体为:

当p值越小时,设定的隶属函数过滤值则越大与P值呈反比;当p值越大时, 设定的隶属函数过滤值则越小与P值呈反比;所述过滤值至少大于0.5,用于把 不符合设定要求的条件属性过滤掉,达到属性约简和数据挖掘的目的。

具体实施例:

首先说明下UCI的污水处理数据,该数据集是来自城市污水厂每日的传感 器测试的结果,总共有527组样本数据,每组数据包含38个属性,有些数据是 缺失的和不完备的数据。其中29个主要属性的信息如下:

(1)Q-E(input flow to plant):输入到工厂的流量;

(2)ZN-E(input Zinc to plant):输入到工厂的锌;

(3)PH-E(input pH to plant):输入到工厂的pH;

(4)DBO-E(input Biological demand of oxygen to plant):输入到工 厂的生物需氧量;

(5)DQO-E(input chemical demand of oxygen to plant):输入到工厂 的化学需氧量;

(6)SS-E(input suspended solids to plant):输入到工厂的悬浮固体;

(7)SSV-E(input volatile supended solids to plant):输入到工厂 的挥发性固体;

(8)SED-E(input sediments to plant):输入到工厂的沉淀物;

(9)COND-E(input conductivity to plant):输入到工厂的传导性;

(10)PH-P(input pH to primary settler):输入到初沉池的pH;

(11)DBO-P(input Biological demand of oxygen to primary settler): 输入到初沉池的生物需氧量;

(12)SS-P(input suspended solids to primary settler):输入到初沉 池的悬浮固体;

(13)SSV-P(input volatile supended solids to primary settler): 输入到初沉池的挥发性固体;

(14)SED-P(input sediments to primary settler):输入到初沉池的 沉淀物;

(15)COND-P(input conductivity to primary settler):输入到初沉池 的传导性;

(16)PH-D(input pH to secondary settler):输入到二沉池的pH;

(17)DBO-D(input Biological demand of oxygen to secondary settler): 输入到二沉池的生物需氧量;

(18)DQO-D(input chemical demand of oxygen to secondary settler): 输入到二沉池的化学需氧量;

(19)SS-D(input suspended solids to secondary settler):输入到二 沉池的悬浮固体;

(20)SSV-D(input volatile supended solids to secondary settler): 输入到二沉池的挥发性固体;

(21)SED-D(input sediments to secondary settler):输入到二沉池的 沉淀物;

(22)COND-D(input conductivity to secondary settler):输入到二沉 池的传导性;

(23)PH-S(output pH):输出的pH值;

(24)DBO-S(output Biological demand of oxygen):输出的生物需氧量;

(25)DQO-S(output chemical demand of oxygen):输出的化学需氧量;

(26)sS-S(output suspended solids):输出的悬浮固体;

(27)SSV-S(output volatile supended solids):输出的挥发性固体;

(28)SED-S(output sediments):输出的沉淀物;

(29)COND-S(output conductivity):输出的传导性;

前22个属性为对象的输入数据属性,将它们作为决策表的条件属性,第23 至29个属性为对象的输出数据属性,把它们作为输出的决策属性。对于基于区 间平均值的数据挖掘算法,设定如下:设μmax为最大的模糊递增隶属函数值,pmax为取得最大模糊递增隶属函数值时的p值,Ωr为干扰因素对该隶属函数作用的 稳定范围,p→2过程中模糊单调递增隶属函数值开始稳定递增的p值记为K′, 在下列的表中,P2表示p等于2时,Pi表示p等于i时,Pi所对应的列的数值 表示p等于i时的模糊递增隶属函数值;现只给出第(23)、(24)和(25)个输 出属性与其他22个输入属性的模糊单调递增依赖关系的实验结果,如下所示:

(一)第23个决策属性PH-S与其他22个条件输入属性的模糊单调递增依 赖关系:

针对基于区间平均值的模糊单调数据挖掘算法,在这个实验中,设置决策 过滤规则如下:设μmax的β值为0.6,把一些属性过滤后得到表4.2.2:

表4.2.2PH-S基于区间平均值的模糊单调递增依赖关系表

从表4.2.2中可以得到与决策属性PH-S有模糊单调关系的属性约简集合,记 为AvgR23={PH-E,SS-E,SED-E,COND-E,PH-P,DBO-P,SS-P,SED-P, COND-P,PH-D,SED-D,COND-D},与集合MinR23相比,可以发现

(二)第24个决策属性DBO-S与其他22个条件输入属性的模糊单调递增依赖 关系:

由于该决策属性的最大样本数据值是其他数据值的3倍以上,为保证数据分 布的相对均匀性,把该数据作为噪声数据过滤掉,剩下245个样本数据。

针对基于区间平均值的模糊单调数据挖掘方法,在这个实验中,设置决策 过滤规则如下:

如果当p取2或者3时模糊递增隶属函数的值不为零,而当p取其他值时模糊 递增隶属函数的值都为零,那么设μmax的β值为0.6,否则设μmax的β值为0.55, 把一些属性过滤后得到表4.2.5:

表4.2.5DBO-S基于区间平均值的模糊单调递增依赖关系表

从表4.2.5中可以得到与决策属性DBO-S有模糊单调关系的属性约简集合, 记为AvgR24={ZN-E,DBO-E,DQO-E,SS-E,COND-E,DBO-P,SS-P,SED-P, COND-P,DBO-D,DQO-D,SS-D,SED-D,COND-D},与集合MinR24相比,可 以发现MinR24AvgR24.

(三)第25个决策属性DQO-S与其他22个条件输入属性的模糊单调递增依赖关 系:

由于该决策属性有三个样本数据值远远大于其他的数据值,为保证数据分 布的相对均匀性,把这三个样本数据作为噪声数据过滤掉,剩下243个样本数据。 针对基于区间平均值的模糊单调隶属函数,在这个实验中设计决策过滤规则如 下:if p≤5且模糊隶属函数都不为零then设μmax的β值为0.50;

if p≤4且模糊隶属函数都不为零then设μmax的β值为0.55;

if p≤3且模糊隶属函数都不为零then设μmax的β值为0.60;

如果当p取2或者3两者之一时模糊递增隶属函数的值不为零,而当p取其他 值时模糊递增隶属函数的值都为零,那么设μmax的β值为0.62。把一些属性过滤 后得到表4.2.8:

表4.2.8 DQO-S基于区间平均值的模糊单调递增依赖关系表

从表4.2.8中可以得到与决策属性DQO-S有模糊单调关系的属性约简集合, 记为AvgR25={ZN-E,DBO-E,DQO-E,SS-E,SSV-E,SED-E,PH-P,DBO-P, SS-P,SED-P,COND-P,DBO-D,DQO-D,SED-D},与集合MinR25相比,可以 发现MinR25AvgR25.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号