法律状态公告日
法律状态信息
法律状态
2022-09-20
未缴年费专利权终止 IPC(主分类):G06K 9/62 专利号:ZL2013104758131 申请日:20131013 授权公告日:20160907
专利权的终止
2016-09-07
授权
授权
2014-02-19
实质审查的生效 IPC(主分类):G06K9/62 申请日:20131013
实质审查的生效
2014-01-01
公开
公开
技术领域
本发明涉及一种基于样本数据先验信息的支持向量机核函数选择方法及应用,尤其适用 于实时在线的支持向量机模型预测控制场所。
背景技术
支持向量机(Support Vector Machine,SVM)是20世纪90年代Vapnik基于统计学习理论提 出的一种新的机器学习方法。与传统统计学相比,支持向量机有完备的理论基础和严格的理论 体系,能够解决有限样本的学习问题,具有很强的泛化能力。由于这一方法具有许多优良特性, 并在不少领域如模式识别、回归估计、数据挖掘、生物信息学等领域均取得成功的应用。SVM 建立在结构风险最小化原则基础之上,其核心思想之一是引入核函数技术,巧妙地解决了在 高维特征空间中计算的“维数灾难”等问题。然而,不同的核函数所呈现出的特性各异,选择 不同的核函数会导致SVM的推广性能有所不同。目前,如何针对具体问题选择(或构造)合适的 核函数,缺乏相应的理论指导,存在很大的随意性和局限性,也是SVM应用领域遇到的一个重 大难题。因此,构建一种能充分挖掘给定具体问题的样本数据先验信息,以及结合核函数蕴 藏的度量特征进行SVM核函数选择机制,对于SVM技术的发展和核方法的完善有着积极的指导 意义和实用价值。
发明内容
本发明的目的是提供一种基于样本先验信息的支持向量机核函数选择方法及应用,从样 本数据先验信息出发构建一种有监督的SVM核函数选择机制,完善SVM核函数选择方法,有助 于SVM学习能力和泛化能力的提高。
本发明的技术方案:一种基于样本先验信息的支持向量机核函数选择方法,包括如下步 骤:
步骤1.输入样本数据其中Rn为n维数据空间,并对X进行变换使数据 的范数小于1;
步骤2.对给定样本数据进行超球体的数学描述以及确定超球体的重心O和半径R;
步骤3.建立样本分布能量熵函数,并计算各样本的能量熵;
步骤4.构建样本分布判别函数及计算其判别结果;
步骤5.根据其判别结果与核函数性质(如黎曼度量、距离度量等)的相似性选择核函数 类型;
步骤6.合理确定样本训练集和测试集后,SVM模型及参数优化;
步骤7.输出预测结果。
一种基于样本先验信息的支持向量机核函数选择方法在印度肝脏病人数据集、天平平衡 测量数据集、澳大利亚的信用审批数据集、三连棋游戏结局数据集得到应用。
本发明构建了一种基于样本先验信息进行SVM核函数选择的机制,克服了传统的支持向量 机模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺点,提高了SVM学习 能力和泛化能力,并具有运算速度快、非常适合实时在线SVM模型预测控制场所等特点。
具体实施方式
下面结合具体实例对本发明作进一步说明。
①所涉及的实例均来自UCI基准库,且为带标签的数据;
②以具有全局特性的多项式核函数和局部特性的径向基核函数为例进行预测结果比较;
③实例中第i个样本的能量熵函数取其中dio为第i个样本与重心O的欧氏距离;
④实例中样本分布判别函数定义为式中α为阈值,l为样本总数,l*为样本中 的个数。结合核函数所蕴藏的度量特性,实例中取α=0.5为临界点。当计算出 α>0.5,则判断该样本数据呈局部分布特性;当α≤0.5,则判断该样本数据呈全局分布 特性。
⑤训练集与测试集的数据样本数量按照8:2比例予以随机划分;
⑥实例中SVM模型参数优化均采取粒子群算法(PSO)进行寻优;
⑦百分数均为SVM模型输出结果预测准确率。
实例1:印度肝脏病人数据集(Indian Liver Patient Dataset)
A步骤:样本共有579个数据,维数为10。经数据预处理后计算出超球体的重心O坐标为 (0.5058,0.0000,0.1073,0.1786,0.085,0.3473,0.1652,0.4493,0.5326,0.4500), R=0.4984,α=0.9048。
由此判断该样本数据呈局部分布特性,则选取具有局部特性的径向基核函数为SVM核函数 类型。
B步骤:按照已知样本的80%作为训练集、20%作为测试集,则取样本中的464个作为训练 集、115组做为测试集。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至154#、194#至348#、388#至542#,共计464个样本数据。 测试集分别取自编号为155#至193#、349#至387#、543#至579#,共计115个样本数据。
②第二组训练集分别取自编号为39#至193#、349#至387#、427#至579#,共计464个样本数据。 测试集分别取自编号为1#至38#、194#至232#、388#至426#,共计115个样本数据。
③第三组训练集取自编号为1#至464#,测试集取自编号为465#至579#。
实例1获得的实验结果:
①径向基核函数:83.65% 多项式核函数:73.08%
②径向基核函数:87.50% 多项式核函数:77.88%
③径向基核函数:90.38% 多项式核函数:85.58%
实例2:天平平衡测量数据集(Balance Scale Data Set)
A步骤:样本共有625个数据,维数为4。经数据预处理后计算出超球体的重心O坐标为 (0.6250,0.5000,0.2500,0.7500),R=0.4507,α=0.2944。
由此判断该样本数据呈全局分布特性,则选取具有全局特性的多项式核函数为SVM核函数 类型。
B步骤:按照已知样本的80%作为训练集、20%作为测试集,则取样本中的500个作为训练 集、125组做为测试集。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至166#、209#至375#、418#至584#,共500个样本数据。 测试集分别取自编号为167#至208#、376#至#417#、585#至625#,共125个样本数据。
②第二组训练集分别取自编号为42#至208#、251#至417#、460#至625#,共500个样本数据。 测试集分别取自编号为1#至41#、209#至250#、418#至459#,共125个样本数据。
③第三组训练集取自编号为1#至500#,测试集取自编号为501#至625#。
实例2获得的实验结果:
①径向基核函数:90.40% 多项式核函数:100.00%
②径向基核函数:92.80% 多项式核函数:97.60%
③径向基核函数:91.20% 多项式核函数:98.40%
实例3:澳大利亚的信用审批数据集(Australian Credit Approval Data Set)
A步骤:样本共有690个数据,维数为14。经数据预处理后计算出超球体的重心O坐标为 (0.5000,0.1479,0.0105,0.2500,0.1923,0.1875,0.0007,0.0000,0.5000,0.0299, 0.0000,0.5000,0.1050,0.0050),R=0.8007,α=0.9610。
由此判断该样本数据呈局部分布特性,则选取具有局部特性的径向基核函数为SVM核函数 类型。
B步骤:取总样本数的80%作为训练集(即552个样本),20%作为测试集(即138个样本)。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至184#、232#至416#、464#至648#,共计552个样本。测 试集分别取自编号为185#至231#、417#至463#、649#至690#,共计138个样本。
②第二组训练集分别取自编号为47#至131#、179#至363#、411#至690#,共计552个样本。测 试集分别取自编号为1#至46#、132#至178#、364#至410#,共计138个样本。
③第三组训练集取自编号为1#至552#,测试集取自编号为553#至690#。
实例3获得的实验结果:
①径向基核函数:87.55% 多项式核函数:85.29%
②径向基核函数:87.10% 多项式核函数:85.71%
③径向基核函数:87.68% 多项式核函数:84.78%
实例4:三连棋游戏结局数据集(Tic-Tac-Toe Endgame Data Set)
A步骤:样本共有958个数据,维数为9。经数据预处理后计算出超球体的重心O坐标为 (0.2500,0.0000,0.5000,0.2500,0.2500,0.5000,1.0000,0.2500,0.7500),R=0.7500, α=0.0000。
由此判断该样本数据呈全局分布特性,则选取具有全局特性的多项式核函数为SVM核函数 类型。
B步骤:按照样本的80%作为训练集,20%作为测试集,即取样本中的766个作为训练集, 192个作为测试集。
C步骤:随机选出3组数据:
①第一组训练集分别取自编号为1#至255#、321#至576#、642#至897#,共计766个样本。测 试集分别取自编号为256#至320#、577#至641#、898#至958,共计192个样本。
②第二组训练集分别取自编号为1#至383#、481#至864#,共计766个样本。测试集分别取自 编号为384#至480#、865#至958#,共计192个样本。
③第三组训练集分别取自编号为1#至191#、251#至442#、492#至683#、733#至924#,共计766 个样本。测试集分别取自编号为192#至250#、443#至491#、684#至732#、925#至958#,共计192 个样本。
实例4获得的实验结果:
①径向基核函数:84.82% 多项式核函数:95.29%
②径向基核函数:79.58% 多项式核函数:85.86%
③径向基核函数:82.20% 多项式核函数:93.19%
通过以上4例样本数据的随机分组测试,可以看出:基于样本数据先验信息和核函数蕴藏 的度量特征的相似性选择的SVM核函数类型分类的预测准确率,要高于选择其他类型核函数的 SVM模型分类的预测准确率,其差异程度甚至高达10%以上。因此,本发明基于样本数据先验 信息,结合核函数蕴藏的度量特征进行SVM核函数选择,是一种有监督的实用方法,克服了传 统的支持向量机模型选择方法中人为指定核函数类型而导致模型不能达到最优性能的缺点, 并具有运算速度快、非常适合实时在线SVM模型预测控制场所等特点。
机译: 基于支持向量贡献的基于模式支持向量机的语音和音乐分类器选择方法的简化方法
机译: 基于特征排序的支持向量机特征选择方法
机译: 基于支持向量机的样本数据更新方法,分类系统及存储装置