首页> 中国专利> 直接使用样本特征原始数值的广义相关学习矢量量化方法

直接使用样本特征原始数值的广义相关学习矢量量化方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种直接使用样本特征原始数值的广义相关学习矢量量化方法，它在训练和识别过程中直接使用输入样本特征的原始数据，不需要对样本特征进行归一化的预处理。在过去的广义相关学习矢量量化方法的基础上，本方法在调整权重系数的公式中加入一个系数，从而使其反映各样本特征原始数值的变化范围。该系数与对应的样本特征原始数值的变化范围（如方差、最大值与最小值之差的平方）成反比。相应的，权重系数的初始值也与对应的样本特征原始数值的方差或均方差成反比。本发明不需要对输入样本的各特征进行归一化预处理，从而能在识别过程中直接使用输入样本特征的原始数值，方法简单高效。

著录项

公开/公告号CN103903016A

专利类型发明专利
公开/公告日2014-07-02

原文格式PDF
申请/专利权人南京大学;
展开▼

申请/专利号CN201410013367.7
发明设计人方晖;严莹;张兴敢;柏业超;
展开▼

申请日2014-01-13
分类号G06K9/66(20060101);
代理机构南京瑞弘专利商标事务所(普通合伙);
代理人陈建和
地址 210093 江苏省南京市鼓楼区汉口路22号
入库时间 2023-12-17 00:01:10

法律信息

法律状态公告日

法律状态信息

法律状态
2017-11-21

授权

授权
2014-07-30

实质审查的生效 IPC(主分类):G06K9/66 申请日:20140113

实质审查的生效
2014-07-02

公开

公开

说明书

技术领域

本发明涉及一种模式识别方法，具体涉及一种直接使用样本特征原始数值的广义相关学习矢量量化方法。

背景技术

模式识别是让机器具有人类智能的技术，通过对表征事物或现象的信息进行处理和分析，实现对事物或现象进行描述、辨认、分类和解释的过程。无监督的模式识别方法只能压缩问题的信息量。而有监督的模式识别方法学习已有样例的类别和特征信息，在实际应用中可以提供可靠的识别结果。神经网络的自适应性和鲁棒性使之成为模式识别的有力工具。应用于模式识别的神经网络有BP（Back Propagation）网络、径向基（Radial Basis Function）网络、学习矢量量化（Learning Vector Quantization，LVQ）方法（Kohonen T.Self-Organizing Maps.3rd Edition.New York,USA:Springer-Verlag,2001）。其中，学习矢量量化方法是传统的最近邻原型分类器与神经网络的结合。它在学习过程中不断调整作为权向量的神经元，能够使不同类别权向量之间的边界逐步收敛至贝叶斯分类边界。在学习和识别过程中，对获胜神经元（最近邻权向量）的选取是通过计算输入样本和原型向量之间欧氏距离的大小来判断的。

为了克服学习过程中作为目标函数的识别率不连续变化的缺点，人们提出了广义学习矢量量化（Generalized LVQ，GLVQ）方法（Sato A,Yamada K.Generalized Learning Vector Quantization.Touretzky D,Mozer M,Hasselmo M,ed.Advances in Neural Information Processing Systems.Cambridge,USA:MIT Press,1996,Ⅷ:423－429）。在实际应用中，模式识别需要对提取的物体特征进行甄别，去除对分类没有作用的特征。对于复杂问题这需要有经验的专家完成。而对分类有贡献的特征，其在分类中发挥的重要性也不一样，对此人们提出相关学习矢量量化（Relevance LVQ，RLVQ）方法（Bojer T,Hammer B,Schunk D,et al.Relevance Determination in Learning Vector Quantization.Proc of the European Symposium on Artificial Neural Network.Brussels,Belgium,2001:271－276）自动判断各特征在分类中的重要性。将RLVQ与GLVQ结合，形成广义相关学习矢量量化（Generalized Relevance LVQ，GRLVQ）方法（Hammer B,Villmann T.Generalized Relevance Learning Vector Quantization.Neural Networks,2002,15:1059－1068）。GRLVQ方法得到了同行的认可，已应用于了卫星高维光谱图像识别（Mendenhall MJ,Merényi E.Relevance-Based Feature Extraction for Hyperspectral Images.IEEE Transactions on Neural Networks.2008,19:658-672）、疾病诊断（Zhang Q,Wang YY,Wang WQ,Ma JY,Qian JY,Ge,JB.Discrimination of coronary microcirculatory dysfunction based on generalized relevance LVQ.Liu DR,Fei SM,Hou ZG,Zhang HG,Sun CY,Ed.Advances in Neural Networks-ISNN2007,Pt2,Proceedings,Lecture Notes in Computer Science.2007,4492:1125–1132）、规则提取（Hammer B,Rechtien A,Strickert M,Villmann T.Rule extraction from self-organizing networks.in:International Conference on Artificial Neural Networks,LNCS.2002,2415,pp.877–883）、基因分析（Strickert M,Seiffert U,Sreenivasulu N,Weschke W,Villmann T,Hammer B.Generalized relevance LVQ(GRLVQ)with correlation measures for gene expression analysis.Neurocomputing.2006,69:651–659）等。

但是同其它模式识别方法一样，目前GRLVQ在学习中需要对输入样本的各特征进行归一化预处理，这样在识别过程中也需要事先对输入样本的各特征进行归一化处理。

发明内容

为了克服现有技术中存在的不足，本发明提供一种直接使用样本特征原始数值的广义相关学习矢量量化方法，不需要对输入样本的各特征进行归一化预处理，从而能在识别过程中直接使用输入样本特征的原始数值，方法简单高效。

为实现上述目的，本发明采取如下技术方案：

一种直接使用样本特征原始数值的广义相关学习矢量量化方法，设在模式识别任务中需要识别C个类别，每个训练样本有n个特征，用X＝{(xⁱ,yⁱ)∈Rⁿ×{1,2,...,C}|i＝1,2,...,m}表示训练样本集，其中，第i个训练样本表示为一个n维向量它属于第yⁱ类。用X训练一组权向量神经元，使之可以对输入样本进行模式识别，权向量集表示为W＝{(w^k,c^k)∈Rⁿ×{1,2,...,C}|k＝1,2,...,M}。其中，第k个权向量属于第c^k类，每类可以有1个或1个以上的权向量。

该方法使用训练样本集X＝{(xⁱ,yⁱ)∈Rⁿ×{1,2,...,C}|i＝1,2,...,m}训练一组权向量神经元W＝{(w^k,c^k)∈Rⁿ×{1,2,...,C}|k＝1,2,...，M}，从而使该组权向量神经元对输入样本进行模式识别；其中C表示模式识别任务中的类别数，m表示训练样本数，M表示权向量神经元数，Rⁿ表示n维向量空间，n表示训练样本集特征的数目；

该方法在训练过程中采用最小化下式的目标函数：

$S = Σ_{i = 1}^{m} f (μ (x^{i})) - - - (1)$

其中，μ(xⁱ)表征训练过程中对xⁱ分类的正确性，是第i个训练样本xⁱ和其最近的同类权向量w^J之间的加权欧氏距离，是xⁱ和其最近的异类权向量w^K之间的加权欧氏距离；

该方法采用迭代方式调整权向量神经元以使公式（1）目标函数S最小化，在迭代过程中，从训练样本集X＝{(xⁱ,yⁱ)∈Rⁿ×{1,2,...,C}|i＝1,2,...,m}中随机选择训练样本xⁱ进行学习，对训练样本xⁱ：

${w^{J}}_{new} : = w^{J} + Δ w^{J}, Δ w^{J} = \frac{{4 γ}^{+} f^{'} |_{μ (x^{i})} d_{λ}^{K}}{{(d_{λ}^{J} + d_{λ}^{K})}^{2}} Λ (x^{i} - w^{J}) - - - (2)$

${w^{K}}_{new} : = w^{k} + Δ w^{K}, Δ w^{K} = - \frac{{4 γ}^{-} f^{'} |_{μ (x^{i})} d_{λ}^{J}}{{(d_{λ}^{J} + d_{λ}^{K})}^{2}} Λ (x^{i} - w^{K}) - - - (3)$

$(\begin{matrix} λ_{j, new} : = λ_{j} + Δ λ_{j}, Δ λ_{j} = - \frac{{2 γ}^{λ} f^{'} |_{μ (x^{i})} [d_{λ}^{K} {(x_{j}^{i} - x_{j}^{J})}^{2} - d_{λ}^{J} {(x_{j}^{i} - x_{j}^{K})}^{2}]}{{(d_{λ}^{J} + d_{λ}^{K})}^{2}} A_{j} \\ (j = 1,2, . . ., n) \end{matrix}) - - - (4)$

其中，γ⁺、γ^-和γ^λ分别为训练样本xⁱ最近的同类权向量w^J、异类权向量w^K和权重系数λ_j的学习率，w^J_new表示调整后的同类权向量w^J，Δw^J表示w^J的变化值，表示f(μ(xⁱ))对μ(xⁱ)的微分，Λ表示一个对角矩阵，Λ的对角元素Λ_jj＝λ_j(j＝1,2,...,n)，Λ的其余元素值为0，w^K_new表示调整后的异类权向量w^K，Δw^K表示w^K的变化值，λ_j,new表示调整后的λ_j，Δλ_j表示λ_j的变化值，A_j表征训练样本集中样本第j个特征的变化范围，并与训练样本集中样本第j个特征的变化范围大小成反比。

更进一步的，A_j与训练样本集中样本第j个特征原始数值的方差成反比，即A_j＝A/v_j,j＝1,2,...n,，其中，A是系数，v_j(j＝1,2,...,n)为第j个特征原始数值的方差，n表示训练样本集特征的数目。

更进一步的，A为v_j(j＝1,2,...,n)中的最大值，且A_j≥1(j＝1,2,...,n)。

更进一步的，A_j与训练样本集中样本第j个特征原始数值的最大变化范围的平方成反比，即A_j＝B/δ_j²,j＝1,2,...,n，其中B是系数，δ_j(j＝1,2,...,n)为第j个特征原始数值的最大值与最小值之差，n表示训练样本集特征的数目。

更进一步的，B为δ_j²(j=1,2,…,n)中的最大值，且A_j≥1(j＝1,2,...,n)。

更进一步的，权重系数λ_j的初始值与训练样本集中样本第j个特征原始数值的方差成反比j＝1,2,...,n，n表示训练样本集特征的数目。

更进一步的，权重系数λ_j的初始值与训练样本集中样本第j个特征原始数值的均方差成反比j＝1,2,...,n，n表示训练样本集特征的数目。

有益效果：本发明的模式识别方法在学习过程中不需要对训练样本进行归一化处理，使学习过程更加简单和直观易懂。学习过程自动提取所处理问题的参数，使学习结果更加可靠。

具体实施方式

设在模式识别任务中需要识别C个类别，每个训练样本有n个特征，用X＝{(xⁱ,yⁱ)∈Rⁿ×{1,2,...,C}|i＝1,2,...,m}表示训练样本集，其中，第i个训练样本表示为一个n维向量它属于第yⁱ类。用X训练一组权向量或者原型向量，使之可以对输入样本进行模式识别，权向量集表示为W＝{(w^k,c^k)∈Rⁿ×{1,2,...,C}|k＝1,2,...,M}。其中，第k个权向量属于第c^k类，每类可以有1个或1个以上的权向量。广义相关学习矢量量化方法GRLVQ将输入样本x识别为c^k类的条件是w^k是距离x最近的权向量。GRLVQ采用加权欧氏距离计算样本x与权向量w之间的距离：

${| | x - w | |}_{λ}^{2} = d_{λ} (x, w) = Σ_{i = 1}^{n} λ_{i} {(x_{i} - w_{i})}^{2} - - - (1)$

其中，λ＝{λ₁,λ₂,...,λ_n}是一个n维向量的权重系数。定义Λ为一个n×n维的对角矩阵，其对角线元素Λ_jj＝λ_j（j＝1,2,...,n）。

GRLVQ在学习过程中采用最小化下式的目标函数：

$S = Σ_{i = 1}^{m} f (μ (x^{i})) - - - (2)$

其中，μ(xⁱ)表征学习过程中对xⁱ分类的正确性，是第i个训练样本xⁱ和其最近的同类权向量（表示为w^J）之间的加权欧氏距离，是xⁱ和其最近的异类权向量（表示为w^K）之间的加权欧氏距离。

GRLVQ用迭代方法调整权向量以使目标函数S最小化，在迭代过程中，它随机选择训练样本进行学习。对训练样本xⁱ：

${w^{J}}_{new} : = w^{J} + Δ w^{J}, Δ w^{J} = \frac{{4 γ}^{+} f^{'} |_{μ (x^{i})} d_{λ}^{K}}{{(d_{λ}^{J} + d_{λ}^{K})}^{2}} Λ (x^{i} - w^{J}) - - - (3)$

${w^{K}}_{new} : = w^{k} + Δ w^{K}, Δ w^{K} = - \frac{{4 γ}^{-} f^{'} |_{μ (x^{i})} d_{λ}^{J}}{{(d_{λ}^{J} + d_{λ}^{K})}^{2}} Λ (x^{i} - w^{K}) - - - (4)$

权重系数向量λ调整后要对其各分量进行归一化以保证权重系数的稳定性。其中，γ⁺、γ^-和γ^λ分别为同类权向量、异类权向量和权重系数的学习率。一般地，λ各分量的初始值均为1/n。

但上述GRLVQ中没有考虑到不同特征具有不同的变化范围，使用时需要对各特征进行归一化预处理。这样，不仅在学习过程中需要归一化各特征，在识别时也需要事先归一化各特征。为了能在识别过程中直接使用输入样本特征的原始数值，本发明在调整权重系数时考虑各特征不同大小的变化范围，这样在识别中将不需要对样本的各特征归一化。

如前所述，权重系数λ调整后要对其各分量进行归一化，这样不同的权重系数会相互影响。如果不对各训练样本特征归一化，则变化范围大的特征对应的权重系数用公式（5）计算Δλ_j后变化较大。如果这样的因子变大，则随后的权重系数归一化将压缩其它权重系数，而不管它们对应的特征是否重要的，这样，GRLVQ的训练可能会陷入局部最小点，所得到的权重系数不能反映各特征的重要性。

本方法中在公式（5）计算Δλ_j的公式中加入一项A_j：

$Δ λ_{j} = - \frac{{2 γ}^{λ} f^{'} |_{μ (x^{i})} [d_{λ}^{K} {(x_{j}^{i} - x_{j}^{J})}^{2} - d_{λ}^{J} {(x_{j}^{i} - x_{j}^{K})}^{2}]}{{(d_{λ}^{J} + d_{λ}^{K})}^{2}} A_{j} - - - (6)$

其中，A_j反映第j个特征的变化范围，为了消除各特征变化范围对权重系数学习的影响，A_j(j＝1,2,...,n)应该与对应特征变化范围大小成反比，这样学习结果（权向量集和权重系数向量）可以直接用对象的原始特征数据进行识别。

采用本方法中的计算Δλ_j的公式，A_j(j＝1,2,...,n)与对应特征原始数值的变化范围大小成反比，可以取A_j与训练样本集中样本第j个特征原始数值的方差成反比：A_j＝A/v_j,j＝1,2,...,n，其中，A是系数，v_j(j＝1,2,...,n)为第j个特征原始数值的方差，为方便起见，A可以设置为v_j(j＝1,2,...,n)中的最大值，这样可以保证所有A_j(j＝1,2,...,n)不小于1。

当然，A_j也可以与训练样本集中样本第j个特征原始数值的最大变化范围的平方成反比，即A_j＝B/δ_j²,j＝1,2,...,n，其中B是系数，δ_j(j＝1,2,...,n)为第j个特征原始数值的最大值与最小值之差，同样，B可以设置为δ_j²(j=1,2,…,n)中的最大值。

现有的GRLVQ方法中，由于计算Δλ_j的公式不考虑各特征的变化范围，因此，各权重系数的初始值均为1/n，采用本专利方法，由于直接采用样本的各特征的原始数据，所以各权重系数的初始值也应该反映样本各特征的变化范围的大小。

采用UCI（University of California,Irvine）机器学习数据库中的例子进行实验表明，λ_j的初始值与训练样本集中样本第j个特征原始数值的方差或均方差成反比时(j=1,2,…,n)，对样本原始数据进行识别的总体效果比较好，如表1所示。

表1对样本原始数据进行预测的正确率

其中，学习方法1：λ中各分量初始值相等，λ的调节未考虑特征变化范围；

学习方法2：λ中各分量初始值与对应特征的均方差成反比，λ的调节公式中A_j与对应特征方差成反比；

学习方法3：λ中各分量初始值与对应特征的方差成反比，λ的调节公式中A_j与对应特征方差成反比；

学习方法4：λ中各分量初始值相等，λ的调节公式中A_j与对应特征方差成反比。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 直接使用样本特征原始数值的广义相关学习矢量量化方法 [P] . 中国专利： CN103903016B . 2017.11.21
2. 直接使用样本特征原始数值的广义相关学习矢量量化方法 [P] . 中国专利： CN103903016A . 2014-07-02
3. Performing database operations using a vectorized approach or a non-vectorized approach [P] . 美国专利： US10671583B2 . 2020-06-02

机译：使用矢量化方法或非矢量化方法执行数据库操作
4. Protection of biometric data by employing key-dependent sampling Key-dependent sampling of a biometric characteristic is performed at a client (110), to thereby generate key-dependent biometric data samples. The key-dependent biometric data samples a [P] . CZ300144B6 . 2009-02-25

机译：通过采用密钥相关采样来保护生物统计数据在客户端（110）执行生物特征的密钥相关采样，从而生成密钥相关生物数据样本。与密钥相关的生物特征数据样本a
5. Vector processing engines (VPEs) employing a tapped-delay line(s) for providing precision filter vector processing operations with reduced sample re-fetching and power consumption, and related vector processor systems and methods [P] . 美国专利： US9792118B2 . 2017-10-17

机译：使用分接延迟线的矢量处理引擎（VPE），用于提供具有减少的样本重取和功耗的精密滤波器矢量处理操作，以及相关的矢量处理器系统和方法