公开/公告号CN101819141A
专利类型发明专利
公开/公告日2010-09-01
原文格式PDF
申请/专利权人 中国科学院半导体研究所;
申请/专利号CN201010162316.2
申请日2010-04-28
分类号G01N21/35;G06N99/00;
代理机构中科专利商标代理有限责任公司;
代理人周国城
地址 100083 北京市海淀区清华东路甲35号
入库时间 2023-12-18 00:39:50
法律状态公告日
法律状态信息
法律状态
2014-06-25
未缴年费专利权终止 IPC(主分类):G01N21/35 授权公告日:20120425 终止日期:20130428 申请日:20100428
专利权的终止
2012-04-25
授权
授权
2010-10-20
实质审查的生效 IPC(主分类):G01N21/35 申请日:20100428
实质审查的生效
2010-09-01
公开
公开
技术领域
本发明涉及玉米品种的鉴别技术领域,特别是一种基于近红外光谱与信息处理的玉米品种鉴别方法。
背景技术
现有的农作物品种鉴别方法有形态学方法、荧光扫描鉴定法、化学鉴定法和电泳鉴定法等。形态学方法所需鉴别时间长,且精度不高;荧光扫描鉴定法、化学鉴定法和DNA分子标记鉴定法鉴别精度高,但所需时间长,且鉴别成本较高,过程烦琐,因而不适宜对样品进行批量分析及快速鉴定。
近红外光谱是指在近红外取的吸收光谱,波长范围780nm~2500nm,近红外光谱可以反映出样品中有机分子含氢基团的特征信息,因此可以用近红外光谱分析对化合物中C-H、O-H、N-H等含氢原子团进行定量分析,进一步可以利用近红外光谱来鉴别农作物品种。
另外,近红外光谱具有穿透力强,不会对人体产生伤害,对环境没有污染以及高效快速,采集近红外光谱等操作无须专业人士等优点。
陈建等在光谱学与光谱分析杂志上发表的《基于近红外光谱技术和人工神经网络的玉米品种鉴别方法研究》,以及李晓丽等在光谱学与光谱分析杂志上发表的《基于可见/近红外光谱的水稻品种快速鉴别研究》均提到了使用近红外光谱与主成分分析的鉴别方法,但是,所用的主成分分析的分析方法只能适用于品种种类数目比较少的情况下。
为此,根据玉米种子光谱数据的特点,本发明提出了改进方法,在保证准确率的前提下将之推广到种类数目较多的情况。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的是为了提供一种快速高效、无污染、不会对人体产生伤害,无须专业人士即可实现的基于近红外光谱与信息处理的玉米品种鉴别方法,并改进现有方法只能在种类数目较少的情况下鉴别的缺点。
(二)技术方案
为达到上述目的,本发明提供了一种基于近红外光谱与信息处理的玉米品种鉴别方法,该方法包括:
获取光谱数据;
对训练样本集进行归一化主成分分析,并根据样本点在主轴上的散布情况调整主成分的权重;
使用最近邻分类方法为分类器进行分类。
上述方案中,所述的获取光谱数据,使用傅立叶变换漫反射近红外光谱仪,谱区范围:4000~12000cm-1,扫描次数:64次,分辨率:8cm-1,对同一品种的玉米籽粒多次取样,每个参与训练的样本至少取样15次。
上述方案中,所述的归一化主成分分析,是将样本主成分分析得到的各主成分进行平方和归一化。
上述方案中,所述将样本主成分分析得到的各主成分进行平方和归一化,具体包括:
首先得到训练数据集合xj,j=1,…,s的协方差矩阵Cx,然后求出Cx从大到小排列的特征值λk以及满足条件的特征向量uk,然后令为新的特征向量,将按照λk的大小降序排列,并将其作为列组成归一化主成分分析的变换矩阵U,得到样本的特征数据为:yi=UTxi,主成分数目:25~35。
上述方案中,所述的根据样本点在主轴上的散布情况调整主成分的权重,是对主成分进行加权,加权系数其中,βki表示第k类的第i样本在第n主轴上的投影值,表示第k类的所有训练样本在第n主轴上的投影平均值,表示所有训练样本在第n主轴上的投影平均值,加权后得到的样本特征为:zi=(h1yi1,h2yi2,…,hdyid),其中i表示某样本,d表示主成分的数目。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
本发明采用近红外光谱数据来对玉米品种进行鉴别,快速高效、无污染、不会对人体产生伤害,无须专业人士即可实现。采用改进的主成分分析方法分析数据特征,克服了传统的主成分分析方法鉴别正确率低(图3所示),只能适用于数目较少品种的鉴别的缺点。
附图说明
图1是本发明提供的基于近红外光谱与信息处理的玉米品种鉴别方法的流程图;
图2是训练样本协方差矩阵特征值的变化曲线;
图3是传统PCA与本发明所提方法随主成分数变化的识别正确率曲线;其中,传统PCA为虚线、圆形标识,本发明所提方法是实线、方块标识。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的目的是分为三步来实现的,图1是本发明提供的基于近红外光谱与信息处理的玉米品种鉴别方法的流程图,该方法包括以下步骤:
步骤1:获取光谱数据;
步骤2:对训练样本集进行归一化主成分分析,并根据样本点在主轴上的散布情况调整主成分的权重;
步骤3:使用最近邻分类方法为分类器进行分类。
上述步骤1中,所述的获取光谱数据,是使用傅立叶变换漫反射近红外光谱仪,谱区范围:4000~12000cm-1,扫描次数:64次,分辨率:8cm-1,对同一品种的玉米籽粒多次取样,每个参与训练的样本至少取样15次。
上述步骤2中,所述的归一化主成分分析,是将样本主成分分析得到的各主成分进行平方和归一化。具体包括:首先得到训练数据集合xj,j=1,…,s的协方差矩阵Cx,然后求出Cx从大到小排列的特征值λk以及满足条件的特征向量uk,然后令为新的特征向量,将按照λk的大小降序排列,并将其作为列组成归一化主成分分析的变换矩阵U,得到样本的特征数据为:yi=UTxi,主成分数目:25~35。
上述步骤2中,所述的根据样本点在主轴上的散布情况调整主成分的权重,是对主成分进行加权,加权系数其中,βki表示第k类的第i样本在第n主轴上的投影值,表示第k类的所有训练样本在第n主轴上的投影平均值,表示所有训练样本在第n主轴上的投影平均值,加权后得到的样本特征为:zi=(h1yi1,h2yi2,…,hdyid),其中i表示某样本,d表示主成分的数目。
再次参照图1,介绍本发明实施例中基于近红外光谱与信息处理的玉米品种鉴别方法的流程图,具体包括以下步骤:
步骤1:光谱的采集。
采集需使用傅立叶变换漫反射近红外光谱仪,谱区范围:4000~12000cm-1,扫描次数:64次,分辨率:8cm-1。玉米品种共有37个,对同一品种的玉米籽粒多次取样,测量25次,每个品种共得到25个样本,数据长度为2075。选取其中30个品种,每个品种的15个样本组成训练集,共450个样本;该30个品种每个品种剩余的10个样本组成第一测试集,共300个样本;剩余没有参加训练的7个品种的所有样本组成第二测试集,共175个样本。
步骤2:训练过程。
首先对训练样本集进行归一化主成分分析。由所有的训练样本xj,j=1,…,s其中s=450,组成列向量的数据集合,维数2075,m是其均值向量:协方差矩阵是:求出协方差矩阵从大到小排列的特征值λk以及满足条件的特征向量uk,令为新的特征向量,将按照λk的大小降序排列,并将其作为列组成变换矩阵U(需保存该变换矩阵以备后续步骤使用),最后得到归一化主成分分析后的样本特征数据:yi=UTxi。主成分的数目定为31,累积贡献率99.99%。
其次,根据样本点在主轴上的散布情况调整主成分的权重(需保存此权重以备后续步骤使用),即对主成分进行加权,样本点的第n主成分的加权系数其中βki表示第k类的第i样本在第n主轴上的投影值,表示第k类的所有训练样本在第n主轴上的投影平均值,表示所有训练样本在第n主轴上的投影平均值。加权后得到的样本特征为:zi=(h1yi1,h2yi2,…,h31yi31),其中i表示某样本。最后,将所有的训练样本特征建立模板库。
步骤3:识别过程。
训练得到的变换矩阵转置后与待测样本相乘并由权重系数进行加权,得到测试样本的样本特征,使用最近邻分类方法对提取的特征进行分类识别,先计算一个测试样本点到某一品种的训练样本集的最小距离,当最小距离小于某个阈值时,判定该测试样本点属于该品种。阈值的选择按照‘等误率’的原则,本实施例所取的阈值如下:将所有其他品种训练样本到某一品种的训练样本集的最小距离升序排列,选取第8个值作为该品种阈值。
步骤4:鉴别结果。
采用交叉验证的方式,共进行了10次测试,取平均值,训练集的30个品种,对第一测试集的300个样本中的同类样本的平均正确识别率为97.93%,对第一测试集的300个样本中的非同类样本的平均正确拒识率为97.61%;对第二测试集的175个样本(均为非同类样本)的平均正确拒识率为97.69%。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 近红外光谱的鉴别方法
机译: 基于模糊理论和频率带的步态鉴别器的冻结以及基于相同方法的步态鉴别方法的冻结
机译: 基于STS引物的基于PCR的人参品种鉴别方法