首页> 中国专利> 一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法

一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法

摘要

本发明公开了一种基于随机森林法分析致香物在烤烟香型分类中的重要性及预测香型的方法,该方法先通过检测分析得出已知香型和未知香型烤烟样品中各致香物的含量数据;再将所述含量数据通过随机森林法分析后,同时得到致香物在烤烟香型分类中的重要性排序结果和对未知烤烟样品的香型的预测结果;该方法很好地揭示了与烤烟香型有关的致香物的重要性,提高了烤烟香型预测的准确性,能为卷烟产品设计与研发提供重要参考依据。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-08-06

    授权

    授权

  • 2014-06-04

    著录事项变更 IPC(主分类):G01N30/02 变更前: 变更后: 申请日:20130618

    著录事项变更

  • 2013-11-06

    实质审查的生效 IPC(主分类):G01N30/02 申请日:20130618

    实质审查的生效

  • 2013-10-09

    公开

    公开

说明书

技术领域

本发明涉及一种基于随机森林法分析致香物在烤烟香型分类中的重要性及 预测香型的方法,属于烟草质量(风格)鉴别领域。

背景技术

随机森林是Leo Breiman于2001提出的一个组合分类算法,它是CART的 集合,用Bagging方法生成有差异的训练样本集,并在Bagging的基础上引入了 随机选择属性。随机森林可以看作是对Bagging算法的一种发展。作为一种分类 算法,随机森林具有如下优点:对于很多数据,具有较高的分类准确率;相对于 目前其他的分类算法,随机森林能较好地容忍噪音;利用大数定律可以得到,随 机森林作为有监督的学习方法不容易过拟合;建造分类器时,可以通过OOB(袋 外样本)数据在内部估计模型的泛化误差;对于不平衡的分类资料集来说,它可 以平衡误差。随机森林算法自提出以来已经成为一种重要的数据分析工具,并被 广泛地应用于科学研究的众多领域,包括微阵列数据、定量构效关系建模、核磁 共振光谱、土地覆盖以及图像分类、图像标注、运动识别等计算机视觉任务等。 在基于各种生物学特征的蛋白质相互作用的预测中,随机森林的性能优于其他六 种分类方法。

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策 树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一 个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看 看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就 预测这个样本为那一类。

具体来说,随机森林分类是根据下列算法而建造每棵树:

1.用N来表示训练例子的个数,M表示变量的数目。2.我们会被告知一个 数m,被用来决定当在一个节点上做决定时,会使用到多少个变量,m应小于M。 3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即 bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。4.对于每 一个节点,随机选择m个基于此点上的变量。根据这m个变量,计算其最佳的 分割方式。5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵 正常树状分类器后会被采用)。6.对未知类别的样本进行分类时,输出的类别标 签由森林中树的多数投票决定,也就是

c=argmaxc(1ntreeΣk=1ntreeI(h(x,θk)=c))

其中x是输入向量,{θk}是独立同分布的随机向量,k=1,2,3…

随机森林在Bagging的基础上引入随机选择属性,更大程度上降低了树之间 的相关性,同时建立的单棵不剪枝的分类回归树能够得到较低的偏差,从而保证 了随机森林的分类性能。

另外,烟叶原料是支撑我国烟草发展尤其是中式卷烟发展的基础与关键。中 式卷烟以国内烟叶为主体原料,具有明显的中国烟叶香气风格特征。我国烟叶主 要分为清香型、中间香型与浓香型三类。我国烟草种植区域生态气候和土壤条件 的多样性,致使不同产区的烟叶在风格质量方面表现出一定差异。如云南烟叶属 于清香型风格,贵州多属于中间香型风格,湘南与河南烟叶属于浓香型风格。随 着我国大企业、大品牌战略的实施,各卷烟企业越来越注重烟叶的香型风格特色, 对充分掌握不同烟叶的香型风格特点提出了更高的要求,不仅需要进一步系统全 面地检测烟叶的化学成分,更需要通过统计分析等工具提出烟叶香型风格的定性 定量描述和识别方法,理解和掌握不同产区烟叶的香型风格的物质基础。

烟叶的质量归根到底主要是由其内在化学成分的组成和含量所决定的,烟叶 化学成分的组成与含量差异造就了烟叶不同的香型风格。

烟叶化学成分与烟叶风格、香气量等品质的关系一直都是烟草化学研究的重 点,这方面的研究前人已经做了大量的工作,如冼可法(1992)研究了挥发性成 分与烤烟香气质和香型的关系,发现在云南烟叶中苯甲醛、茄酮和二氢大马酮明 显高于河南烤烟,但异佛尔酮、巨豆三烯酮等在河南烤烟中较高,并认为云烟的 特征香味是多种香味成分协调作用的结果。史宏志等(1996)研究了河南烤烟精 油成分与评吸品质的关系,认为浓香型烟叶氮杂环类成分较高,而清香型烟叶较 低。周冀衡等(2004)指出新植二烯、类胡萝卜素降解产物对烤烟香型和香气质 量的影响最大,西柏三烯类降解产物和糠醛类化合物在南方清香型烟叶中含量较 高,芳香族氨基酸代谢产物和乙酰吡咯在北方浓香型烟叶中含量较高。他们还认 为(2005),云南烤烟内大量的类胡萝卜素及较高的质体色素含量,是构成其特殊 香气风格的重要原因之一。杨虹琦等(2004)认为,云南烤烟独特香气风格的形 成与其烟叶中各种质体色素降解产物的协调性有关。还有人(2005)发现,云南 清香型烤烟具有普遍性的特征性化学成分是水溶性总糖含量比浓香型烤烟相对 较高,施木克值略较高,含氮化合物相对较低。叶绿素降解物植醇(叶绿醇)、 新植二烯和植物呋喃类相对较高。类胡萝卜素降解产物巨豆三烯酮、β-大马酮、 β-紫罗兰醇、β-紫罗兰酮、二氢猕猴桃内酯、香叶基丙酮等酮类相对浓香型烤烟 较高。总之,利用这些化学成分及其含量对烟叶的质量进行定性定量的描述和评 价,已对卷烟企业掌握不同产区烟叶的质量特点、充分利用烟叶原料等发挥了重 要作用。但这些文献没有明确描述和划分烟叶样品的香型特征;对影响烟叶品质 的化学指标多局限于糖、氮、碱等常规指标或香气物和前体物的某个方面进行研 究,且各项化学指标对品质的影响只是简单的加和,并没有考虑其它多种化学成 分对烟叶品质的贡献率及互作效应;没有就燃烧后烟气中的挥发性半挥发性致香 物进行重点和全面研究;没有结合化学计量学特别是变量鉴别等多元统计和数据 挖掘技术,去明确不同香型烟叶的重要致香物;而且文献还有矛盾之处。故现有 文献的这些方法和指标存在一定的局限性和片面性。

发明内容

本发明针对在烤烟致香物与烤烟香型风格关系研究中,现有技术存在仅依靠 致香物来片面性划分烤烟香型风格特征,更没有考虑烤烟中各致香成分之间的互 作效应对烤烟香型贡献的缺陷,目的在于提供一种基于随机森林来揭示与烤烟香 型判别有关致香物的重要性、能准确预测未知烤烟样品的香型的方法;这种方法 在原烟风格特色鉴别上有重要应用价值,也能为卷烟产品设计与研发提供重要参 考依据。

本发明提供了一种基于随机森林法分析致香物在烤烟香型分类中的重要性 及预测香型的方法,该方法是先通过检测分析得出已知香型和未知香型烤烟样品 中各致香物的含量数据;再将所述含量数据通过随机森林法分析后,同时得到致 香物在烤烟香型分类中的重要性排序结果和对未知烤烟样品的香型的预测结果。

所述的随机森林法为随机森林分类法或随机森林回归法。

上述方法中采用随机森林分类法或随机森林回归法时,设置包括训练样本比 例、森林树数与节点处随机抽取变量个数在内的参数;其中训练样本比例设置范 围一般为50~70%,森林树数与节点处随机抽取变量个数一般采用系统默认值。

所述的致香物包括烤烟中本身含有的致香物、烤烟热解产生的致香物或燃烧 产生的致香物;所述的烤烟中本身含有的致香物是将烤烟采用水/二氯甲烷同时 蒸馏萃取(SDS)体系进行蒸馏萃取并浓缩得到;所述的烤烟热解产生的致香物 是将烤烟粉末在自制的热解装置(彭新辉;易建华.一种高温裂解装置[P].中 国专利:ZL200720065587.X)中的纯氮气氛条件下热解,用剑桥滤片收集后, 经二氯甲烷溶解并浓缩后得到;所述的烤烟燃烧产生的致香物是将烤烟切丝后卷 制成单料烟,经吸烟机抽吸,用剑桥滤片收集粒相致香物,并经二氯甲烷溶解浓 缩后得到。

上述方法中采用随机森林法的分析过程是(如图1~3所示):先将各致香物 的含量数据导入DPS数据处理系统中,再选择随机森林分类法或随机森林回归 法,设置包括训练样本比例、森林树数与节点处随机抽取变量在内的参数后,同 时输出致香物在烤烟香型分类中的重要性的排序结果和对未知烤烟样品的香型 的预测结果。

本发明的随机森林法分析烤烟预测烤烟香型及分析致香物重要性的方法原 理是:设烤烟样品总个数为N,其中已知香型烤烟样品为N1个,未知香型烤烟 样品为N2个,致香物指标名称依次为x1,x2…xm;设置训练样本比例为y,森林 树数为Ntress,节点处随机抽取的致香物变量数为m;应用bootstrap法,从已知 香型烤烟样品N1个训练案例中按设定比例、以可重复方式进行取样,形成一组 训练集(即bootstrap取样);使用这训练集中m个变量的最佳分割方式,来对未 取到的已知香型烤烟样品进行分类,同时也对N2个未知香型烤烟样品的香型进 行预测,同时,每次未被抽到的样本则组成N1*(1-y)个袋外数据;在烤烟香型分 类时,袋外数据作为测试样本还可采用随机抽样方法评估各个致香成分在香型分 类中的重要性;计算各致香物重要性时,其中随机森林分类法是以拟合差值的个 数来表示,而随机森林回归法是用所有树间预测精度标准差的标准化处理后的数 据来表示。

上述方法中采用气质联用仪检测分析得出已知香型烤烟样品和未知香型烤 烟样品中各致香物的含量数据。

本发明的有益效果:本发明结合随机森林法来准确预测未知烤烟样品的香型 及致香物在烤烟香型分类中的重要性的分析;实验表明:采用随机森林能几乎 100%准确预测未知烤烟样品的香型;并且该方法能将多种致香物在各烤烟香型 风格整体判别中的重要性进行准确排序;这种方法在原料香型风格鉴别中有重要 应用价值,可为卷烟产品设计与研发提供重要参考依据。

附图说明

【图1】为本发明方法中采用随机森林法时导入数据和设置参数的过程的截图。

【图2】为本发明方法中采用随机森林法时烤烟香型分类中的重要性的分析结果 导出过程的截图。

【图3】为本发明方法中随机森林法时未知烤烟样品的香型预测结果导出过程的 截图。

具体实施方式

以下实施例是对本发明的进一步说明,而不是限制本发明。

实施例1

本案例以烤烟本身含有的致香物为指标,采用随机森林分类法来分析致香物 在烤烟香型判别中的重要性并预测未知烤烟样品香型。

一、致香物的分析检测方法

1材料与方法

1.1材料和仪器

气质联用仪PE Clarus600GC-MS。

大马酮等标准品购于sigma。

烤烟样品为湖南中烟2007-2010年采购的烤烟原料。

1.2方法

1.2.1样品处理与分析

1.2.1.1样品的制备

烤烟样品去除烟梗,40℃干燥4h,粉碎,过40目筛,装入样品瓶。

1.2.1.2同时蒸馏萃取

1)称25g烤烟样于500mL磨口烧瓶中,加入300mL蒸馏水浸湿;

2)取40mL二氯甲烷于250mL平底烧瓶中;

3)连接同时蒸馏萃取装置,以电热套加热装有烟末的烧瓶至沸腾,60℃水 浴加热装有二氯甲烷的烧瓶;

4)回流2h后,冷却,弃水相,收集有机相,加入适量无水硫酸钠干燥;

5)有机相转入浓缩瓶,旋转蒸发仪上40℃浓缩至0.5mL,待分析。

1.2.1.3色谱条件:

毛细柱:Elite5MS(30m×0.32mm0.25μm)

载气:He,1mL/min,分流比25:1

程序升温:50℃--8℃/min--280℃,15min

离子源:EI,180℃

电子能量:70eV,扫描范围:35-400amu。

1.3DPS系统进行数据处理:

先将气质测试的致香性物质含量的数据导入到该软件中;选定有关指标与香 型列;点击上方的“多元分析”栏下的“随机森林”里的“分类”或“回归”弹出随机森 林分类参数设置框,设置好有关参数后,点击“确定”。

二、各已知香型样品的整体拟合结果

以巨豆三烯酮、苯已醇、β-二氢大马酮等有致香作用的41种物质为指标, 对2007至2010生产年度198个烤烟样品烤烟中的164个样品的香型进行了拟合 (分类判别)分析(表1);结果表明,依据各烤烟样品中含有的致香物质、采 用DPS13.5中随机森林分类法能完全准确拟合(分类判别)出各烤烟样品的香型。 表12007-2010年度生产的164个样品随机森林法拟合(分类判别)结果

注:此表中的prob.(1)、prob.(2)、prob.(3)分别代表清香型、中间香型和浓香型参数,下同。

三、41种致香物在各样品香型整体判别中的重要性分析

各致香成分的重要性排序见表2;从该表可以看出,在已检测的致香物成分 中,巨豆三烯酮三种同分异构体(b、d、a)、苯甲醛、茄酮、吲哚、巨豆三烯酮 c、茄那士酮、β-大马酮、6-甲基-5-庚烯-二酮的重要性位居前十位,5-甲基糠醇、 十四酸(软脂酸)、2,3-戊二酮、2,3-二氢苯并呋喃与糠醇位居后五位。

表241种致香成分在烤烟香型拟合(分类判别)中的重要性排序表

四、依据此分类方法对未知烤烟样品的香型预测

依据前述方法,对2007-2010生产年度198个烤烟样品香型判别后余下的34 个样品的香型进行了随机森林预测(表3);结果表明,依据各样品的致香物质 含量及已建立的权重值,采用随机森林分类法能完全准确预测未知烤烟样品的香 型。

表32007-2010年度生产的34个未知样品香型随机森林法预测结果

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号