首页> 中国专利> 基于自适应免疫遗传算法的代谢标志物组群识别方法

基于自适应免疫遗传算法的代谢标志物组群识别方法

摘要

本发明涉及生物信息化技术领域,涉及一种基于自适应免疫遗传算法的代谢标志物组群识别方法。本发明通过染色体的抗体浓度和适应度来反馈调节标准遗传算法构建自适应免疫遗传算法,能快速且准确地得到问题最优解,算法的运行效率和适应度得到了提升,不仅能够高效搜索医学高维空间中的目标标志物组群,还可识别多样化的目标代谢标志物组群,便于实际中根据具体需求进行灵活选择;同时利用特定的免疫学原理,即浓度反馈调节算子来保证目标解的多样性。

著录项

  • 公开/公告号CN112466393A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN202011262150.1

  • 申请日2020-11-12

  • 分类号G16B15/30(20190101);G06N3/12(20060101);

  • 代理机构32257 苏州市中南伟业知识产权代理事务所(普通合伙);

  • 代理人王玉仙

  • 地址 215000 江苏省苏州市吴中区石湖西路188号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及生物信息化技术领域,涉及一种基于自适应免疫遗传算法的代谢标志物组群识别方法。

背景技术

近年来,随着高通量检测技术的快速发展,利用代谢组学开展复杂性疾病的生物标志物研究受到广泛关注。代谢组学通过定性定量分析特定生物样品中的所有代谢物组成,可以建立代谢轮廓与生命活动和疾病之间的联系,从而为发现新型代谢性标志物和代谢通路提供大量机会。与此同时,非靶向的代谢组学通过高通量的检测,可以同时分析几百至几千个内源性小分子代谢物,因此能够发现一系列的疾病相关生物标志物。如能在此基础上建立代谢标志物组群,将有利于全面认识疾病的复杂性,进而实现疾病的早期诊断和精准预测。

目前,代谢组学数据在分析复杂代谢组学数据时算法拟合效果往往不够好,其用于变量筛选时容易遗漏具有高区分能力的组合变量。而且,通过变量筛选给出大量的潜在标志物后,如何从中识别简单实用的多样化标志物组群仍是需要解决的问题。

采用遗传算法可在复杂高维空间中有效识别满足特定条件的特征变量子集,因而可借鉴于代谢组学高维空间中的代谢标志物组群识别问题。然而,标准遗传算法容易陷入局部最优,无法保证目标解的多样性特点,而且遗传算法的操作算子相对固定,无法有效利用医学先验信息,灵活性较差。

发明内容

本发明要解决的技术问题是提供一种不仅能够高效搜索医学高维空间中的目标标志物组群,还可识别多样化的目标代谢标志物组群,可保证目标解的多样性的基于自适应免疫遗传算法的代谢标志物组群识别方法。

为了解决上述技术问题,本发明解决其技术问题所采用的技术方案是:

一种基于自适应免疫遗传算法的代谢标志物组群识别方法,包括:

对标志物组群进行符号编码,在标准遗传算法的基础上对标志物组群内的染色体进行综合评价,通过染色体的抗体浓度和适应度来反馈调节标准遗传算法构建自适应免疫遗传算法,判断标志物组群内的染色体的抗体浓度和适应度是否达到阈值,若符合则算法结束,输出多个目标解。

进一步地,所述的符号编码,通过赋予每条染色体C若干个不同符号标签的特征变量,当总体特征变量数目为N,使得每一代种群G包含n条染色体G={C

进一步地,所述的免疫遗传算法,设染色体的适应度为Fit(C)={Fit(C

进一步地,对所述的染色体的抗体浓度和适应度的综合评价,所述染色体的相似性和浓度评价为下列方程组:

Aff(C

其中,S为两条染色体相同的基因位数,L为染色体长度;

结合上述所述染色体的适应度和浓度对染色体进行综合评价,则:

其中,γ为调节因子,且γ∈[0,1)。

进一步地,当标志物组群内的染色体的抗体浓度和适应度未达到阈值或终止迭代次数,则利用随机选择策略从标志物组群内的选择若干染色体,对选中的染色体按照自适应免疫遗传算法操作中的交叉和变异方法进行交叉和变异操作,采用免疫疫苗对选中的染色体采取动态免疫接种。

进一步地,所述的动态免疫接种具体步骤为:

当选中染色体有先验信息,则利用选中染色体的先验信息作为免疫疫苗V

当染色体无先验信息,则从当前标志物组群内提取优良染色体上的重要基因位作为免疫疫苗V

进一步地,从Fit(C)<δ的染色体中以概率P

其中,C

进一步地,算法结束前,根据输出多个目标解的染色体的适应度值变化,采用向后剔除法对末代种群中的整条染色体上的噪声变量进行变量剔除,使得最终得到的目标解染色体长度小于等于预设值L,即Length(C

进一步地,对自适应免疫遗传算法与染色体噪声变量剔除进行多阶段内部并行运算策略,以获得染色体适应度和浓度信息以及目标解染色体长度信息。

本发明还包括一种基于自适应免疫遗传算法的代谢标志物组群识别方法,包括:

对标志物组群进行符号编码,在标准遗传算法的基础上对标志物组群内的染色体进行综合评价,通过染色体的抗体浓度和适应度来反馈调节标准遗传算法构建自适应免疫遗传算法,判断标志物组群内的染色体的抗体浓度和适应度是否达到阈值,若符合则算法结束,输出多个目标解;

反之,则利用随机选择策略从标志物组群内的选择若干染色体,对选中的染色体按照自适应免疫遗传算法操作中的交叉和变异方法进行交叉和变异操作,采用免疫疫苗对选中的染色体采取动态免疫接种;

算法结束前,根据输出多个目标解的染色体的适应度值变化,采用向后剔除法对末代种群中的整条染色体上的噪声变量进行变量剔除,使得最终得到的目标解染色体长度小于等于预设值L,即Length(C

对染色体适应度评价、浓度反馈调节、染色体噪声变量剔除、染色体动态免疫接种进行多阶段内部并行运算策略,用以提高自适应免疫遗传算法的运行速率。

本发明的有益效果:

本发明通过染色体的抗体浓度和适应度来反馈调节标准遗传算法构建自适应免疫遗传算法,能快速且准确地得到问题最优解,算法的运行效率和适应度得到了提升,不仅能够高效搜索医学高维空间中的目标标志物组群,还可识别多样化的目标代谢标志物组群,便于实际中根据具体需求进行灵活选择;同时利用特定的免疫学原理,即浓度反馈调节算子来保证目标解的多样性。

附图说明

图1是本发明的一种基于自适应免疫遗传算法的代谢标志物组群识别方法流程示意图。

图2是本发明的符号编码示意图。

图3是本发明的识别方法和4种常规方法识别的代谢标志物组群的判别能力比较。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。

参照图1所示,一种基于自适应免疫遗传算法的代谢标志物组群识别方法,包括:

对标志物组群进行符号编码,在标准遗传算法的基础上对标志物组群内的染色体进行综合评价,通过染色体的抗体浓度和适应度来反馈调节标准遗传算法构建自适应免疫遗传算法,判断标志物组群内的染色体的抗体浓度和适应度是否达到阈值,若符合则算法结束,输出多个目标解。

本发明通过染色体的抗体浓度和适应度来反馈调节标准遗传算法构建自适应免疫遗传算法,能快速且准确地得到问题最优解,算法的运行效率和适应度得到了提升,不仅能够高效搜索医学高维空间中的目标标志物组群,还可识别多样化的目标代谢标志物组群,便于实际中根据具体需求进行灵活选择;同时利用特定的免疫学原理,即浓度反馈调节算子来保证目标解的多样性。

所述的符号编码,通过赋予每条染色体C若干个不同符号标签的特征变量,当总体特征变量数目为N,使得每一代种群G包含n条染色体G={C

如图2所示,根据标志物组群的特点采用对应符号编码,即赋予每个特征变量固定的符号标签,每条染色体C由若干个不同符号标签的特征变量组成。这样,每条染色体直接代表一组潜在标志物组群,而且可通过设置染色体的长度来自由调节标志物组群中所含标志物的数目。

所述的免疫遗传算法,设染色体的适应度为Fit(C)={Fit(C

对所述的染色体的抗体浓度和适应度的综合评价,根据符号编码特点,所述染色体的相似性和浓度评价为下列方程组:

Aff(C

其中,S为两条染色体相同的基因位数,L为染色体长度;

结合上述所述染色体的适应度和浓度对染色体进行综合评价,则:

其中,γ为调节因子,且γ∈[0,1)。

自适应免疫遗传算法主要根据染色体的适应度和浓度两方面综合评价,一方面保证适应度高的染色体得以保留到下一代,另一方面抑制浓度过高的染色体过度繁殖,针对判别分析问题,染色体的适应度评价拟采用基于随机森林预测算法的AUC值。

当标志物组群内的染色体的抗体浓度和适应度未达到阈值或终止迭代次数,利用随机选择策略从标志物组群内的选择若干染色体,对选中的染色体按照自适应免疫遗传算法操作中的交叉和变异方法进行交叉和变异操作,采用免疫疫苗对选中的染色体采取动态免疫接种。

所述的动态免疫接种具体步骤为:

当选中染色体有先验信息,则利用选中染色体的先验信息作为免疫疫苗V

当染色体无先验信息,则从当前标志物组群内提取优良染色体上的重要基因位作为免疫疫苗Va。

具体的,采用免疫疫苗接种一方面使搜索过程持续向着优化方向前进,另一方面则可充分利用特定问题的先验信息,提高目标解集的质量。

从Fit(C)<δ的染色体中以概率P

其中,C

算法结束前,根据输出多个目标解的染色体的适应度值变化,采用向后剔除法对末代种群中的整条染色体上的噪声变量进行变量剔除,使得最终得到的目标解染色体长度小于等于预设值L,即Length(C

具体的,采用向后剔除法对末代种群中的染色体进行变量剔除分析,逐个剔除对整条染色体的适应度没有贡献的噪声变量,最大程度上保证标志物组群的简化程度和实用价值。

对自适应免疫遗传算法与染色体噪声变量剔除进行多阶段内部并行运算策略,以获得染色体适应度和浓度信息以及目标解染色体长度信息。

本发明还可对染色体适应度评价、浓度反馈调节、染色体噪声变量剔除、染色体动态免疫接种进行多阶段内部并行运算策略,以加快整个算法运行速率。

本发明还包括一种基于自适应免疫遗传算法的代谢标志物组群识别方法,包括:

对标志物组群进行符号编码,在标准遗传算法的基础上对标志物组群内的染色体进行综合评价,通过染色体的抗体浓度和适应度来反馈调节标准遗传算法构建自适应免疫遗传算法,判断标志物组群内的染色体的抗体浓度和适应度是否达到阈值,若符合则算法结束,输出多个目标解;

反之,则利用随机选择策略从标志物组群内的选择若干染色体,对选中的染色体按照自适应免疫遗传算法操作中的交叉和变异方法进行交叉和变异操作,采用免疫疫苗对选中的染色体采取动态免疫接种;

算法结束前,根据输出多个目标解的染色体的适应度值变化,采用向后剔除法对末代种群中的整条染色体上的噪声变量进行变量剔除,使得最终得到的目标解染色体长度小于等于预设值L,即Length(C

对染色体适应度评价、浓度反馈调节、染色体噪声变量剔除、染色体动态免疫接种进行多阶段内部并行运算策略,用以提高自适应免疫遗传算法的运行速率。

对染色体适应度和浓度计算、免疫疫苗接种和自适应降噪过程的计算量较大,利用多核CPU和R软件并行运算能力(如parallel包中提供的函数)进行多阶段内部并行运算,可以大大减少计算时间,从而显著提高算法运行速度。

在标准遗传算法的理论框架下,采用多种自适应进化策略对搜索过程进行整体设计和优化,包括浓度反馈调节、免疫疫苗接种、自适应降噪处理和多阶段内部并行运算,构建SA-IGA算法。

该方法在标准遗传算法的基础上,融合了多种新设计的自适应进化策略来提高算法的搜索效率和质量,包括:利用浓度反馈调节算子保证目标解的多样性、引入免疫接种过程以有效利用先验信息、利用自适应降噪处理消除冗余信息、采用多阶段内部并行算子加快收敛速率。

本发明的SA-IGA算法采用多种自适应进化策略,以保证算法的高效搜索能力、多样性保持能力、先验信息利用能力和快速收敛能力。如何合理利用特定的免疫学原理(包括抗体浓度反馈机制和疫苗接种免疫)和计算机技术设计有针对性的自适应进化策略,并抑制算法的退化现象和优化算法的搜索过程,从而识别多样化的目标代谢标志物组群,是本发明要解决的技术关键点。

实施例

研究对象和代谢组学数据采集

(1)研究对象

自2014年8月至2015年2月,共有4611名60岁以上的老年人参加了于苏州市渭塘镇开展的“渭塘老年病研究”。所有参与者均填写了标准化的综合问卷,接受了全身及眼科检查,并采集了静脉血。所有参与人员均知情同意。最终,共获得4579份完整的调查数据及血液样本。每份血样在采血的当天运送至苏州大学医学部实验室。将每个离心管离心10分钟后取出血清,并将所有的等分试样保存到-80℃深冻冰箱准备检测。

所有纳入研究的参与人员经眼科检查确认,在经过了年龄、性别匹配后,共确定40例高度近视和40例轻度近视对象。其中,女性参与者占最终检测人群的78%;高度近视组和轻度近视组的平均年龄分别为69.5岁和69.6岁、平均等效球镜分别为-7.7屈光度和-1.7屈光度。

(2)样品的采集和检测:①挑选出所纳入的40例高度近视参与者和40例轻度近视参与者的血样。要求所有选入的参与者均签署知情同意书,并有完整的调查问卷数据和血液样本。②所有血样离心后将血清储存在-80℃冰箱内。血清样品的预处理和高通量仪器检测过程均遵循随机化的原则。样品检测使用气相色谱质谱联用(GC-TOF/MS)以获取代谢组学图谱数据。

(3)代谢组学数据获取和预处理:使用力可公司的Chroma TOF 4.3X软件和LECO-Fiehn Rtx5数据库进行原始峰的提取、数据基线的过滤和校准、峰比对、解卷积分析、峰识别以及峰面积的整合。在代谢物鉴定中同时考虑了质谱匹配和保留指数匹配。我们去除了在质量控制样品中检出比例<50%的峰或相对标准偏差>30%的峰。

代谢标志物组群的识别

使用本发明建立的SA-IGA执行自适应免疫遗传算法,将该算法应用于实际的高度近视代谢组学研究,识别具有多样化的高度近视代谢标志物组群,用于疾病的准确识别和预测,从而筛选出区分高度与轻度近视的血清代谢标志物组群。根据预分析结果设定算法的目标适应度值GoalFit=0.95,目标浓度值GoalDen=0.00000001,终止迭代次数为300代,种群染色体数为200,每条染色体的基因数为5;最终,确定5组代谢物作为潜在的生物标志物组群。同时,与4种常规变量筛选方法进行比较,包括Wilcoxon秩和检验筛选法(Wilcoxon)、随机森林的变量逐步剔除法(varSelRF)、随机森林的VIM筛选法(VIM)和偏最小二乘分析的VIP筛选法(VIP)。

分析结果

对于区分高度近视和轻度近视,自适应免疫遗传算法(Self-adaptive immunegenetic algorithm,SA-IGA)识别出的5组代谢标志物组合充分保证了预期的多样性特点(表1)。使用5折交叉验证获得5组代谢标志物组群的AUC值在0.84-0.87之间,PLS-VIP的AUC为0.78,Wilcoxon秩和检验筛选法的AUC为0.77,RF-VIM的AUC为0.81,varSelRF的AUC为0.79(图3)。因此,经过SA-IGA识别的代谢标志物组群,其判别能力明显优于其他常规方法。

上述图表(表1)为SA-IGA与传统方法识别出的用于区分高度和轻度近视的代谢标志物组群。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号