公开/公告号CN113308525A
专利类型发明专利
公开/公告日2021-08-27
原文格式PDF
申请/专利权人 浙江农林大学暨阳学院;
申请/专利号CN202110622814.9
申请日2021-06-04
分类号C12Q1/6869(20180101);C12Q1/6895(20180101);G16B30/10(20190101);G16B20/30(20190101);G16B20/50(20190101);G16B5/00(20190101);
代理机构11489 北京中政联科专利代理事务所(普通合伙);
代理人何磊
地址 311800 浙江省绍兴市诸暨市暨阳街道浦阳路77号
入库时间 2023-06-19 12:22:51
法律状态公告日
法律状态信息
法律状态
2022-02-01
发明专利申请公布后的撤回 IPC(主分类):C12Q 1/6869 专利申请号:2021106228149 申请公布日:20210827
发明专利申请公布后的撤回
技术领域
本发明属于植物分析技术领域,更具体地说,尤其涉及一种基于叶绿体基因组测序的杜鹃花科植物分析方法。
背景技术
伴随着温室效应的加剧,全球平均气温每年持续升高,短期的极端高温出现频率更是大幅度提高,在许多地区,夏季高温已经成为制约植物生长和发育的主要环境因子。南方多数省份甚至每年都会出现罕见的高温天气,给农林生产造成了极大的损失。杜鹃花,泛指杜鹃花科杜鹃花属植物,具有重要的观赏和药用价值。其中锦绣杜鹃(R.pulchrum)为杜鹃花属的重要园艺物种,广泛分布于欧洲,亚洲和北美的温带地区(Galle 1985),并在园林中大量应用。锦绣杜鹃的完整叶绿体基因组信息,分析了锦绣杜鹃叶绿体基因组的大小和结构,并通过分析其与近缘种的基因结构分析,进一步研究杜鹃花科植物之间的亲缘关系、推断其进化模式,锦绣杜鹃的完整叶绿体基因组信息的公布对于将来系统发育和进化研究、分子标记开发以及通过杜鹃花的基因工程进行遗传改良均具有重要价值。
目前,在National Center for Biotechnology Information(NCBI)数据库中可查到的杜鹃花科植物的完整质体组序列共有8个,其中包括6个全MH物种(Monotropoideae,水晶兰属)和2个完全自养物种(Vaccinioidea,越橘属)。相比之下,以前关于杜鹃花的大多数研究都集中在其生物学和生理学上,而尚无其质体基因组的研究结果,因此,亟需一种基于叶绿体基因组测序的杜鹃花科植物分析方法,对其质体基因组进行分析。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于叶绿体基因组测序的杜鹃花科植物分析方法,得出结论:锦绣杜鹃叶绿体全基因组与杜鹃花科其他8个物种在基因组大小,结构,GC含量,基因结构方面有显着差异,但相对而言与越橘属植物更相近。与杜鹃花科完全自养物种(光合自养型,越橘属和杜鹃花属)相比,异养种(非光合型,水晶兰属)的cp基因组的大小(约33-41kb)和基因含量要小得多。本发明中,锦绣杜鹃叶绿体基因组中共注释到73个功能基因,而Vaccinium macrocarpon和Vaccinium oldhamii分别注释了110个和133个基因,这表明杜鹃花科不同物种间叶绿体基因组高度可变;植物形态学特征和核DNA标记外,叶绿体SSR标记可作为杜鹃属植物分类的替代方法,本发明发现的叶绿体SSRs可用于遗传结构的确定,以及锦绣杜鹃及其相关物种的多样性等相关研究结果。
为实现上述目的,本发明提供如下技术方案:
一种基于叶绿体基因组测序的杜鹃花科植物分析方法,包括如下步骤:
S1、取样,DNA提取与测序,以锦绣杜鹃(R.pulchrum)为实验材料,采集其新鲜的叶子,使用改良的CTAB方法提取总基因组DNA,通过250bp的双末端测序对锦绣杜鹃的叶绿体全基因组进行测序并获得相应数据;
S2、叶绿体基因组组装,通过NOVOPlasty程序将读取的片段重新组装成完整的叶绿体基因组;
S3、叶绿体基因组注释,以杜鹃花科物种的基因组为参考,注释序列并检查注释结果,生成基因组的物理图谱用于识别重复序列;
S4、叶绿体基因分析,分析完整叶绿体基因组的GC含量和编码序列(CDS),进行简单序列重复(SSR)和长重复筛查,碱基变异如果导致氨基酸的改变,为非同义突变,反之为同义突变;
S5、全基因组比较与分析,对叶绿体全基因组进行序列比对,将锦绣杜鹃的完整叶绿体全基因组与杜鹃花科已有叶绿体全基因序列信息的八个相关物种进行比较;
S6、系统进化分析,从NCBI的数据库中获得杜鹃花科已有的八个物种的叶绿体全基因组序列信息:
第一步,使用MAFFT进行序列比对分析;
第二步,用BioEdit软件进行序列比对与分析;
第三步,以猕猴桃和中华猕猴桃作为外群,利用RAxML中的GTRGAMMA模型构建系统进化树。
作为优选的技术方案,步骤S1中的所述获得相应数据包括1228万条产物,锦绣杜鹃叶绿体全基因组的长度为136,249bp,由于缺乏反向重复序列,它没有典型的四分结构的;锦绣杜鹃叶绿体全基因组的总GC含量为35.98%,共注释到73个基因,包括2个rRNA基因,29个tRNA基因和42个蛋白质编码基因,密码子使用频率分析结果,所有基因共由8693个密码子组成,编码68种氨基酸,其中亮氨酸(Leu)是最常用的氨基酸(数量为948,占10.90%),半胱氨酸(Cys)最少,丰富(76个,0.87%),密码子的偏好性(RSCU)>1,锦绣杜鹃叶绿体全基因组中的密码子更偏向以A或U结尾。
作为优选的技术方案,步骤S3中所述锦绣杜鹃叶绿体基因组中注释到的基因中,有七个基因具有内含子,两个是蛋白质编码基因,五个是tRNA,六个基因仅有一个内含子,包括一个蛋白质编码基因ndhA和五个tRNA基因trnV-UAC,trnL-UAA,trnA-UGC,trnI-GAU和trnG-UCC,蛋白质编码基因(ycf3)包含两个内含子,ycf3的内含子序列最长(711bp+743bp),trnL-UAA的内含子最小(504bp)。
作为优选的技术方案,步骤S4中的所述的同义和非同义的分析:首先检测锦绣杜鹃叶绿体基因是否存在进行选择,需要估算同义(Ks)和非同义(Ka)突变率,然后将Ka/Ks比值进行分类,Ka/Ks<1,Ka/Ks=1,Ka/Ks>1分别表示密码子替代表现为纯化,中性和正向选择。
作为优选的技术方案,步骤S4中所述非同义突变一般受到自然选择的作用,非同义突变率(Ka)和同义突变率(Ks)的比值则说明受到何种选择作用,比值大于1,说明受到正选择效应,小于1,说明有纯化选择作用;使用mafft软件进行基因序列的比对(Katoh etal.2005),使用KaKs_Calculator软件计算基因的Ka/Ks值。
作为优选的技术方案,步骤S5中的所述八个相关物种分属于两个属,包括越橘属和水晶兰属。
作为优选的技术方案,所述杜鹃花科植物在从完全自养到完全异养的转化过程中,发生纯化选择的迹象,rpl32是此转化中唯一被注释到的基因,它存在于四个异养物种中,其余两个异养物种中没有注释到rpl32基因。
作为优选的技术方案,将完整的锦绣杜鹃叶绿体全基因组分别与杜鹃花科的自养和异养物种分别进行比较,结果为锦绣杜鹃叶绿体全基因组与八个杜鹃花科植物的序列存在很大差异,尤其是与异养的水晶兰属植物序列存在很大差异,相较而言,与自养的越橘属植物存在较小差异;杜鹃花科植物叶绿体基因序列比较分析发现,非编码区的序列多样性高于编码区;锦绣杜鹃中只有一个基因(trnL-CAU)表现出与杜鹃花科异样物种具有更高的相似性,相比之下,二十个锦绣杜鹃叶绿体基因显示出与杜鹃花科的自养物种相似性高。
作为优选的技术方案,锦绣杜鹃叶绿体全基因组中共鉴定出576个长重复序列,包括382个正向重复序列(F)和259个反向重复序列(I);长的重复序列在长度上表现出很大的差异:分别有15-30bp,30-100bp和100-1000bp的重复序列分别有460个(79.86%),98个(17.01%)和18个(3.13%),最长的正向重复序列长度为951bp,该重复序列横跨ycf3基因序列和基因间隔的位点。
本发明的技术效果和优点:通过研究分析得出以下结果:锦绣杜鹃叶绿体全基因组与杜鹃花科其他8个物种在基因组大小,结构,GC含量,基因结构方面有显着差异,但相对而言与越橘属植物更相近。与杜鹃花科完全自养物种(光合自养型,越橘属和杜鹃花属)相比,异养种(非光合型,水晶兰属)的cp基因组的大小(约33-41kb)和基因含量要小得多。本发明中,锦绣杜鹃叶绿体基因组中共注释到73个功能基因,而V.macrocarpon和V.oldhamii分别注释了110个和133个基因,这表明杜鹃花科不同物种间叶绿体基因组高度可变;植物形态学特征和核DNA标记外,叶绿体SSR标记可作为杜鹃属植物分类的替代方法,本发明发现的叶绿体SSRs可用于遗传结构的确定,以及锦绣杜鹃及其相关物种的多样性等相关研究结果。
附图说明
图1为本发明基于叶绿体基因组测序的杜鹃花科植物分析方法的流程图;
图2为本发明的杜鹃花科叶绿体系统进化分析。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,一种基于叶绿体基因组测序的杜鹃花科植物分析方法,包括如下步骤:
S1、取样,DNA提取与测序,以锦绣杜鹃(R.pulchrum)为实验材料,采集其新鲜的叶子,使用改良的CTAB方法提取总基因组DNA,通过250bp的双末端测序对锦绣杜鹃的叶绿体全基因组进行测序并获得相应数据,其中包括利用琼脂糖凝胶电泳和分光光度计检测DNA的完整性和质量;
S2、叶绿体基因组组装,通过NOVOPlasty程序将读取的片段重新组装成完整的叶绿体基因组;
S3、叶绿体基因组注释,以杜鹃花科物种的基因组为参考,注释序列并检查注释结果,生成基因组的物理图谱用于识别重复序列,使用CpGAVAS软件注释序列,使用DOGMA和BLAST手动检查注释结果,其中,基因组的物理图谱由OGDRAW生成,在线软件Reputer被用于识别重复序列,锦绣杜鹃叶绿体基因组碱基组成见表3;
S4、叶绿体基因分析,通过CodonW检查同义密码子利用率和密码子用法,分析完整叶绿体基因组的GC含量和编码序列(CDS),进行简单序列重复(SSR)和长重复筛查,碱基变异如果导致氨基酸的改变,为非同义突变,反之为同义突变;
S5、全基因组比较与分析,对叶绿体全基因组进行序列比对,将锦绣杜鹃的完整叶绿体全基因组与杜鹃花科已有叶绿体全基因序列信息的八个相关物种进行比较;
S6、系统进化分析,从NCBI的数据库中获得杜鹃花科已有的八个物种的叶绿体全基因组序列信息:
第一步,使用MAFFT进行序列比对分析;
第二步,用BioEdit软件进行序列比对与分析;
第三步,以猕猴桃和中华猕猴桃作为外群,利用RAxML中的GTRGAMMA模型构建系统进化树。
其中,步骤S1中的所述获得相应数据包括1228万条产物,锦绣杜鹃叶绿体全基因组的长度为136,249bp,由于缺乏反向重复序列,它没有典型的四分结构的;锦绣杜鹃叶绿体全基因组的总GC含量为35.98%(见表3),共注释到73个基因,包括2个rRNA基因,29个tRNA基因和42个蛋白质编码基因(见表4),密码子使用频率分析结果,所有基因共由8693个密码子组成,编码68种氨基酸,其中亮氨酸(Leu)是最常用的氨基酸(数量为948,占10.90%),半胱氨酸(Cys)最少,丰富(76个,0.87%)(见表5),密码子的偏好性(RSCU)>1,锦绣杜鹃叶绿体全基因组中的密码子更偏向以A或U结尾。
其中,步骤S3中所述锦绣杜鹃叶绿体基因组中注释到的基因中,有七个基因具有内含子,两个是蛋白质编码基因,五个是tRNA,六个基因仅有一个内含子,包括一个蛋白质编码基因ndhA和五个tRNA基因trnV-UAC,trnL-UAA,trnA-UGC,trnI-GAU和trnG-UCC,蛋白质编码基因(ycf3)包含两个内含子,ycf3的内含子序列最长(711bp+743bp),trnL-UAA的内含子最小(504bp)。
其中,步骤S4中的所述的同义和非同义的分析:首先检测锦绣杜鹃叶绿体基因是否存在进行选择,需要估算同义(Ks)和非同义(Ka)突变率,然后将Ka/Ks比值进行分类,Ka/Ks<1,Ka/Ks=1,Ka/Ks>1分别表示密码子替代表现为纯化,中性和正向选择。
其中,步骤S4中所述非同义突变一般受到自然选择的作用,非同义突变率(Ka)和同义突变率(Ks)的比值则说明受到何种选择作用,比值大于1,说明受到正选择效应,小于1,说明有纯化选择作用;使用mafft软件进行基因序列的比对(Katoh et al.2005),使用KaKs_Calculator软件计算基因的Ka/Ks值(见表6)。
其中,步骤S5中的所述八个相关物种分属于两个属,包括越橘属和水晶兰属。
其中,所述杜鹃花科植物在从完全自养到完全异养的转化过程中,发生纯化选择的迹象,rpl32是此转化中唯一被注释到的基因,它存在于四个异养物种中,其余两个异养物种中没有注释到rpl32基因。
其中,将完整的锦绣杜鹃叶绿体全基因组分别与杜鹃花科的自养和异养物种分别进行比较,结果为锦绣杜鹃叶绿体全基因组与八个杜鹃花科植物的序列存在很大差异,尤其是与异养的水晶兰属植物序列存在很大差异,相较而言,与自养的越橘属植物存在较小差异;杜鹃花科植物叶绿体基因序列比较分析发现,非编码区的序列多样性高于编码区;锦绣杜鹃中只有一个基因(trnL-CAU)表现出与杜鹃花科异样物种具有更高的相似性,相比之下,二十个锦绣杜鹃叶绿体基因显示出与杜鹃花科的自养物种相似性高。
其中,锦绣杜鹃叶绿体全基因组中共鉴定出576个长重复序列,包括382个正向重复序列(F)和259个反向重复序列(I);长的重复序列在长度上表现出很大的差异:分别有15-30bp,30-100bp和100-1000bp的重复序列分别有460个(79.86%),98个(17.01%)和18个(3.13%),最长的正向重复序列长度为951bp,该重复序列横跨ycf3基因序列和基因间隔的位点。
表3锦绣杜鹃叶绿体基因组碱基组成
表4锦绣杜鹃叶绿体基因组注释基因表
注:*基因包含一个内含子;**基因包含两个内含子。
表5锦绣杜鹃叶绿体基因组密码子使用情况统计表
表6锦绣杜鹃与杜鹃花科植物同义和非同义突变比较(Ka/Ks)分析
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行同替换,凡在本发明的精神和原则之内,所作的任何修改、同替换、改进,均应包含在本发明的保护范围之内。
机译: 基于测序的变种识别标记,用于核糖核酸酶基因序列和拟南芥,PEUCEDANI RADIX和GLEHNIAE RADIX PRIMER SET的叶绿体基因组,并使用其
机译: 基于基因组PCR的直接测序的SLA-2基因型的新型底漆和分析方法
机译: 基于基因组PCR的直接测序的SLA-3基因型新底漆和分析方法