首页> 中国专利> 基因组信息辅助育种方法Ⅰ‑基于SNP聚类信息和PAV变异信息的育种亲本选择

基因组信息辅助育种方法Ⅰ‑基于SNP聚类信息和PAV变异信息的育种亲本选择

摘要

本发明涉及一种利用SNP聚类和PAV变异进行亲本选择的基因组信息辅助育种方法。本发明的实质是借助基因组学和生物信息学方法,获得候选亲本的基因组测序信息,一方面通过序列比对获得高质量SNP数据集并计算候选亲本的遗传距离矩阵,借助聚类树判断候选亲本间的亲缘关系;另一方面,将Denovo组装的候选亲本contig定位到参考基因组,再根据物理位置获取候选亲本目标性状相关基因的PAV变异。结合PAV变异和基于SNP的亲缘关系信息,从大量候选亲本中筛选出亲本子集用于表型鉴定;最终结合亲本子集的表型鉴定结果确定入选育种亲本。该方法属于水稻分子育种领域,能够从大量的候选亲本中有效的缩小用于表型鉴定的材料范围,减少表型鉴定的工作量,提高育种工作效率。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-06

    未缴年费专利权终止 IPC(主分类):G16B40/00 专利号:ZL2016103515259 申请日:20160526 授权公告日:20190326

    专利权的终止

  • 2019-03-26

    授权

    授权

  • 2016-12-28

    实质审查的生效 IPC(主分类):G06F19/24 申请日:20160526

    实质审查的生效

  • 2016-11-30

    公开

    公开

说明书

技术领域

本发明涉及一种利用SNP聚类信息和PAV变异信息进行育种亲本选择的基因组信息辅助育种方法。该方法属于作物分子育种领域,适用于在水稻等作物中高效的进行育种亲本的选择。

背景技术

基因组技术与信息技术的结合,使得科研人员可以方便的获取所需要的海量的基因数据并深入的挖掘相关的遗传信息;数据库平台使得育种家能够对海量数据进行存储和深入的挖掘并实现信息共享。亲本选择是作物育种中至关重要的一个步骤,直接决定一个育种周期(3-5年)内全部工作的成败。随着基因组时代的到来,分子育种已经向基于全基因组信息的方向演进;育种亲本的选择也不仅仅根据表型数据,更要包括目标性状关键基因的重要基因组信息数据。基因组信息的强大支持,也将使得育种工作的可重复性大大增强,育种工作的效率大大提高。

SNP信息是基因组中多态性最好的分子标记,其在基因组中广泛存在,既可以出现在基因内区域,也可以出现在基因间区域;利用足够量的SNP信息进行育种亲本材料的聚类分析无疑是十分准确的。PAV变异(Presence/Absence Variation,存在/缺失变异,或译作获得/缺失变异)是近年来在基因组变异研究中新兴的一种研究尺度,它比通常的插入缺失(InDel,20bp以下)的尺寸要大(通常在50-2000bp),因此PAV变异对于基因功能的影响要更加显著。二者相结合,能够较好的反应个体基因组在不同尺度的变异水品和相似性。

通过大规模全基因组测序和生物信息学分析,一方面我们可以获取海量的SNP和PAV变异信息;另一方面,对于个别重要的PAV变异,我们可以进一步将其开发成单个的基于PCR(聚合酶链式反应)的育种用分子标记,应用于标记辅助选择育种。在人类、动物以及大豆、高粱和玉米上,PAV变异都得到了比较充分的挖掘和利用;反观水稻,PAV变异的应用还比较少。

随着基因组测序技术飞速发展,伴随着测序成本的急剧下降和大量基因组数据的便于获 取,如何将基因组数据与育种实践有效结合,成为摆在分子育种工作者面前的一个重要命题。在作物育种过程中,仅仅通过表型,即便是易于观察的抽穗期等表型,来筛选所需亲本也是一个繁重且周期较长的任务。到目前为止,全球测序的水稻品种已经不下5000份;其中由中国农业科学院作物科学研究所负责与华大基因及国际水稻研究所合作,完成了全球3000余份水稻种质资源的测序工作。如何从海量的数据中获取与育种相关的重要选择指标,有效的缩小表型鉴定的范围是一个重要的研究课题。如果能够将基因组信息与表型鉴定相结合,借助基因组手段缩小用于表型鉴定材料范围,无疑能够极大的提高育种工作表型鉴定的效率。以我国北方粳稻特别是东北粳稻的亲本选择为例,由于育种目标是选育感温性强而感光性弱甚至于无感光性的品种,因此可以选用的亲本在与感光性相关的基因位点上是否具有合适的基因型,是一个非常重要的选择指标。

发明内容

(一)技术问题

本发明针对上述研究背景,利用基因组测序技术,通过对候选育种亲本进行基因组SNP和PAV变异数据的采集和分析,构建基于SNP信息的聚类树,获取重要目标性状基因位点的PAV变异信息,建立候选育种亲本的基于SNP聚类的亲缘关系信息和PAV变异信息数据库,利用该数据库对育种亲本有效的进行基于基因组数据的辅助选择,主要应用于水稻等作物的育种。

(二)技术方案

1.一种利用SNP聚类信息和PAV变异信息进行育种亲本选择的基因组信息辅助育种方法,按照如下步骤进行:

1)通过基因组重测序获得候选育种亲本的大量基因组reads信息;

2)通过常规的序列比对方法与参考基因组进行比对,获取物理位置信息,然后提取SNP信息数据集;通过设置参数,过滤SNP信息数据集,获得缺失数据最少的高质量SNP数据亚集;

3)在高质量SNP数据亚集的基础上,通过常规的方法计算获得候选育种亲本的遗传距离矩阵,利用常规方法构建SNP聚类树,根据候选育种亲本的SNP聚类信息,判断 候选育种亲本之间的亲缘关系远近;

4)通过Denovo组装,形成候选育种亲本的contig,然后将其通过常规的序列比对分析方法定位到参考基因组,获得相应候选育种亲本contig的物理位置;

5)根据育种计划所设定的目标性状,选择重要的相关基因位点,根据该基因的物理位置区间,分析候选育种亲本contig中目标性状控制基因对应区间序列的PAV变异基因型;

6)根据PAV变异分析的结果和基于SNP聚类的亲缘关系信息,从大量候选育种亲本中筛选获得用于表型鉴定的亲本子集;

7)结合亲本子集的表型重复鉴定结果最终确定育种计划所需的入选育种亲本。

该方法可以在水稻及其它作物的基因组信息辅助育种中应用。

(三)有益效果

本发明与现有技术相比具有以下优点及效果:

1.通过将PAV变异信息、SNP聚类信息与表现型筛选相结合,能够比较准确有效的获得目标性状所需的入选育种亲本。

2.能够从大量候选育种亲本中比较有效的缩小进一步表型鉴定的亲本材料范围,减少表型鉴定的工作量,提高育种工作效率;

3.本发明获得的育种亲本SNP聚类信息和DTH8基因位点为代表的PAV变异信息可用于早熟粳稻育种亲本的基因型选择,有效地鉴别弱感光性且与粳稻亲缘关系较远的候选育种亲本,便于及时的杂交转育,加快育种进程。

附图说明

图1 通过基因ID检索DTH8基因的基本信息示例。

图2 DTH8基因的PAV变异信息及其在不同育种亲本SNP聚类树上的分布示例。

图3 不同类型的候选育种亲本中的DTH8基因PAV变异图示示例,左侧为基于SNP的聚类树,右侧为PAV变异。

具体实施方式

下面结合具体实施实例,进一步阐述本发明。其中所用方法如无特别说明均为常规方法。以下示例不以任何形式限定本发明。

(一)亲本材料的基因组信息获取

1.供试材料

育种家的任意候选育种亲本材料。

2.DNA提取及全基因组高通量测序

参考Temnykh等(2000年)的DNA提取方法,对各单株分别提取基因组DNA。

考虑成本,基因组测序可以采用基于shot-gun测序技术,建库和测序方法都同常规。获得质量较好的数据覆盖度建议在10X以上。为了保证测序数据的质量,原始数据中如果某个Read超过50%的碱基quality值小于5的或者有接头污染,则予以过滤淘汰。

(二)SNP信息提取及育种亲本聚类分析

考虑到育种亲本在目标性状适宜的情况下,有必要尽可能的保持其多样性,因此,我们对于候选育种亲本的亲缘关系要有一个基本的了解。

我们在基因组DNA测序数据的基础上,将每个样本获得的reads与参考基因组(例如Os-Nipponbare-Reference-IRGSP-1.0,IRGSP-1.0)利用免费分析工具如BWA等进行比对分析,将比对的结果生成BAM格式文件。在BAM文件的基础上,利用免费分析工具如Genome Analysis Toolkit(GATK)等提取SNP信息。为了提高SNP信息提取的可靠性,质量控制参数设置为:每个位点的mapping质量值大于20、变异质量值大于50,而且每个碱基至少有来自2个以上reads数据的支持,MAF值>0.001。从提取的SNP数据集中随机挑选缺失数据最少的高质量SNP数据亚集,总数不超过200K,用于下一步的育种亲本聚类分析。

在上述高质量SNP数据亚集的基础上,计算育种亲本的遗传距离矩阵,免费工具如Tree BeST构建聚类树,展示候选育种亲本之间的亲缘关系,boot straps参数设置为1000。

(三)PAV信息的提取和数据库的构建

经过过滤的高质量reads数据利用拼接软件,例如SOAP denovo等进行从头拼接,获得不同长度的Contig/Scaffold。

将所有测序亲本的Contig/Scaffold分别用免费工具BLAT(Kent 2002)与参考基因组(例如Os-Nipponbare-Reference-IRGSP-1.0或者多个基因组数据整合成的Pan-genome)进行序列快速比对,获得每个Contig/Scaffold的物理位置;在此基础上,通过免费工具LASTZ(http://www.bx.psu.edu/miller_lab/)将Contig/Scaffold比对定位到参考基因组上。对于没有比对上的Contig/Scaffold可以进一步用免费工具BLASTn(Altschul et al.1990)做进一步的比对。

在50-2,600bp范围内或者以某个基因全长的85%或编码区的95%作为阈值判断该基因 位点是否属于PAV变异。将相应的PAV变异信息依照不同的候选育种亲本创建数据库,便于检索和访问。PAV变异图示的方式可以采用开源的JBrowse等浏览器技术进行实现。

(四)目标性状相关关键基因位点(仅以感光性为例)的PAV变异分析

以下分析可以通过依据上述步骤创建的类似http://www.rmbreeding.cn/pan3k的数据库网站来完成。

已经知道DTH8是控制感光性的关键基因位点;我们选择该基因位点(RAP-DB的登录ID号:Os08g0174500)作为PAV变异的主要分析对象。首先在检索中输入基因ID号,获得相应的基因PAV变异信息(图1)。检索表明DTH8在不同基因组间存在PAV变异,其中主要在粳稻(JAP)中携带,其最高基因频率可达96.8%(图2)。

(五)确定入选育种亲本

下一步我们要筛选对光照长度不敏感的育种亲本,那么就要对DTH8基因位点有缺失的个体进行选择。首先我们依据SNP聚类树的结果,随机挑选了8个分属不同聚类群即亲缘关系尽可能较远的样本(图3)作为操作范例进行说明,实际可以同时选取的样本数可以达到50个以上。接着,点击“提交(submit)”按钮,展示这8个亲本的DTH8基因的图示PAV变异基因型。我们发现,其中有两个亲本(CX106和B026)具备DTH8基因全长,而其它6个(B024、IRIS_313-11275、B060、B067、B112和IRIS_313-11859)都有不同大小的DTH8基因缺失。这样我们就能够将用于表型鉴定的候选育种亲本数减少25%,从而减少了25%的表型鉴定工作量。

最后,我们将依据前期收集的这6份亲本在中国北方长日照条件下的抽穗期,我们选取了B024——既具备DTH8的缺失类型的PAV变异所导致日照长度不敏感(无感光性),同时其与普通粳稻的亲缘关系又比较远,适合作为北方粳稻育种改良的亲本使用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号