公开/公告号CN106778060A
专利类型发明专利
公开/公告日2017-05-31
原文格式PDF
申请/专利权人 南京双运生物技术有限公司;
申请/专利号CN201610879870.X
申请日2016-10-09
分类号G06F19/18;G06F19/22;
代理机构南京众联专利代理有限公司;
代理人顾进
地址 210000 江苏省南京市栖霞区仙林街道纬地路9号F7栋306室
入库时间 2023-06-19 02:24:43
法律状态公告日
法律状态信息
法律状态
2019-05-21
授权
授权
2017-06-23
实质审查的生效 IPC(主分类):G06F19/18 申请日:20161009
实质审查的生效
2017-05-31
公开
公开
技术领域
本发明涉及生物信息处理技术领域,尤其涉及一种利用原核生物基因组高质量草图制作完成图的方法。
背景技术
目前,本发明采用了生物信息学数据挖掘的方法替代传统的PCR和Sanger测序实验方法。与传统方法相比,本发明不需要额外的实验成本同时能节省大量实验时间。得到的原核生物基因组完成图和传统方法得到的结果完全一样。技术平台广泛应用在原核生物新物种的基因组从头测序领域。针对原核生物新物种的基因组,每次高通量测序需要进行两次:1、对基因组进行打断分离600bp左右的片段,进行2x300bp测序深度约为30x的高通量测序;2、对基因组进行打断分离8kb左右的片段,进行环化-打断-富集后分离含连接linker的600bp左右的片段,进行2x300bp的的测序深度约为20x的高通量测序;结合两次的测序数据进行组装可以得到该原核生物的基因组高质量草图。高质量草图可以提供大量的相关原核生物的基因信息,能够在疾病监控等快速诊断领域发挥重要的作用。
但是,在研究相关生物进化的领域中,基因组同线性的分析十分重要;原核生物在进化中,往往容易出现大片基因缺失、重排和转移等情况,甚至此等进化情况比单个基因出现转移、突变、重组等频率不相上下。因此,针对高质量基因组草图提供的生物信息只能对单个基因或小范围同线性区域进行研究,而基因组全方位同线性的研究目前只能依赖于基因组完成图。另外,由于基因组完成图的获得在实验成本和时间成本上要远远高于高质量基因组草图。
在NCBI Genbank上,目前有大约3500个左右的原核生物基因组完成图和30万个左右的原核生物基因组高质量草图(2016年7月),此数量对比足以说明基因组完成图难以获得。应用传统方法获得原核生物基因组完成图的最大缺陷就是成本过于高昂,且随着contig数量增多而对应成本将会几何级数地急剧上升。
针对原核生物基因组的高通量测序,往往能够覆盖整个基因组同时基因组内每个碱基的平均测序深度能够达到约30x。然而,对原始数据进行从头组装后,组装结果往往由很多重叠群contig组成,不同重叠群contig又构成了scaffold,结果是留下了大量洞gap,需要用PCR和Sanger测序实验进行补救,最终获得基因组完成图。实际上,从头组装结果里面除了scaffold和序列较长的contig外,还有大量的序列较短的contig,而这类序列较短的contig也属于该原核生物的基因组。在组装过程中,由于各种复杂的二级结构、重复序列等因素,这些数据不能在从头组装的过程中被识别出来正确地组装在较大的contig上,从而造成大量的洞gap。
发明内容
针对上述存在的问题,本发明根据这个洞的形成原理,针对原始高通量测序数据组装结果重新找到洞gap和contig之间的关系以及相关的数据,提供一种利用原核生物基因组高质量草图制作完成图的方法。
为了达到上述目的,本发明采用的技术方案如下:一种利用原核生物基因组高质量草图制作完成图的方法,所述的方法包括如下步骤:
1)针对原核生物基因组,利用高通量测序平台对其测序,得到高质量的草图;在高质量草图中包含有每个scaffold的序列、scaffold上每个contig的组装顺序及序列信息,另外还有每个read组装后在contig上的坐标、read的编号、contig之间洞的长度估计等信息。
2)在高质量草图中,定义以重叠群contig的5ˊ端和3ˊ端为节点,当重叠群contig之间存在共享的序列read时,则表示两个节点之间有边,以此基础,通过图论的原理建立以重叠群contig和序列read为内容的网络图;
3)按照草图中组装结果scaffold中重叠群contig的顺序,在网络图中找出不同重叠群contig的5ˊ端和3ˊ端之间存在的所有共享的序列read,按照草图中对应的read编号和其在contig上的坐标,从原始测序数据中将所有共享的序列read对应的基因序列提取出来,得出所有共享的序列read在原始测序数据中的相对应的基因序列;
4)根据步骤3)中提出的所有共享的序列read在原始测序数据中相对应的基因序列,应用序列编辑器编制成fasta格式的文件;
5)将步骤4)中得到的多个fasta格式文件内的信息导入任意一款组装软件,然后分别进行局部组装,得到多个对应read的局部组装结果;
6)针对高质量草图上的某个洞gap,将该洞gap的长度和测序深度分别与步骤5)中多个对应read的局部组装结果的长度和测序深度进行对比,当某个read的局部组装结果的长度和测序深度均与洞gap的长度和测序深度相同后,将该对应read的局部组装结果所对应基因序列,作为填充高质量草图上该洞gap的基因序列,得出局部组装好的完成图;
7)重复步骤6)的操作,对高质量草图上的所有洞gap分别进行对比,得出多个局部组装好的完成图,将多个局部组装好的完成图统一连接,制成该原核生物基因组的完成图。
本发明所述的步骤2)定义的高质量草图中,重叠群contig之间序列read满足以下条件:
a)当序列read上的5ˊ端和3ˊ端属于同一个重叠群contig的所有序列read;
b)当序列read上的5ˊ端和3ˊ端分别属于不同重叠群contig时,序列read与对应重叠群contig的重叠部分的长度必须≥50bp,重叠部分的相似度必须≥90%;
则判定重叠群contig之间存在共享的序列read。
本发明所述步骤3)中所有共享的序列read在草图上相对应的基因序列必须满足:基因序列的Q值>25且基因序列的长度>200bp。
本发明所述的步骤6)中read的局部组装结果的长度和测序深度均与洞gap的长度和测序深度相同的判定标准:read的局部组装结果的长度不超过洞gap的长度的±20%,:read的局部组装结果的测序深度不超过洞gap的测序深度的±20%。
本发明的优点在于:本发明采用了生物信息学数据挖掘的方法替代传统的PCR和Sanger测序实验方法。
与传统方法相比,传统方法指的是从头组装,其考虑的是对全部原始数据进行的全局组装;在这种组装过程中,不能有效地处理复杂结构和重复序列等数据,因为这类序列在整个基因组内一般都重复出现多次,而这些序列的位置难以被准确地组装在真正的位置。
本发明所述的而局部组装则不存在以上问题,因为将在全基因组范围内的复杂结构和重复序列放在较短的局部区域上其实和此区域上的一般序列并无二致,所以应用局部组装的方法可以解决全局组装解决不了的问题;本发明不需要额外的实验成本同时能节省大量实验时间。得到的原核生物基因组完成图和传统方法得到的结果完全一样。
附图说明
图1为本发明基于E.coli基因组原始高通量测序的草图,建立的关于contig末端和共享的序列read的网络图;
图2为本发明中按照传统方法测得的5种来自不同菌属的菌株的基因完成图与本发明测得的基因序列的对比结果。
具体实施方式
下面结合附图说明和具体实施方式对本发明作进一步详细的描述。
实施例1:如图1所示的一种利用原核生物基因组高质量草图制作完成图的方法,所述的方法包括如下步骤:
1)针对原核生物基因组,利用高通量测序平台对其测序,得到高质量的草图;在高质量草图中包含有每个scaffold的序列、scaffold上每个contig的组装顺序及序列信息,另外还有每个read组装后在contig上的坐标、read的编号、contig之间洞的长度估计等信息。
2)在高质量草图中,定义以重叠群contig的5ˊ端和3ˊ端为节点,当重叠群contig之间存在共享的序列read时,则表示两个节点之间有边,以此基础,通过图论的原理建立以重叠群contig和序列read为内容的网络图(如图1所示);
其中重叠群contig之间序列read满足以下条件,则判定重叠群contig之间存在共享的序列read。
a)当序列read上的5ˊ端和3ˊ端属于同一个重叠群contig的所有序列read;
b)当序列read上的5ˊ端和3ˊ端分别属于不同重叠群contig时,序列read与对应重叠群contig的重叠部分的长度必须≥50bp,重叠部分的相似度必须≥90%;
3)按照草图中组装结果scaffold中重叠群contig的顺序,在网络图中找出不同重叠群contig的5ˊ端和3ˊ端之间存在的所有共享的序列read,按照草图中对应的read编号和其在contig上的坐标,从原始测序数据中将所有共享的序列read对应的基因序列提取出来,得出所有共享的序列read在原始测序数据中的相对应的基因序列;所有共享的序列read在原始测序数据中相对应的基因序列必须满足:基因序列的Q值>25且基因序列的长度>200bp
4)根据步骤3)中提出的所有共享的序列read在原始测序数据中相对应的基因序列,应用序列编辑器:如editplus软件,编制成fasta格式的文件;
5)将步骤4)中得到的多个fasta格式文件内的信息导入任意一款组装软件:如DNASTAR 7.0软件,然后分别进行局部组装,得到多个对应read的局部组装结果;
6)针对高质量草图上的某个洞gap,将该洞gap的长度和测序深度分别与步骤5)中多个对应read的局部组装结果的长度和测序深度进行对比,当某个read的局部组装结果的长度和测序深度均与洞gap的长度和测序深度相同后,将该对应read的局部组装结果所对应基因序列,作为填充高质量草图上该洞gap的基因序列,得出局部组装好的完成图;
其中read的局部组装结果的长度和测序深度均与洞gap的长度和测序深度相同的判定标准:
a)read的局部组装结果的长度不超过洞gap的长度的±20%,:
b)read的局部组装结果的测序深度不超过洞gap的测序深度的±20%
7)重复步骤6)的操作,对高质量草图上的所有洞gap分别进行对比,得出多个局部组装好的完成图,将多个局部组装好的完成图统一连接,制成该原核生物基因组的完成图。
实施例2:通过本发明的生产方法对市面上的多个原核生物的基因组制作完成图,得到的统计表格如下:
表1 本公司关于原核生物已完成的基因组完成图统计表
本发明最大的优点是:在能保证原核基因组完成图准确性的基础上,大大降低其制作成本。
以本公司2016年的高通量测序成本及对应实验成本来说,按照传统方法获得表1所列举的原核生物基因组完成图大概要100~150万元人民币(按照原核生物基因组的复杂程度、实验成本、人工成本等条件估计):每个原核生物基因组时间需要耗费3-6个月不等。因此,按照传统方法不可能完成表1所示的所有原核生物的内容。
按照文中描述本发明的方法进行基因组完成图的制作,实际花费的总成本约25万元人民币(含实验成本和人工成本),时间耗费仅3个月。
实施例3:企业按照传统方法将其中5株来自不同菌属的菌株(包括Klebsiella、Haemophilus parasuis、Streptococcus、Erysipelothrix rhusiopathiae和E.coli)制作基因组完成图,发现传统方法的结果与本发明的结果完全一样。
如图2所示,序列比对结果表明Gap1的基因序列(由传统方法测得)和其他read的基因序列完全一致(此比对结果位于Klebsiella HKOP1菌株基因组368,950-369,020位置)。在图2中,以本方法获得的洞序列除了和传统方法完全一致外,每个碱基信息均测了5次(测序深度为5x),因此,可以认为本方法比传统方法的准确度更高。
需要说明的是,上述仅仅是本发明的较佳实施例,并非用来限定本发明的保护范围,在上述实施例的基础上所做出的任意组合或等同变换均属于本发明的保护范围。
机译: 一种从兰花叶中分离高质量基因组dna的方法。
机译: 一种方便用任何类型的缝纫机制作草图的设备(由Google Translate进行机器翻译,不具有法律约束力)
机译: 一种用于制作广告目的或娱乐目的的合成图像的装置,该合成图像可自由漂浮在空间中