首页> 中国专利> 一种优化的16SrDNA高通量测序物种比对方法

一种优化的16SrDNA高通量测序物种比对方法

摘要

本发明涉及一种优化的16S rDNA高通量测序物种比对方法,按照以下步骤进行:建立Greengenes数据库、RDP数据库、Silva数据库和NCBI 16S rDNA数据库;将Greengenes数据库中taxonomy信息转化为字符串信息;分别将NCBI 16S rDNA数据库,RDP数据库,Silva数据库中taxonomy信息转化为字符串信息;分别将得到的字符串信息与步骤2)中得到的字符串信息进行对比,如步骤3)中得到的字符串信息与步骤2)得到的字符串信息完全一致,则将数据库中的taxonomy信息去除,如步骤3)中得到的字符串信息与步骤步骤2)得到的字符串信息不一致,则将taxonomy信息导入到Greengenes数据库中。利用改良的序列比对方法和信息全面的比对数据库,能够从高通量数据中获得更加详实的实验结果。分析者能够根据结果找到与更多实验密切相关的菌种,有利于推进医疗、卫生、环境科学的发展。

著录项

  • 公开/公告号CN106951733A

    专利类型发明专利

  • 公开/公告日2017-07-14

    原文格式PDF

  • 申请/专利权人 苏州普瑞森基因科技有限公司;

    申请/专利号CN201710091491.9

  • 发明设计人 陆敏;朱永亮;

    申请日2017-02-21

  • 分类号

  • 代理机构苏州中合知识产权代理事务所(普通合伙);

  • 代理人李中华

  • 地址 215000 江苏省苏州市工业园区星湖街328号创意产业园4-B101-47单元

  • 入库时间 2023-06-19 02:49:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-26

    授权

    授权

  • 2019-03-01

    专利实施许可合同备案的生效 IPC(主分类):G16B30/00 合同备案号:2019320010005 让与人:苏州普瑞森基因科技有限公司 受让人:江西普瑞森基因科技有限公司 发明名称:一种优化的16SrDNA高通量测序物种比对方法 申请公布日:20170714 许可种类:普通许可 备案日期:20190201 申请日:20170221

    专利实施许可合同备案的生效、变更及注销

  • 2018-01-12

    实质审查的生效 IPC(主分类):G06F19/22 申请日:20170221

    实质审查的生效

  • 2017-07-14

    公开

    公开

说明书

技术领域

本发明涉及一种优化的16S rDNA高通量测序物种比对方法。

背景技术

随着测序技术的成熟和成本的降低,人体微生物菌群研究积累了越来越多的微生物基因序列及微生物菌群方便特征与人类健康、疾病的关系数据。但这些微生物检验序列数据、菌群特征及其与人类健康的关系等数据分散在不同的科学文献、公共数据库里,数据存储、呈现方式给不相同,很难实现不同数据来源直接数据的比较及集成归纳。有必要建立一个对不同来源的数据进行统一化处理、集中储存管理的数据库,实现以大数据为基础的数据比对及分析。

细菌中包括有三种核糖体RNA,分别为5S rRNA、16S rRNA、23S rRNA,rRNA基因由保守区和可变区组成。16S rRNA对应于基因组DNA上的一段基因序列称为16S rDNA。16S rDNA鉴定是指用利用细菌16S rDNA序列测序的方法对细菌进行种属鉴定。包括细菌基因组DNA提取、16SrDNA特异引物PCR扩增、扩增产物纯化、DNA测序、序列比对等步骤,是一种快速获得细菌种属信息的方法。16S rDNA普遍存在于原核生物中。rDNA参与生物蛋白质的合成过程,其功能是任何生物都必不可少的,而且在生物进化的漫长历程中保持不变,可看作为生物演变的时间钟。在16S rDNA分子中,既含有高度保守的序列区域,又有中度保守和高度变化的序列区域,因而它适用于进化距离不同的各类生物亲缘关系的研究。16S rDNA的相对分子量大小适中,约1540个核苷酸,便于序列分析。可变区序列因细菌不同而异,恒定区序列基本保守,所以可利用恒定区序列设计引物,将16S rDNA片段扩增出来,利用可变区序列的差异来对不同菌属、菌种的细菌进行分类鉴定。

现有技术的缺点:现有的16S rDNA高通量测序分析方法中序列比对方法和比对数据库存在不足,各数据库数据不完整、分散,导致高通量测序结果比对信息不完整,获得菌种较少,不能得到真实的实验数据结果。

发明内容

为了克服上述现有技术的缺点,本发明的目的是提供一种以基因序列为单位,将每个种所有可获得的16S rDNA基因序列进行搜集整理和多序列比对的16S rDNA高通量测序物种比对方法。

为达到上述目的,本发明采用以下技术方案一种优化的16S rDNA高通量测序物种比对方法,按照以下步骤进行:

1)、建立Greengenes数据库、RDP数据库、Silva数据库和NCBI 16s rDNA数据库;

2)、将Greengenes数据库中taxonomy信息转化为字符串信息;

3)、分别将步骤1)中的NCBI 16s rDNA数据库,RDP数据库,Silva数据库中taxonomy信息转化为字符串信息;

4)、分别将步骤3)中得到的字符串信息与步骤2)中得到的字符串信息进行对比,如步骤3)中得到的字符串信息与步骤2)得到的字符串信息完全一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息去除,如步骤3)中得到的字符串信息与步骤步骤2)得到的字符串信息不一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息导入到Greengenes数据库中形成新的Greengenes数据库。

所述步骤3)中的转化后的字符串信息首先进行格式化处理,格式化处理后的字符串信息与步骤2)中得到的字符串信息的格式相同。

所述的NCBI 16s rDNA数据库,RDP数据库,Silva数据库定期自动检索NCBI数据库,并将NCBI数据库中的数据信息导入到自身的数据库中。

所述的NCBI数据库中的数据是通过Web搜索来进行更新的。

本发明的有益效果是:利用改良的序列比对方法和信息全面的比对数据库,能够从高通量数据中获得更加详实的实验结果。分析者能够根据结果找到与更多实验密切相关的菌种,有利于推进医疗,卫生,环境科学的发展。

附图说明

图1是本发明原理示意框图;

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示的一种优化的16S rDNA高通量测序物种比对方法,按照以下步骤进行:

1)、建立Greengenes数据库、RDP数据库、Silva数据库和NCBI 16s rDNA数据库;

2)、将将Greengenes数据库中taxonomy信息转化为字符串信息;

3)、分别将步骤1)中的NCBI 16s rDNA数据库、RDP数据库、Silva数据库中taxonomy信息转化为字符串信息;

4)、分别将步骤3)中得到的字符串信息与步骤2)中得到的字符串信息进行对比,如步骤3)中得到的字符串信息与步骤2)得到的字符串信息完全一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息去除,如步骤3)中得到的字符串信息与步骤步骤2)得到的字符串信息不一致,则将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中的taxonomy信息导入到Greengenes数据库中形成新的Greengenes数据库。

所述步骤3)中的转化后的字符串信息首先进行格式化处理,格式化处理后的字符串信息与步骤2)中得到的字符串信心的格式相同。

所述的NCBI 16s rDNA数据库,RDP数据库,Silva数据库每天自动检索NCBI数据库,并将NCBI数据库中的数据信息导入到自身的数据库中。

所述的NCBI数据库中的数据是通过Web搜索来进行更新的。

具体的是,对测序序列精确的解释依赖标准数据库,目前流行的标准数据库有RDP,Greengenes及Silva.这些数据库主要是依靠一代测序的结果建立起来的,现在公用数据库中不仅有一代测序16S rDNA基因序列,用高通量测序得到的数据也越来越多,为了能更合理地组织这些日益增多的这两种技术的序列数据,本专利建立16S rDNA基因序列比对数据库(PrecisionGene Database,简称PRS-DB)。该数据库以基因序列为单位,将每个种所有可获得的16S rDNA基因序列进行搜集整理和多序列比对。数据库以Greengenes数据库为基础,通过以下的步骤进行

1)将Greengenes数据库中taxonomy信息转化为字符串信息.2)分别将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中taxonomy信息转化为字符串信息。3)分别将上述3个数据库的taxonomy信息与Greengenes数据库中taxonomy信息进行对比,如何完全一致,则去除。将不一致的导入到Greengenes数据库中形成新的数据库。将NCBI 16s rDNA数据库,RDP数据库,Silva数据库中Greengenes数据库没有的的taxonomy信息进行整合,建立完善的16S rDNA基因序列比对数据库,使得在相同的比对方法下,新建立的16S rDNA基因序列比对数据库能够比对到更多的物种信息。

本方案中利用独特的方法(PrecisionGene DatabaseTool)整合NCBI中细菌16S rDNA数据库,RDP数据库和Silva数据库。该方法能够以Grengene数据库为模板,将来自不同数据库的物种信息字符串的转化形成特定的格式,从而转化为相同的格式,再通过去重的方法,分别将上述3个数据库的taxonomy信息与Greengenes数据库中taxonomy信息进行对比,如果完全一致,则去除。将不一致的导入到Greengenes数据库中形成新的数据库。去除Greengenes数据库已有的信息,仅仅保留其他各数据库特有的信息。该方法还可以每天自动检索NCBI数据库通过一段代码每天浏览NCBI官方数据库,通过上述方法比较,将新发布的数据信息导入到自己的数据库中,再形成新的数据库,及时的更新最新的物种信息。

通过上述方法得到的新的数据库(PRS-DB)含有更丰富的物种信息,相比Greengenes数据库,在6个分类水平上的数量明显增加,其中种水平的增幅达到19倍左右。从而可以得到更多更加详细的分类信息,使得科研工作者,医生能够得到精准的分析结果,达到精准治疗的效果(表1)。

表1:改进的数据库(PRS-DB)与Greengenes的区别

使用PRS-DB对16S rDNA测序数据进行比对分析的实施例:

这个例子对10个健康志愿者的粪便样品,进行16S rDNA高通量测序,得到大约800万个16S rDNA序列,在去重、质控等步骤后,使用Qiime流程,将这些序列与PRS-DB进行比对,赋予分类信息;结果发现,利用2个数据库对比10个正常人16S rDNA数据,从上面表中可以看出,PRS-DB相比Greengenes数据库虽然少了一个目(Order)的分类,但其属和种水平上的数量明显增加,其中种水平的增幅达到2倍左右,因此此实施结果可以得到更多更加详细的分类信息,发现了更多的物种,得到了精准的分析结果。

利用改良数据库进行比对可以获得更多的菌种信息,在门纲目科属种这6个分类层次上,改良的数据库对比到的结果均得到不同程度的提升,尤其是种分类水平上的。这就使得原先不能区分的种信息得以区分,为科研工作者提供更加准确的结果(表2)。

表2:10个样品与两个数据库PRS-DB、Greengenes比对获得的结果比较

以上实施例仅仅是对本发明的举例说明,并不构成对本发明的保护范围的限制,凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号