首页> 中国专利> 基于纳米孔测序的新冠病毒全基因组分析系统

基于纳米孔测序的新冠病毒全基因组分析系统

摘要

本发明提供一种基于纳米孔测序的新冠病毒全基因组分析系统,该全基因组分析系统针对新冠病毒的测序数据建立完整的分析流程,针对二代测序和三代测序的测序数据进行质控、基因组覆盖度、变异检测、基因组组装以及基因组完整度的的整体分析,且针对变异检测进行树状的分析。变异检测结果和样本相互关联,更便于对新冠病毒的流行史进行管控,另外,测序分析的分析全过程可视化展示,操作人员在操作界面即可简单地依据操作指令进行分析操作,且分析结果以图表的形式全面展示。

著录项

  • 公开/公告号CN112599192A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 杭州柏熠科技有限公司;

    申请/专利号CN202011641513.2

  • 发明设计人 毛凌峰;徐兴宇;沈航杰;倪莉丽;

    申请日2020-12-31

  • 分类号G16B20/20(20190101);G16H50/80(20180101);

  • 代理机构32260 无锡市汇诚永信专利代理事务所(普通合伙);

  • 代理人李珍珍

  • 地址 310000 浙江省杭州市滨江区长河街道滨安路688号2幢E1单元6层654室

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本发明涉及基因分析系统,特别涉及一种基于纳米孔测序的新冠病毒全基因组分析系统。

背景技术

新冠病毒(SARs-CoV)作为传染性非典型肺炎病毒可通过实时-PCR、病毒基因测序或病毒特异性抗体检测进行确诊,通过全基因组测序的方法进行新冠病毒的检测和管控可达到良好的成效。目前,基于电信号检测的纳米孔测序技术是目前实验操作最简单、测序速度最快的高通量测序平台,但是目前采用的测序方法产生的大量原始数据需要长期培训的专业实验人员进行分析,专业实验人员需要通过linuxshell命令行形式去调用多种程序,实现对原始的序列进行过滤、序列比对、微生物物种分类、微生物读序数统计、病原微生物检测、目标物种数据提取、基因组完整度计算等分析工作。这样的缺陷在于需要专业实验人员具有很强的生物信息分析和linux系统操作能力,而且同时每种分析程序都具有不同的选择方案和参数,需要专业实验人员花费大量时间反复摸索调整程序和参数,效率非常低,数据的可视化效果展示存在问题,自动化程度非常低。

总结而言,目前并无针对新冠病毒全基因组分析的简单易操作的测序分析系统,无法快速地对新冠病毒进行变异检测。

发明内容

本发明的目的在于提供一种基于纳米孔测序的新冠病毒全基因组分析系统,该一体分析系统结合多种分析程序为一体,且操作界面简单明了,实验人员可在短时间内就可以轻松操作该分析系统,另,本分析系统可针对变异基因进行检测,将分析结果和样本信息进行关联,便于对新冠病毒进行管控。

为实现以上目的,本技术方案提供一种基于纳米孔测序的新冠病毒全基因组分析系统,包括:

相互关联的数据分析系统和样本管理系统,数据分析系统用于获取待检测病原体的测序数据以鉴定待检测病原体的种类,样本管理系统用于获取对应待检测病原体的样本信息,测序数据和样本信息关联;

数据分析系统包括:

任务建立单元,建立对应待检测病原体的测序数据的分析任务,其中分析任务存储待检测病原体的测序数据以及分析参数;

参考基因组,存储新冠病毒的参考基因序列;

序列比对单元,获取比对指令,比对测序数据和参考基因组获取待检测病原体的检测序列;

序列分析单元,获取序列分析指令,基于检测序列进行基因组覆盖率、变异检测、基因组组装以及基因组完整度的至少一序列分析任务;

分析报告生成单元,获取报告指令,摘录序列分析单元和序列比对单元的分析结果数据,分析结果数据和样本管理系统关联,生成分析报告。

相较现有技术,本技术方案具有以下特点和有益效果:提供分析过程可视化展示,优化参数调整输入,一键式分析测序结果;整合分析流程,且可提供新冠病毒基因组阴/阳性检测、基因组变异检测;提供图形界面一键式的分析系统以及一键式提供PDF格式检测报告,使得测序序列的数据解读更简单。

附图说明

图1是根据本发明的一种基于纳米孔测序的新冠病毒全基因组分析系统的框架示意图。

图2是输入数据及分析参数的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。

本方案构建基于纳米孔测序的新冠病毒全基因组分析系统,该全基因组分析系统针对新冠病毒的测序数据建立完整的分析流程,针对二代测序和三代测序的测序数据进行质控、基因组覆盖度、变异检测、基因组组装以及基因组完整度的的整体分析,且针对变异检测进行树状的分析。变异检测结果和样本相互关联,更便于对新冠病毒的流行史进行管控,另外,测序分析的分析全过程可视化展示,操作人员在操作界面即可简单地依据操作指令进行分析操作,且分析结果以图表的形式全面展示。

本方案的基于纳米孔测序的新冠病毒全基因组分析系统的方案内容包括:基于纳米孔测序的疑似病原体的测序数据构建全面的分析流程,针对疑似病原体进行参考基因组的序列比对以及变异检测,解决现有新冠常规荧光定量PCR检测无法做病毒的变异检测和检测病毒演化问题;另,该分析系统支持数据类型齐全,支持数据格式为fastq、fast5、barcodedfastq的纳米孔测序技术,也可支持单端双端的fastq二代数据;分析流程可视化,针对且分析结果可一键生成且以图形化的形式展示。

图1展示了本方案的基于纳米孔测序的新冠病毒全基因组分析系统的框架示意图,该基于纳米孔测序的新冠病毒全基因组分析系统可对待检测病原体进行基因序列分析,鉴定其是否为新冠病毒,同时也可鉴定新冠病毒的变异情况,该系统包括:

相互关联的数据分析系统和样本管理系统,数据分析系统用于获取待检测病原体的测序数据以鉴定待检测病原体的种类,样本管理系统用于获取对应待检测病原体的样本信息,测序数据和样本信息关联;

数据分析系统包括:

任务建立单元,建立对应待检测病原体的测序数据的分析任务,其中分析任务存储待检测病原体的测序数据以及分析参数;

参考基因组,存储新冠病毒的参考基因序列;

序列比对单元,获取比对指令,比对测序数据和参考基因组获取待检测病原体的检测序列;

序列分析单元,获取序列分析指令,基于检测序列进行基因组覆盖率、变异检测、基因组组装以及基因组完整度的至少一序列分析任务;

分析报告生成单元,获取报告指令,摘录序列分析单元和序列比对单元的分析结果数据,分析结果数据和样本管理系统关联,生成可视化的分析报告。

在本方案中,基于纳米孔测序的新冠病毒全基因组分析系统可用于鉴定未知病原体是否为新冠病毒,并可对新冠病毒的变异情况进行检测和演化。也就是,当待检测病原体的基因序列和参考基因组内的基因序列相比的重合率大于设定阈值时,则认定该待检测病原体为新冠病毒;对该待检测病原体进行后续的变异检测,以获取新冠病毒的变异情况以及演化过程。序列比对单元获取比对指令后,比对待检测病原体的测序数据中是否有参考基因组对应的基因序列,若有的话,则判定该待检测病原体为新冠病毒。

本方案的任务建立单元设有针对不同类型数据的多个接口,对应不同接口设置不同的测序分析通道,根据测序数据的类型选择对应的测序分析通道。具体的,本方案的任务建立单元的多个接口使得该分析系统不仅可针对fastq和fast5多类型的纳米孔测序数据进行分析,也可支持单端双端的fastq二代纳米孔测序数据,同时可进行多类型测序数据同时分析处理,该分析系统可适用于各种类型的测序数据,比如:illumina,华大、iontorrent、Pacbio等几乎所有高通量测序平台。这是由于本方案针对任务建立单元建立的任务进行分类,且单独设置测序分析通道。

具体的,任务建立单元包括二代测序任务模块以及三代测序任务模块,二代测序任务模块存储二代测序任务及对应的分析参数,三代测序任务模块存储三代测序任务及对应的分析参数,且任务建立单元设置参数设置模块,参数设置模块用于对测序数据的参数进行人为的调整,且参数设置模块以可视化的流程展示在系统界面。且,值得一提的是,针对每个测序任务建立独立的测序分析通道,并对应的测序任务建立存储文件夹。

具体的,针对三代测序任务的分析参数包括任务名、模式、序列路径、混样试剂、线程数、长度限制值、准确度限制值、一致性深度以及SNP准确度Q值,其中任务名定义每个测序分析通道的名字,以方便用户快速定位管理建立的测序数据;模式可选择fast5、fastq、barcodedfastq的一种,针对每种模式选择不同的后续分析通道;序列路径输入文件夹所在的文件路径;混样试剂根据分析类型提供单样本测序,以及Nanopore测序对应的多样本测序试剂的测序方案。

针对二代测序任务的分析参数包括任务名、序列选择、线程数,一致性深度以及SNP准确度Q值,对应二代测序任务对应的模式为fastq模式。

特别值得一提的是,本方案针对测序任务的分析参数可人为选择设定。特别地,测序数据的模式对应不同的后续测序分析工作。线程数默认为10,长度限制值默认为500,准确度限制值默认为80,一致性深度默认为20,SNP准确度Q值默认为20,具体的参数可根据参数设置模块进行对应的调整。特别地,由于本方案设置单独的测序分析通道,因此可使得该方案可针对不同类型的数据进行针对性的处理。

用户在分析系统的界面输入测序数据以及按照指示填写或修改对应的分析参数,任务建立单元基于得到的测序数据以及分析参数建立对应的存储文件夹,且若输入的测序数据为三代测序任务,显示不同数据模型的选项。

样本管理系统内输入对应测序数据的样本信息,样本信息包括但不限于:测序数据的任务名、测序数据的采样信息以及对应该测序数据的采样人员的人员信息。采样信息包括样本类型、采样日期以及测序日期。人员信息包括采样人员的姓名、性别和年龄。样本信息和测序数据关联,存储在测序数据对应的文件夹内,或者,测序数据和样本数据关联存储在样本管理系统内。

用户在分析系统的界面按照指示填写样本信息,对应“测序数据的任务名”对应的选项关联任务建立单元中的任务名,供用户进行自主的选择。或者,用户可输入“测序数据的任务名”,从任务建立单元中匹配对应的测序数据。

当分析系统存储测序数据的文件夹内存储有对应的测序数据后,根据用户的操作指令进行后续的测序分析。本方案依据序列分析流程重新配置参考基因组、序列比对单元、序列分析单元、分析报告生成单元的触发接口以及级联关系,级联关系为:序列比对单元为参考基因组的下级任务节点,序列分析单元为序列比对单元的下级关联任务节点,分析报告生成单元为序列比对单元、序列分析单元、的下级关联任务节点。序列比对单元的触发接口对应比对指令,仅在获取比对指令后触发序列比对单元;序列分析单元的触发接口对应分析指令,仅在获取分析指令后触发物种序列分析单元以及功能基因序列分析单元。

通过该方式的设置降低分析系统的运行压力,且降低操作人员的操作难度。操作人员在分析系统的应用界面上依据需求选择对应的内容,并生成对应的指令,且由于分析系统的单元之间设定级联关系,在未满足上级级联条件下无法触发下级任务节点,且待分析的数据依据设定的流向在分析系统中进行流转。

由于本方案中序列比对单元和序列分析单元的处理过程是独立且关联的,针对比对生成的结果可直接摘录在分析报告生成单元内。且,由于本方案的任务建立单元已对数据模式进行分类,故序列比对单元依据对应的模式进行比对是可以正常运行的。

在一些实施例中,包括数据质控单元,数据质控单元依据设定的质控条件对待检测病原的测序数据进行质控。此时,序列比对单元为数据质控单元的下级关联任务节点,测序数据仅在质控完成后触发序列比对单元进行比对。

在本方案中,参考基因组包括针对新冠病毒的基因序列。值得一提的是,本方案对新冠病毒的变异进行检测,若获取变异基因序列则可更新参考基因组。

序列分析单元根据其分析内容又可分为独立的变异检测单元、基因组组装单元、基因组覆盖率单元、基因组完整度计算单元,根据分析指令触发其一或多个,以此方式实现全流程的简便操作分析。也就是说,本方案将新冠基因序列分析的任务进行集合,操作人员根据需求对分析的任务进行选择,并触发对应的序列分析单元进行分析。

对应的,用户在分析系统对应的页面根据变异检测、基因组组装、基因组覆盖率、基因组完整度进行分析任务的选择,对应的,生成不同的序列分析结果。

其中序列分析单元在序列比对单元之后被触发,仅在检测到待检测病原体内含有新冠基因序列时,序列分析单元的分析任务进行。序列分析单元针对新冠病毒基因序列和待检测病原体的全基因序列进行分析。其中基因组覆盖率为新冠病毒基因序列在全基因序列中的覆盖率,基因组完整度为新冠病毒基因序列的完整性。

值得一提的是,本方案的序列分析单元针对新冠病毒设计变异检测单元,且变异检测单元检测得到的结果以树状的形式展示,以更方便实验人员进行可视化的分析处理。变异检测单元至少包括变异类型效应注释、进化分析、样本分群中的其一变异检测任务,不同的变异检测任务依据不同的指令操作进行。

变异类型效应注释:内置基因注释文件,基于基因注释文件对变异情况进行注释。进化分析:依据GISAID参考毒株对基因序列进行分析,分析其是否有进化或更新。样本分群:依据GISAID分群标准对基因序列进行分群,将相同类的基因序列归类为一个群体。进化分析和样本分群得到的分析结果以树状的形式展示。

且在本方案中,变异检测单元检测得到的变异检测结果和样本管理系统相互关联。具体的,变异检测结果和对应的待检测样本以及检测人员进行关联,以便于对新冠病毒进行跟踪处理。

另外,分析报告生成单元内置分析报告模板,根据基因分析指令摘录对应的数据内容并填入分析报告模板内,摘录的数据内容包括:样本信息、测序数据、序列比对结果以及序列分析结果的一种或多种。且,值得一提的是,由于本方案的处理过程独立且关联,故方便分析报告生成单元独立地摘录对应的内容。另外,分析报告生成单元可依据摘录的数据内容生成图表式的分析报告。

本方案提供的分析系统的流程界面简单易操作,操作人员输入测序数据以及样本信息后,根据指示显示对应的分析内容,并最终汇总分析内容得到分析报告,实现从下机数据生物信息到结果报告的一键式输出。

本方案提供的基于纳米孔测序的新冠病毒全基因组分析系统可承载在计算机系统上运行,服务器的计算机系统包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块也可以设置在处理器中。

本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号