首页> 中国专利> 用于准确且经济高效的测序、单体型分型和组装的基于单管珠粒的DNA共条形码化

用于准确且经济高效的测序、单体型分型和组装的基于单管珠粒的DNA共条形码化

摘要

本发明描述了用于制备核酸测序文库的方法和组合物,所述方法包括:(a)将插入序列转座入靶核酸的第一片段,其中所述插入序列包含杂交序列,并且其中所述转座在所述第一片段中产生切口;(b)将(i)来自(a)的所述靶核酸的所述第一片段、(ii)夹板寡核苷酸和(iii)珠粒群体合并成单个混合物,其中每个珠粒包含固定在其上的捕获寡核苷酸,和(c)将单个珠粒的捕获寡核苷酸连接到单个第一片段的插入的杂交序列。

著录项

说明书

先前申请的引用

本申请要求于2018年5月8日提交的美国临时专利申请62/668,757;于2018年5月16日提交的美国临时专利申请62/672,501;和于2018年6月19日提交的美国临时专利申请62/687,159的优先权权益。出于所有目的,上述优先权申请通过引用整体并入本文。

背景技术

迄今为止,绝大多数个体全基因组序列缺乏有关作为同源染色体上的连续块传递的单碱基到多碱基变异的顺序的信息。最近已经开发出许多技术来实现这一点。大多数技术是基于共条形码化(co-barcoding)的方法(13),也就是说,将相同的条形码添加到单个长基因组DNA分子的亚片段中。测序后,条形码信息可用于确定哪些读段(reads)来自原始的长DNA分子。这个方法最初由Drmanac(14)描述,并由Peters等人(6)作为384孔板分析实施。然而,这些方法的实施在技术上具有挑战性,价格昂贵,数据质量较低,不能提供独特的共条形码,或这四种的某种组合。在实践中,大多数这些方法都需要通过标准方法来生成单独的完整基因组序列,以改善变异调用。这导致这些方法的使用受限,因为成本和易用性是WGS使用何种技术的主要因素。

发明内容

附图和表格

图1(A)至1(D)。stLFR的概述。图1(A):stLFR的第一步涉及在长基因组DNA分子上大约每200-1000个碱基对插入一个杂交序列。这是使用转座子实现的。然后将转座子整合的DNA与珠粒混合,每个珠粒包含

图2(A)至2(D)。SV检测。使用stLFR数据还发现了先前报道的NA12878中的缺失。每种缺失的条形码共享的热图可见于图10中。图2(A)使用先前所述的Jaccard指数(12)绘制了在8号染色体上

图3(A)和3(B):覆盖范围分布图。绘制了在BGISEQ500上测序的stLFR-2(A)和标准(B)文库的覆盖率。两种样本的覆盖率均降低到30倍。30X基因组的泊松分布以蓝色绘制。

图4(A)和4(B):库之间的FP重叠。(A)将每个stLFR文库,BGISEQ-500标准文库和由Illumina测序的无PCR文库(从basespace下载的库“HiSeq2500-TruSeq_PCR-Free_DNA_2x251_NA12878”)的FP绘制在Venn图中。四个stLFR文库之间共享2078个FP。(B)stLFR文库FP和Chromium文库FP的重叠表明,两种不同技术之间共享1194个FP,这两种技术均使用从GM12878分离的DNA,而不是NA12878的GIAB参考材料。884FP是stLFR文库所独有的。

图5(A)至5(D):stLFR-1变异度量(metric)。针对所有真阳性变异、假阳性变异和共享假阳性变异(绿色)的参考等位基因和变异等位基因,分析了读段深度和条形码深度。绘制了参考等位基因(A)和替代等位基因(B)的读段深度,以及参考等位基因(C)和替代等位基因(D)等位基因的条形码计数。通常,共享的假阳性看起来更像是真阳性,表明存在一些过滤标准可以区分这些变异和未共享的假阳性。

图6(A)至6(D):stLFR-3变异度量。针对所有真阳性变异,假阳性变异和共享假阳性变异(绿色)的参考等位基因和变异等位基因,分析了读段深度和条形码深度。绘制了参考等位基因(A)和替代等位基因(B)的读段深度,以及参考等位基因(C)和替代等位基因(D)的条形码计数。通常,共享的假阳性看起来更像是真阳性,表明存在一些过滤标准可以区分这些变异和未共享的假阳性。

图7(A)和7(B):共享的假阳性变异分布。将分隔2078个共享FP变体的基因组距离相加在100bp(深蓝色),1000bp(橙色),10000bp,100000bp和1000000bp的连续bin中。还绘制了来自stLFR-1文库的5组2078个随机选择的变异。对于每个样本,绘制了位置总数或变异总数。仅对bin或找到2个或更多变异的bin中的变异求和。(A)在过滤之前,有219个共享FP似乎紧密聚簇,并且很可能是映射错误的结果。其余的1859个变异似乎具有与随机变异集相似的分布。(B)过滤后,保留了1738个共享FP,但是只有72个紧密聚簇。

图8(A)至8(T):使用条形码共享热图的NA12878缺失检测。使用以下数据在以下位置处检测stLFR-1文库中的缺失:使用读段数据的230Gb(A)或100Gb(B)在chr3:65189000-65213999处,使用读段数据的230Gb(C)或100Gb(D)在chr4:116167000-116176999处,使用读段数据的230Gb(E)或100Gb(F)在chr4:187094000-187097999处,使用读段数据的230Gb(G)或100Gb(H)在chr7:110182000-110187999处,使用读段数据的230Gb(I)或100Gb(J)在chr16:62545000-62549999处,使用读段数据的230Gb(K)或100Gb(L)在chr1:189704509-189783359处,使用读段数据的230Gb(M)或100Gb(N)在chr3:162512134-162569235处,使用读段数据的230Gb(O)或100Gb(P)在chr5:104432113-104467893处,在chr6:78967194-79001807处,和使用读段数据的230Gb(S)或100Gb(T)在chr8:39232074-39309652处。

图9(A)至9(L):使用stLFR进行易位和倒位检测。用stLFR分析了分别携带在5号染色体和12号染色体之间易位并在2号染色体上具有倒位的患者细胞系和细胞系GM20759。对于每个文库,将总序列覆盖度降采样以研究较低覆盖度下的检测能力。在40Gb(A),20Gb(B),10Gb(C)和甚至5Gb(D)的总序列覆盖度下,很容易检测到12号染色体和5号染色体之间的易位。在46Gb(E),20Gb(F),10Gb(G)和5Gb(H)的总序列覆盖度下,也很容易检测到GM20759的倒位。此外,我们调查了GM12878细胞系中的这些区域,GM12878细胞系未知是否包含这些SV的任一个。来自1ng具有230Gb覆盖的stLFR文库(I)或10ng具有126Gb覆盖的stLFR文库(J)中,在5号染色体和12号染色体之间的易位都不明显。在stLFR-1文库(K)或stLFR-4文库(L)中也未发现颠换。

图10(A)至10(C):NA12878支架的对准点图。将来自stLFR-1(A)文库和stLFR-4(B)文库的SALSA支架相对于参考人类基因组的hg37作图。从Dixon等人(29)获得的7.34亿个HiC读段也用于生成支架,并针对hg37(C)作图。在所有情况下,仅绘制覆盖染色体的5%或更多的支架。

图11:LongHap定相(phasing)。可以在“方法和材料”部分中找到与LongHap一起应用的定相算法的完整说明。

图12:条形码序列组装。必须使用三个连接才能生成约36亿个不同的条形码。条形码组装的每个步骤的预期序列显示为SEQ ID NO:1-13。

图13:条形码序列组装流程图。

图14:条形码实验计划的示例性流程图。

图15:杂交步骤的动画。

图16:连接和降解步骤的动画。显示变性和C加尾的最终步骤是可选的,在此不再赘述。

图17:生产和使用双链DNB。

图18:长分子的扩增。

图19:随机切口酶方法

图20:发夹衔接子方法。

图21(A)和21(B):图21(A)是在不同DNA底物上的连接测定的示意图。平末端DNA供体是带有双脱氧3'-末端(实心圆圈)的合成的部分dsDNA分子,可防止衔接子自连接。衔接子的长臂已被5'-磷酸化。使用2个或3个寡核苷酸(黑色,红色和橙色线)组装DNA受体,以形成切口(无磷酸酯)、空位(gap)(1或8nt)或36nt 5'-突出端。底物的所有链均未磷酸化,支架链(scaffold strand)被3'双脱氧保护。图21(B)显示了使用6%变性聚丙烯酰胺凝胶分析连接产物的大小迁移。阴性无连接酶对照(泳道1、3、4、6、7、9、10、12和13)以其相应实验测试的1倍体积或二分之一体积上样。如果发生连接,则底物大小会上移22nt。红色箭头对应于底物,蓝色箭头对应于衔接子连接的底物。M2=Thermo Fisher的25bp DNA梯状条带(Ladder)(c)预期的连接产物大小的表,以及使用ImageJ估算连接效率。通过将连接产物的强度除以连接产物和未连接产物的总强度来估算连接效率。

图22(A)至22(D):使用6%TBE聚丙烯酰胺凝胶对连接产物的大小迁移进行凝胶分析。红色箭头对应于底物,蓝色箭头对应于衔接子连接的底物:切口(A,左),5’-突出端(A,右),1nt空位(B),2nt空位(C)和3nt空位(D)。M2=Thermo Fisher的25bp DNA梯状条带(Ladder)。比较了两个衔接子(Ad1和Ad2)序列,还检查了Ad2的连接接合点(ligationjunction)的5'端的不同碱基(A或G)。**(e)使用ImageJ根据谱带强度计算的连接效率表。

图23(A)和23(B):图23(A)显示了在具有20bp互补区域的DNA/RNA杂合体上的3'分支连接的示意图。我们测试了平端衔接子是否会在5'-RNA突出端连接到DNA的3'-末端,和/或在5'-DNA突出端连接到RNA的3'-末端。(B)使用6%变性聚丙烯酰胺凝胶对连接产物的大小迁移进行凝胶分析。红色箭头对应于RNA底物(29nt),绿色箭头对应于DNA底物(80nt)。蓝色箭头对应于衔接子连接的RNA底物。如果发生连接,则底物大小会上移20nt。反应1和2是重复的。M2=Thermo Fisher的25bp DNA梯状条带。

图24(A)至24(C):图24(A)是转座子插入,随后是3'-3'分支连接和使用Pr-A(蓝色箭头)和Pr-B(绿色箭头)的PCR扩增的示意图。(B)在使用TnA和/或TnB的转座子插入和/或使用引物pr-A、pr-B或两者的AdB的3'分支连接后的扩增产物。产物在6%聚丙烯酰胺凝胶上电泳。M1=ThermoFisher MassRuler低范围DNA梯状条带。(C)在各种转座子插入和3'分支连接条件后使用pr-A和pr-B扩增信号的图。

图25:中间长度标记。

图26(A)和26(B):在切口、空位和突出端(overhang)形成的非常规DNA末端通过T4DNA连接酶进行3'分支连接。(A)在不同DNA受体类型上的连接测定的示意图。平末端DNA供体是具有双脱氧3'-末端(实心圆圈)的合成的部分dsDNA分子,可防止DNA供体自连接。供体的长臂被5'磷酸化。使用2个或3个寡核苷酸组装DNA受体以形成切口(无磷酸酯),空位(1或8nt)或36-nt 3'-凹陷末端(3'-recessive end)。底物的所有链均未磷酸化,支架链被3'双脱氧保护。(B)使用6%变性聚丙烯酰胺凝胶分别分析底物1、2、3和4的连接产物的大小迁移。阴性无连接酶对照(泳道1、3、4、6、7、9、10、12和13)以相应实验测试的1倍体积或二分之一体积上样。如果发生连接,则底物大小会上移22nt。红色箭头对应于底物,紫色箭头对应于供体连接的底物。使用了Thermo Fisher的25bp DNA梯状条带。表S1中的供体和底物序列。表8显示了每个实验组中底物和连接产物的预期大小以及近似的连接效率。使用ImageJ估算每个条带的强度,并通过其预期大小进行归一化。通过将连接产物的归一化强度除以连接产物和未连接产物的归一化总强度来估算连接效率。

图27(A)至27(E):使用6%TBE聚丙烯酰胺凝胶对连接产物的大小迁移进行凝胶分析。红色箭头对应于底物,紫色箭头对应于供体连接的底物:底物5(切口)(A),底物6(1-nt空位)(B),底物7(2-nt空位)(C),底物8(3-nt空位)(D),和底物9(3'-凹陷末端)(E)。使用了Thermo Fisher的25bp DNA梯状条带。检查了三个在连接接合点的5'末端(T,A或GA)具有不同碱基的DNA供体。表9所示为使用ImageJ基于归一化的条带强度计算的连接效率。

图28(A)至28(D)。DNA/RNA杂合体中RNA 3'末端的3'分支连接。在具有20bp互补区域的DNA/RNA杂合体上3'分支连接的示意图。我们测试了平末端DNA供体是否会连接到DNA的3'凹陷末端和/或RNA的3'凹陷末端。DNA(ON-21)与RNA链杂交(A),而DNA(ON-23)无法与RNA链杂交(B)。图28(C)和(D)显示了使用6%变性聚丙烯酰胺凝胶的连接产物的大小迁移的凝胶分析。红色箭头对应于RNA底物(29nt),绿色箭头对应于DNA底物(80nt)。紫色箭头对应于供体连接的RNA底物。如果发生连接,则底物大小会上移20nt。(c)泳道1和2,复制实验;泳道7-10,无连接酶对照;加入具有T4 DNA连接酶的10%PEG。(d)泳道1,无连接酶对照;泳道2、3和8,T4 DNA连接酶与10%PEG;泳道4、5和9,T4 RNA连接酶1与20%DMSO;泳道6、7和10,T4 RNA连接酶2与20%DMSO。使用了Thermo Fisher的25bp DNA梯状条带。可以对应于图23,但在多个方面并不完全准确。

图29(A)至29(C)给出了三种转座子标签方法随后使用Pr-A(蓝色箭头)和Pr-B(绿色箭头)进行PCR扩增的示意图。两种转座子方法(A);带有3'空位填充的1个Y转座子标签(B);在3'空位处利用衔接子连接的一个转座子方法(C)。图29(D)是在各种标签和空位连接条件后使用pr-A或pr-A与pr-B纯化后的扩增信号的图。可以对应于图23,但在多个方面并不完全准确。

图30(A)至30(C)。Tn5空位连接的碱基分布偏离(A),两个转座子的碱基分布偏离(B)和常规TA连接的碱基分布偏离(C)。仅显示连接两端的前20个碱基;腺嘌呤,蓝色;胞嘧啶,橙色;鸟嘌呤,灰色;胸腺嘧啶,黄色;给出了五个独立文库的平均值和标准差。根本不存在。

图31(A)和31(B)。不同添加条件下的DNA 3'分支连接。(A)在5'-突出DNA上以ATP滴定浓度进行连接。以0.01mM ATP(泳道4和5)和0.005mM ATP(泳道6和7)进行重复实验。泳道9是无供体的对照。(B)在有或没有SSB和连接酶的情况下,DNA在切口、1-nt空位、8-nt空位、5'-突出端和平末端的3'分支连接。红色箭头对应于底物,紫色箭头对应于供体连接的底物。根本不存在。

表1:定相和变异调用统计信息。除非另有说明,否则将读段映射到具有诱饵序列的Hg37,并使用GATK以所有文库的默认设置调用变异。来自GIAB高可信度变异调用VCF的SNP被用作定相的输入。

表2:支架统计。

表3:过滤减少了假阳性调用。通过从过滤的FP中减去1666来计算最终的FP调用,但STD文库除外,因为STD文库在定义上不与stLFR文库共享这些FP中的任何一个,因为stLFR文库是由GIAB参考资料制作的。

表4:LongHap SNP和Indel定相。

表5:过滤标准。使用“材料和方法”部分中说明的各种过滤标准来去除FP。

表6:示例性序列。

具体实施方式

1.stLFR文库过程

1.1引言

在此,我们描述了单管长片段读段(stLFR)技术(15)的实现,这是一种有效的DNA共条形码化技术,可在单个管中实现数百万个条形码。参见WO 2014/145820 A2(2014),出于所有目的通过引用并入本文。这是通过使用微珠的表面来代替隔室(例如384孔板的孔)来实现的。每个珠粒带有许多拷贝的独特条形码序列,该独特条形码序列被转移到每个长DNA分子的亚片段中。然后,在常见的短读段测序设备(例如BGISEQ-500或等效产品)上分析这些共条形码化亚片段。在这种方法的实施中,我们使用基于连接的组合条形码生成策略,通过三个连接步骤创建了超过18亿种不同的条形码。对于单个样本,我们使用约1-5千万个条形码的珠粒在单个管中捕获约10-100百万个长DNA分子。很少有两个珠粒会共享相同的条形码,因为我们从如此庞大的总条形码文库中采样了1-5千万个珠粒。此外,在使用5千万个珠粒和1千万个长基因组DNA片段的情况下,每个长DNA片段的绝大多数亚片段都由唯一的条形码共条形码化。这类似于长读段的单分子测序,并可能为从头组装(de novoassembly)提供强大的信息学方法。重要的是,stLFR易于执行,可以用相对较少的寡核苷酸投入来实现,以生成条形码珠。此外,stLFR使用几乎在所有分子生物学实验室中都能找到的标准设备,并且可以通过几乎任何测序策略进行分析。最后,stLFR取代了标准的NGS文库制备方法,仅需1ng DNA,并且不会显著增加整个基因组或整个外显子组分析的成本,每个样本的总成本不到30美元。

如本文所用,“单管”是指在标签步骤期间不需要将片段分离入单独的管、容器、等分试样、孔或液滴的大量个体DNA片段的分析。相反,微珠的表面可以代替隔室。

stLFR的第一步是沿着基因组DNA片段,优选以规则的间隔插入杂交序列。适当的间隔可能会随应用程序和所需的结果而变化,但通常在100-1500bp之间,通常为200-1000bp。这是通过转座结合DNA序列来实现的。在一实施方案中,转座酶是Tn3,Tn5,Tn7或Mu。通常,使用Tn5转座酶(请参阅Picelli等人,2014,出于所有目的通过引用并入本文)。转座的DNA或插入序列包含用于杂交的单链区域(“杂交序列”)以及被酶识别并能进行转座反应的双链嵌合序列(mosaic sequence)(图1A)。该转座步骤在溶液中完成(与将插入序列直接连接至珠粒相反)。这使得杂交序列能够沿着基因组DNA分子非常有效地掺入。如先前所观察到的(10),转座酶具有在转座事件后保持与基因组DNA结合的特性,有效地使转座子整合的长基因组DNA分子保持完整。

在用例如Tn5处理DNA后,将其在杂交缓冲液中稀释并与克隆条形码的珠粒合并。在一种方法中(以下实施例),在杂交缓冲液中使用了5000万

已经提出,溶液中的基因组DNA形成带有两个尾巴伸出的球(16)。这可以使得能够向分子的一端捕获长的DNA片段,然后进行滚动运动,该运动将基因组DNA分子包裹在珠粒周围。每个珠粒的表面上大约每7.8nm处都有一个捕获寡核苷酸。这实现了非常均匀且高速率的亚片段捕获。一个100kb的基因组片段将包裹2.8um的珠粒约3次。在我们的数据中,捕获的最长片段大小为300kb,这表明捕获更长的DNA分子可能需要更大的珠粒。

在替代实施方案中,诸如珠大小、获寡核苷酸间隔或每种混合物中不同寡核苷酸的数量之类的参数可以变化。例如,所使用的珠粒的直径可以为1-20μm,或者2-8μm,3-6μm或1-3μm。例如,在珠粒上的条形码化的寡核苷酸的间隔可以是至少1nm,至少2nm,至少3nm,至少4nm,至少5nm,至少6nm或至少7nm。在一些实施方案中,间隔小于10nm(例如5-10nm),小于15nm,小于20nm,小于30nm,小于40nm或小于50nm。在一些实施方案中,每种混合物使用的不同条形码的数量可以是>1M,>10M,>30M,>100M,>300M或>1B。如下所述,例如,使用本文所述的方法,可以产生大量条形码用于本发明。在一些实施方案中,每种混合物使用的不同条形码的数量可以是>1M,>10M,>30M,>100M,>300M或>1B,并且它们是从具有至少10倍以上多样性(例如来自珠粒上的>10M,>0.1B,0.3B,>0.5B,>1B,>3B,>10B的不同条形码)的池(pool)中取样的。

通过由桥或夹板(splint)(术语可互换使用)寡核苷酸介导,将捕获衔接子的3'末端连接到转座子插入的杂交序列的5'末端,以规则的间隔转移各个条形码序列,桥或夹板寡核苷酸具有与捕获衔接子互补的第一区域和与杂交序列互补的第二区域(图1A和图15)。收集珠粒,破坏DNA/转座酶复合物,产生大小小于1kb的亚片段。

如果需要,可以在该步骤中获得样本条形码。使用携带在嵌合序列和杂交序列之间的独特条形码的转座子。这些可以在96、384或1536板格式中合成,每个孔包含许多拷贝的携带有相同条形码的转座子,并且在孔之间每个条形码是不同的。使用这些条形码转座子,可以在96、384或1536板格式中将不同的DNA样本进行转座子插入。标记有样本条形码的样本可以任何方式进行多重技术(multiplexing)。

由于大量的珠粒和每个珠粒的高捕获寡核苷酸密度,过量衔接子的量比产物的量大四个数量级。这个巨大的未使用衔接子可能使以下步骤不堪重负。为了避免这种情况,我们设计了带有5'末端连接的捕获寡核苷酸的珠粒。这使核酸外切酶策略得以开发,该策略可特异性降解过量的未使用捕获寡核苷酸。参见图14和16。尿嘧啶DNA糖基化酶(UDG)也可用于降解过量的衔接子。

在一方面,该方法包括将(i)靶核酸的第一片段和(ii)珠粒群体合并成单个混合物,其中每个珠粒包含固定在其上的寡核苷酸,寡核苷酸包含含标签的序列(或条形码衔接子),其中每个包含标签的序列包含一个标签序列,其中固定在同一单个珠粒上的寡核苷酸包含相同的包含标签的序列,并且大多数珠粒具有不同的标签序列。在一些实施方案中,DNA片段是至少2个,至少10个,至少30个或至少100个拷贝的DNA或cDNA分子的串联体(concatamer)。核酸单体的长度可以为0.5kb至10kb,或>1kb,或>10kb。在一些方法中,确定混合物中>50%或>70%>90%,95%,>99%,100%的DNA或cDNA分子碱基的序列。

1.1.1两种转座子方法

在获得stLFR的一种方法中,在初始插入步骤中使用两种不同的转座子,从而允许在核酸外切酶处理之后进行PCR。但是,这种方法导致每个长DNA分子的覆盖率约50%或更低,因为它需要将两种不同的转座子彼此相邻插入以生成合适的PCR产物。

1.1.2使用3'分支连接的单转座子方法

为了实现每个基因组DNA片段的最高覆盖率,我们在初始插入步骤中使用了单个转座子,并通过连接添加了额外的衔接子。这种非典型的(noncanonical)连接称为3'分支连接,涉及将5'磷酸从平末端衔接子共价连接到基因组DNA的凹陷3'羟基上(图1A)。分支连接在下面的实施例3中描述。另请参阅美国专利公开号US2018/0044668和国际申请号WO2016/037418,出于所有目的均通过引用并入本文。另请参阅美国专利公开号2018/0044667,出于所有目的通过引用并入。使用这种方法,理论上可以扩增和测序捕获的基因组分子的所有亚片段。

另外,该连接步骤使样本条形码能够与基因组序列相邻放置,以进行多重采样。使用这些衔接子进行样本条形码的好处是,条形码可以与基因组DNA相邻放置,从而可以使用相同的引物对条形码和基因组DNA进行测序,而无需其他测序引物即可读取条形码。样本条形码允许将来自多个样本的制备物在测序之前合并起来,并通过条形码进行区分。3'分支连接衔接子可以在96、384或1536板格式中合成,每个孔包含许多拷贝的携带相同条形码的衔接子,并且在孔之间每个条形码是不同的。在珠粒上捕获后,这些衔接子可用于在96、384或1536板格式中进行连接。

在该连接步骤之后,进行PCR并且该文库准备进入任何标准的下一代测序(NGS)工作流程。应当理解,可以使用与捕获寡核苷酸或其补体上的位点杂交的第一引物(参见图1A)和与3'分支连接衔接子或其补体的位点杂交的第二引物进行PCR(或其他扩增)。在BGISEQ-500的情况下,该文库如先前所述被环化(17)。从单链环中制备出DNA纳米球,并将其装载到带图案的纳米阵列上(17)。然后,在BGISEQ-500上对这些纳米阵列进行基于组合探针-锚定合成(cPAS)的测序(18-20)。测序后,提取条形码序列。通过独特条形码对读段数据进行映射显示,具有相同条形码的大多数读段都聚簇在基因组区域中,该基因组区域对应于文库制备过程中使用的DNA长度(图1B)。实施例1和2中详细描述了该方法以及制备珠粒的实验方案。

在一些实施方案中,用独特的条形码对>50%、>70%、>80%、>90%或>95%的条形码化DNA片段进行条形码化。在一些实施方案中,片段中>50%、>70%、>80%、>90%的亚片段连接至条形码寡核苷酸。在一些实施方案中,长片段的平均>10%或>20%、>40%、>50%、>60%的亚片段被测序。

1.2 stLFR读段覆盖率和变异调用

为了证明stLFR的定相和变异调用,我们使用来自NA12878的1ng(stLFR-1和stLFR-2)和10ngs(stLFR-3和stLFR-4)的DNA产生了四个文库。使用的珠粒的数量各不相同,分别为1000万(stLFR-3),3000万(stLFR-4)和5000万(stLFR-1和stLFR-2)。最后,测试了3'分支连接方法(stLFR-1,stLFR-2和stLFR-3)和两种转座子方法(stLFR-4)。stLFR-1和stLFR-2的测序深度分别达到了336Gb和660Gb的总碱基覆盖率。我们还对降采样的覆盖率进行了分析。stLFR-3和stLFR-4分别测序到了117Gb和126Gb的中等水平。使用BWA-MEM(21)将共条形码的读段映射到人类参考基因组的构建37(build 37)。由于stLFR不需要任何预扩增步骤,因此整个基因组的读段覆盖率分布接近泊松分布(图3)。非复制覆盖率为34-58X,每个条形码的长DNA分子数量为1.2-6.8(表1和图1C)。如所期望的,由5千万个珠粒和1ng的基因组DNA制作成的stLFR文库具有超过80%的最高的单一独特条形码共条形码率(图1C)。这些文库还观察到每个长DNA分子的最高平均非重叠读段覆盖率为10.7-12.1%,每个长DNA分子的捕获亚片段的最高平均非重叠碱基覆盖率为17.9-18.4%(图1d)。该覆盖率比以前使用3ng DNA和附着在珠粒上的转座子证实的覆盖率高约10倍(12)。

对于每个文库,使用采用默认设置的GATK(22)来调用变异。将SNP和indel调用与瓶中的基因组(GIAB)(23)进行比较,可以确定假阳性率(FP)和假阴性率(FN)(表1)。此外,我们使用在由约1000倍以上的基因组DNA制成且也在BGISEQ-500(STD)上测序的标准非stLFR文库上以及在来自10X基因组的Chromium文库(11)上在GATK中的相同设置进行了变异调用。我们还与Zhang等人在珠粒单体型文库研究(12)中报告的准确度和敏感性进行了比较,该研究出于所有目的通过引用方式并入本文。与Chromium文库相比,我们的stLFR方法和Zhang等人描述的方法显示出更低的SNP和Indel FP率。stLFR的FP和FN率比STD文库高2倍,并且取决于特定的stLFR文库和过滤标准,FN率比Chromium文库高或低。与标准文库相比,stLFR文库中更高的FN率主要是由于较短的平均插入片段大小(

使用GIAB数据来测量FP率的一个潜在问题是,由于分离的DNA片段很小,我们无法使用GIAB参考材料(NIST RM 8398)。因此,我们使用GM12878细胞系,并使用基于透析的方法分离DNA,该方法能够产生非常高的分子量DNA(请参见方法)。但是,与GIAB参考材料相比,我们的GM12878细胞株分离物可能具有许多独特的体细胞突变,从而导致我们的stLFR文库中的FP数量增加。为了进一步检查这一点,我们比较了4个stLFR文库和两个非LFR文库之间的单核苷酸FP变异的重叠(图4a)。总体而言,六个文库之间共享544个FP变异,而2078个FP变异是四个stLFR文库中特有。我们还将stLFR FP与Chromium文库进行了比较,发现Chromium文库中也存在这些共享FP的一半以上(1194)(图4b)。检查这些共享变异的读段和条形码覆盖率表明它们与TP变异更相似(图5-6)。我们还检查了这些共享的FP变异与2078个随机选择的变异在基因组中的分布(图7a)。该分析表明,在两个或更多个这些FP彼此相距100bp以内的簇中发现了219个变异。但是,大多数(90%)变异的分布与随机选择的变异似乎没有区别。另外,在stLFR和Chromium文库之间共享的那些FP中,仅41个被发现是聚簇的(图7a)。最终,GIAB调用了这些变异中的96个,但具有与stLFR文库中调用的不同的接合性(zygosity)。

如果我们接受这些共享的FP变异在很大程度上是真实的且不存在于GIAB参考材料中的证据,则stLFR的FP率可能比表1中SNP检测报道的少至多1859个变异。这仍然比标准BGISEQ-500文库多了数千个单核苷酸变异。为了进一步提高stLFR文库中的FP率,我们测试了多种不同的过滤策略来消除错误。最终,通过基于参考和变异等位基因比率和条形码计数应用一些过滤标准(请参见实施例),我们能够根据文库和覆盖量移除3647-13840个FP变异。重要的是,这是在stLFR文库中仅将FN率提高0.10-0.29%的同时实现的。在此过滤步骤之后,我们检查了四个stLFR文库之间的共享FP。过滤仅去除了340个共享FP变异,其中147个聚簇在彼此的100个碱基对之内,并且可能不是真实的(图7b)。这进一步表明,这些共享FP中的大多数都是真实的变异。考虑到这些变异以及过滤后FP变异数量的减少,与使用SNP调用的经过滤STD文库相比,FP率相似以及FN率高出2-3倍(表3)。这种增加的FN率主要是由于stLFR文库中插入长度短的伴侣对的非唯一映射增加。

1.3 stLFR定相性能

为了评估变异的定相性能,使用公开可用的软件包HapCut2(24)对来自GIAB的高置信度变异进行定相。根据文库类型和序列数据量的不同,将超过99%的所有杂合SNP置于重叠群(contig)中,N50在0.6-15.1Mb之间(表1)。具有336Gb总读段覆盖率(44X独特的基因组覆盖率)的stLFR-1文库实现了最高的定相性能,N50为15.1Mb。N50长度似乎主要受长基因组片段的长度和覆盖范围的影响。这可以从stLFR-2的N50降低中看出,这是因为用于该样本的DNA比用于stLFR-1的材料稍旧且片段化更多(表1,平均片段长度为52.5kb比对62.2kb),而10ng文库(stLFR-3和4)的N50短10倍。与GIAB数据的比较表明,短和长切换错误率(switch error rate)很低,与以前的研究相当(11、12、25)。stLFR性能与Chromium文库非常相似。由于张等人的珠粒单体型方法没有可用的读段数据,我们只能将我们的结果与专门针对其数据编写和优化的定相算法的结果进行比较。这表明stLFR-1和stLFR-2文库具有更长的N50,相似的短切换错误率,但更高的长切换错误率。使用更多DNA的stLFR-3和stLFR-4具有类似于Zhang等人的N50。然而,由于DNA输入和覆盖范围的差异,直接比较是困难的。

应该注意的是,该定相结果是使用并非为stLFR数据编写的程序获得的。为了查看是否可以改善此结果,我们开发了一个定相程序LongHap,并专门针对stLFR数据对其进行了优化。使用GIAB变异,LongHap能够将99%的SNP定相为重叠群,其N50为18.1Mb(表1)。重要的是,在减少短切换错误和长切换错误的同时,实现了这些重叠群长度的增加(表1)。LongHap还可以对indel进行定相。使用GIAB SNP和indel将LongHap应用于stLFR-1会产生23.4Mb N50,但也会导致切换错误率增加(表4)。

1.4结构变异检测

先前的研究表明,长片段信息可以改善对结构变异(SV)的检测,并描述了NA12878中的大缺失(4-155kb)(11,12)。为了证明stLFR检测SV的能力,我们检查了这些区域中的stLFR-1和stLFR-4文库的条形码重叠数据,如前所述(12)。在每种情况下,即使在较低的覆盖范围内,在stLFR-1数据中也观察到了缺失(图2a和图8)。仔细检查覆盖8号染色体

为了评估用于检测其他类型SV的stLFR性能,我们对5号染色体和12号染色体之间已知易位的患者的细胞系(26)以及对2号染色体中具有已知倒位的细胞系GM20759制备了文库(27)。stLFR文库能够识别相应细胞系中的倒位和易位(图2d-e)。对每个文库的读段量进行降采样表明,即使只有5Gb的读段数据,也检测到了易位的强信号(

1.5使用stLFR的支架重叠群

stLFR是一种强大的方法,部分原因是因为它使用非常大量(例如,约18亿)独特的条形码,并且能够实现对每个单独的长基因组DNA分子特有的共条形码。这类数据应有利于从头进行基因组组装和改善支架。为了证明如何使用stLFR来改善基因组组装,我们使用了来自stLFR-1和stLFR-4文库的读段以及SALSA(28),该SALSA程序设计为染色质构象捕获(Hi-C)数据,以支持NA12878的单分子实时(SMRT)读段组装(29)。SALSA不是为stLFR数据设计的,因此有必要将stLFR数据更改为类似于Hi-C的结构。这是通过选择共享相同条形码并位于捕获的长DNA分子末端的读段对来实现的。然后将这些标记为SALSA程序的读段对。用stLFR数据代替Hi-C数据可产生出色的支架(scaffolding)。仅使用6000万个stLFR读段就可以将1411个重叠群连接到597个支架上,N50为44.7Mb。这些支架覆盖了2.84Gb的基因组。这些度量与使用相同重叠群和从人类胚胎干细胞生成的10倍(7.34亿)Hi-C读段在SALSA手稿(manuscript)中产生的那些度量相比非常有利(表2)。通过将stLFR支架与人类参考基因组的构建37(build 37)比对,并将其与dnadiff程序进行比较,进一步分析了stLFR支架的质量(31)。通常,stLFR支架与参考基因组非常吻合,并且断点、易位、重定位和倒位的数目与通过Hi-C读段产生的支架相似(表2)。比对点图进一步证明了stLFR支架和参考基因组之间的高度连续性(图10)。

1.6讨论

在这里,我们描述了一种有效的全基因组测序文库制备技术,stLFR,其使长基因组DNA分子的亚片段与单个独特的克隆条形码可以在单管方法中共条形码化。使用微珠粒作为微小型化的隔间,每个样本可以使用几乎无限数量的克隆条形码,而成本却可以忽略不计。我们优化的在珠粒上的转座子插入DNA的基于杂交的捕获,结合极度过量的捕获衔接子的3'分支连接和核酸外切酶降解,成功地对在长度上长达300kb的DNA分子中最高约20%的亚片段进行了条形码化。重要的是,无需对原始的长DNA片段进行DNA扩增以及没有随之而来的表示偏差就可以实现这一点。这样,stLFR解决了基于乳液的方法的成本和有限的共同条形码化能力。

使用stLFR的变异调用的质量非常高,并且可能通过进一步优化将达到标准WGS方法的质量,但是具有额外益处,即共条形码可实现高级信息学应用。我们展示了高质量,近乎完整的基因组定相入长重叠群的阶段,错误率极低、SV的检测以及重叠群的支架可以实现从头组装应用。所有这些都是通过一个既不需要特殊设备也不需要增加文馆制备成本的文库实现的。

由于有效的条形码,我们成功地使用了低至1ng的人类DNA(600X基因组覆盖度)来制备stLFR文库,并获得了高质量的WGS,其中大多数亚片段都经过独特的共同条形码化。可以使用的DNA较少,但是stLFR在共条形码过程中不使用DNA扩增,因此不会从每个单独的长DNA分子中产生重叠的亚片段。因此,随着DNA量的降低,整个基因组的覆盖度受到损害。另外,由于stLFR当前保留了每个原始长DNA分子的10-20%,随后进行PCR扩增,因此产生了一个采样问题。这导致相对较高的读段重复率,并增加了测序成本,但可能会有所改善。一种明显的解决方案是删除PCR步骤。这将消除采样,但也可以大大降低假阳性错误率和假阴性错误率。此外,诸如优化转座子之间的插入距离以及增加至配对末端200个碱基的测序读段的长度之类的改进应易于实现,并会增加覆盖范围和整体质量。对于某些应用,例如结构变异检测,可能需要使用更少的DNA和更少的覆盖范围。正如我们在本文中证明的那样,仅5Gb的序列覆盖率就可以忠实地检测染色体间和染色体内的易位,在这些情况下,重复率可忽略不计。实际上,stLFR可能代表临床环境中长配对(mate pair)文库的简单且经济高效的替代品。

另外,我们相信这种类型的数据可以使单个stLFR文库实现完整的二倍体从头组装,而无需长的物理读段,如由SMRT或纳米孔技术产生的那些。转座子插入的一个有趣特征是,它在相邻亚片段之间产生9个碱基序列的重叠。通常,对这些相邻的亚片段进行捕获和测序,使读段的合成长度加倍(例如,对于200个碱基的读段,两个相邻的捕获的亚片段会创建两个200个碱基的读段,重叠9个碱基,即391个碱基)。stLFR不需要像基于液滴的微流体方法那样的特殊设备,并且每个样本的成本最小。在本文中,我们证明了可以使用5000万个珠粒,但可以使用更多的珠粒。这将使许多类型的具有成本效益的分析成为可能,其中亿万个条形码将是有用的。我们设想这种廉价的大规模条形码可用于RNA分析,例如与单细胞技术结合对1000s细胞进行全长mRNA测序或对微生物样本中16S RNA进行深度群体测序。使用stLFR,也可以通过转座酶可及性染色质分析(ATAC-seq)(32)进行相角染色质作图或进行甲基化研究。

1.7靶核酸

如本文所使用,术语“靶核酸”(或多核苷酸)或“目的核酸”是指适用于通过本文所述方法加工和测序的任何核酸(或多核苷酸)。核酸可以是单链或双链的,并且可以包括DNA,RNA或其他已知的核酸。靶核酸可以是任何生物的核酸,包括但不限于病毒,细菌,酵母,植物,鱼类,爬行动物,两栖动物,鸟类和哺乳动物(包括但不限于小鼠,大鼠,狗,猫,山羊,绵羊,牛,马,猪,兔,猴子和其他非人类灵长类动物和人类)。靶核酸可获自个体或多个个体(即,群体)。从中获得核酸的样本可以包含来自细胞或甚至是生物体混合物的核酸,例如:包括人细胞和细菌细胞的人唾液样本;小鼠异种移植物,其包含小鼠细胞和移植的人类肿瘤细胞等。靶核酸可以不被扩增,或者可以通过本领域已知的任何合适的核酸扩增方法来扩增。靶核酸可以根据本领域已知的方法纯化,以去除细胞和亚细胞污染物(脂质,蛋白质,碳水化合物,除待测序的核酸以外的核酸等),或者它们可以不纯化,即至少包括一些细胞和亚细胞污染物,包括但不限于完整细胞,这些细胞被破坏以释放其核酸以进行加工和测序。靶核酸可以使用本领域已知的方法从任何合适的样本中获得。这些样本包括但不限于:组织,分离的细胞或细胞培养物,体液(包括但不限于血液,尿液,血清,淋巴液,唾液,肛门分泌物和阴道分泌物,汗液和精液);空气样本,农业样本,水样本和土壤样本等。靶核酸的非限制性示例包括“循环核酸”(CNA),其是在人血液或其他体液(包括但不限于淋巴液,脑脊液(liquor),腹水,乳液,尿液,粪便和支气管灌洗液)中循环的核酸,可以区分为无细胞(CF)核酸或与细胞相关的核酸(在Pinzani等人,Methods 50:302-307,2010中进行了综述)。

靶核酸可以是基因组DNA(例如,来自单个个体),cDNA,和/或可以是复合核酸,包括来自多个个体或基因组的核酸。复合核酸的实例包括微生物组,孕妇血液中的循环胎儿细胞(参见,例如,Kavanagh等人,J.Chromatol.B 878:1905-1911,2010),来自癌症患者血液中循环的肿瘤细胞(CTC)(参见,例如,Allard等人,Clin Cancer Res.10:6897-6904,2004)。另一个例子是来自单个细胞或少量细胞的基因组DNA,例如来自活检组织(例如,从胚泡滋养外胚层活检的胎儿细胞;来自实体瘤的针吸出的癌细胞等)。另一个例子是组织、血液或其他体液等中的病原体,例如细菌细胞,病毒或其他病原体。如本文所用,术语“复合核酸”是指大量不同的核酸或多核苷酸。在某些实施方案中,靶核酸是基因组DNA;外显子组DNA(富集转录序列的完整基因组DNA的子集,其中包含基因组中的一组外显子);转录组(即在细胞或细胞群中产生的所有mRNA转录物的集合,或从此类mRNA产生的cDNA);甲基化组(即甲基化位点的群体和基因组中甲基化的模式);外显子组(即通过外显子捕获或富集方法选择的基因组的蛋白质编码区域;微生物组;不同生物体的基因组混合物;生物体不同细胞类型的基因组混合物;以及包含大量不同核酸分子的其他复合核酸混合物(实例包括但不限于微生物组,异种移植物,包含正常细胞和肿瘤细胞的实体肿瘤活检等),包括上述类型的复合核酸的子集。在一实施方案中,这样的复合核酸具有包含至少一个千兆碱基(gigabase)(Gb)的完整序列(二倍体人基因组包含大约6Gb的序列)。

在某些情况下,靶核酸或第一片段是基因组片段。在一些实施方案中,基因组片段比10kb长,例如为10-100kb,10-500kb,20-300kb或长于100kb。在单个混合物中使用的DNA(例如人基因组DNA)的数量可以是<10ng,<3ng,<1ng,<0.3nm或<0.1ng的DNA。在某些情况下,靶核酸或第一个片段的长度为5000至100000KB。

1.8其他方法

尽管本文描述的工作实例使用聚合酶链反应,但是可以使用其他核酸扩增方法。进行适合于合适的扩增技术的修饰在本领域技术人员的能力范围内。

图17-B5示出了其他方法。图17显示了双链DNB的产生,其可以被转座子插入并被stLFR珠粒捕获。在同一条DNA链上可复制最多数千个拷贝(例如10-10000个拷贝,例如10-1000个拷贝或100-1000个拷贝)。这可以通过stLFR测序高覆盖原始分子。图18说明了当可获得有限量的模板DNA时,可以在stLFR之前使用有限的预扩增步骤。图19描述了一种方法,其中使用低浓度的随机切口酶,使用中等浓度的Klenow片段,以及使用高浓度的连接酶。珠粒和DNA的浓度适用于stLFR。当通过Klenow形成切口并向空位敞开时,连接立即发生,并将长片段锁定在珠粒上。允许进行切口,并打开更多的空位以使更多的衔接子连接在空位中。引物延伸产生约500个碱基对片段。将第二个衔接子连接至平末端,并对该文库进行测序。图20显示了发夹衔接子在长DNA上的连接,以及在环中使用引物和Ph29或类似的聚合酶在条形码化之前产生串联的dsDNA。除了提高每个分子的读段覆盖率之外,该方法的一个有趣结果是,在聚合酶反应0.5-3h结束时,每个串联体的总“长度”(碱基数)相似,与起始片段长度无关。这提供了使用具有对应于串联体大小的结合能力的条形码珠粒的选择,从而防止每个珠粒结合多个串联体。这将减少每个反应所需的珠粒数量,从而进一步降低成本。

图B5显示了一种中间长度标记的方法。在一种方法中,96种或更多种不同的条形码转座子通过接头部分(例如DNA,诸如糊精或聚乙二醇(PEG)的长惰性分子,或诸如角蛋白或胶原蛋白的长蛋白)在10个或更少的组连接。杂交和连接可用于将转座子连接至接头DNA。其他方法可以通过化学键或将亲和素连接到这些分子上,然后将生物素连接到转座子上。这实现了两件事,它控制转座子之间的插入距离,并提供中间读段的邻近信息(10kb或更小)。这对于分析重复序列(串联重复,三核苷酸作图等)很有用。如同本文和其他地方所述的其他stLFR方法一样,可以将包含插入序列的DNA捕获在珠粒上。参见Joseph C.Mellor等人,"Phased NGS Library Generation via Tethered Synaptic Complexes,"seqWell(2017),可获自万维网(http://)seqwell.com/wp-content/uploads/2017/02/seqWell_LongBow_poster_AGBT2017.pdf(最新访问时间为2018年5月16日)。

1.9第1部分的参考文献

1.K.Zhang et al.,Long-range polony haplotyping of individual humanchromosome molecules.Nat Genet 38,382-387(2006).

2.L.Ma et al.,Direct determination of molecular haplotypes bychromosome microdissection.Nat Methods 7,299-301(2010).

3.J.O.Kitzman et al.,Haplotype-resolved genome sequencing of aGujarati Indian individual.Nat Biotechnol 29,59-63(2011).

4.E.K.Suk et al.,A comprehensively molecular haplotype-resolvedgenome of a European individual.Genome Res 21,1672–1685(2011).

5.H.C.Fan,J.Wang,A.Potanina,S.R.Quake,Whole-genome molecularhaplotyping of single cells.Nat Biotechnol 29,51-57(2011).

6.B.A.Peters et al.,Accurate whole-genome sequencing and haplotypingfrom 10to 20human cells.Nature 487,190-195(2012).

7.J.Duitama et al.,Fosmid-based whole genome haplotyping of a HapMaptrio child:evaluation of Single Individual Haplotyping techniques.NucleicAcids Res 40,2041-2053(2012).

8.S.Selvaraj,R.D.J,V.Bansal,B.Ren,Whole-genome haplotypereconstruction using proximity-ligation and shotgun sequencing.Nat Biotechnol31,1111-1118(2013).

9.V.Kuleshov et al.,Whole-genome haplotyping using long reads andstatistical methods.Nat Biotechnol 32,261-266(2014).

10.S.Amini et al.,Haplotype-resolved whole-genome sequencing bycontiguity-preserving transposition and combinatorial indexing.Nat Genet 46,1343-1349(2014).

11.G.X.Zheng et al.,Haplotyping germline and cancer genomes withhigh-throughput linked-read sequencing.Nat Biotechnol,(2016).

12.F.Zhang et al.,Haplotype phasing of whole human genomes usingbead-based barcode partitioning in a single tube.Nat Biotechnol 35,852-857(2017).

13.B.A.Peters,J.Liu,R.Drmanac,Co-barcoded sequence reads from longDNA fragments:a cost-effective solution for"perfect genome"sequencing.Frontiers in genetics 5,466(2014).

14.R.Drmanac.Nucleic Acid Analysis by Random Mixtures of Non-Overlapping Fragments.WO 2006/138284 A2(2006).

15.R.Drmanac,Peters,B.A.,Alexeev,A.Multiple tagging of long DNAfragments.WO 2014/145820 A2(2014).

16.K.Jo,Y.L.Chen,J.J.de Pablo,D.C.Schwartz,Elongation and migrationof single DNA molecules in microchannels using oscillatory shear flows.LabChip 9,2348-2355(2009).

17.R.Drmanac et al.,Human genome sequencing using unchained basereads on self-assembling DNA nanoarrays.Science 327,78-81(2010).

18.T.Fehlmann et al.,cPAS-based sequencing on the BGISEQ-500 toexplore small non-coding RNAs.Clin Epigenetics 8,123(2016).

19.J.Huang et al.,A reference human genome dataset of the BGISEQ-500sequencer.Gigascience 6,1-9(2017).

20.S.S.T.Mak et al.,Comparative performance of the BGISEQ-500 vsIllumina HiSeq2500 sequencing platforms for palaeogenomicsequencing.Gigascience 6,1-13(2017).

21.H.Li,R.Durbin,Fast and accurate short read alignment with Burrows-Wheeler transform.Bioinformatics 25,1754-1760(2009).

22.A.McKenna et al.,The Genome Analysis Toolkit:a MapReduce frameworkfor analyzing next-generation DNA sequencing data.Genome Res 20,1297-1303(2010).

23.J.M.Zook et al.,Integrating human sequence data sets provides aresource of benchmark SNP and indel genotype calls.Nat Biotechnol 32,246-251(2014).

24.P.Edge,V.Bafna,V.Bansal,HapCUT2:robust and accurate haplotypeassembly for diverse sequencing technologies.Genome Res 27,801-812(2017).

25.Q.Mao et al.,The whole genome sequences and experimentally phasedhaplotypes of over 100personal genomes.Gigascience 5,1-9(2016).

26.Z.Dong et al.,Low-pass whole-genome sequencing in clinicalcytogenetics:a validated approach.Genet Med 18,940-948(2016).

27.Z.Dong et al.,Identification of balanced chromosomalrearrangements previously unknown among participants in the 1000GenomesProject:implications for interpretation of structural variation in genomesand the future of clinical cytogenetics.Genet Med,(2017).

28.J.Ghurye,M.Pop,S.Koren,D.Bickhart,C.S.Chin,Scaffolding of longread assemblies using long range contact information.BMC Genomics 18,527(2017).

29.M.Pendleton et al.,Assembly and diploid architecture of anindividual human genome via single-molecule technologies.Nat Methods 12,780-786(2015).

30.J.R.Dixon et al.,Topological domains in mammalian genomesidentified by analysis of chromatin interactions.Nature 485,376-380(2012).

31.A.M.Phillippy,M.C.Schatz,M.Pop,Genome assembly forensics:findingthe elusive mis-assembly.Genome biology 9,R55(2008).

32.J.D.Buenrostro,P.G.Giresi,L.C.Zaba,H.Y.Chang,W.J.Greenleaf,Transposition of native chromatin for fast and sensitive epigenomic profilingof open chromatin,DNA-binding proteins and nucleosome position.Nat Methods10,1213-1218(2013).

实施例

2.实施例1:方法和材料

2.1.高分子量DNA分离

按照RecoverEase

简要地,将约一百万个细胞沉淀并用500ul裂解缓冲液裂解。在4℃下孵育10分钟后,将20μL的在4mL消化缓冲液中的RNase-IT核糖核酸酶混合物(cocktail)直接添加到裂解的细胞中,并在50℃的加热块(heat block)上孵育。5分钟后,添加4.5mL蛋白酶K溶液(

2.2条形码珠粒构建

使用三组双链条形码DNA分子,通过基于分裂和合并池的策略构建条形码珠粒。见图12和13。将包含PCR引物退火位点的常见衔接子序列连接到带有5'双生物素接头的Dynabeads

本文所指的某些“条形码”是“三重条形码”(tripartate barcode)。三重是指它们的结构和/或它们的合成。如图12所示,可以通过连续连接较短的(例如4-20个核苷酸)序列来合成三重条形码。在一实施例中,较短的条形码的长度为10个碱基。如图所示,示例性结构包括CS1-BC1-CS2-BC2-CS3-BC3-CS4,其中CS是存在于所有捕获衔接子上的恒定序列,并且BC序列是如本文所述的多样化的10个碱基的条形码。如图所示,可以使用具有结构CSa-BC-CSb的部分双链寡核苷酸退火到较短的寡核苷酸(即BC的互补序列(即BC'))来构建三重条形码。

在一方面,本发明提供了一种组合物,其包含具有包含附着的克隆条形码的捕获寡核苷酸的珠粒,其中所述组合物包含超过30亿个不同的条形码,并且其中所述条形码是具有结构5'-CS1-BC1-CS2-BC2-CS3-BC3-CS4的三重条形码。在一些实施方案中,CS1和CS4比CS2和CS3更长。在一些实施方案中,CS2和CS3为4-20个碱基,CS1和CS4为5或10至40个碱基,例如20-30个碱基,并且BC序列的长度为4-20个碱基(例如10个碱基)。在一些实施方案中,CS4与夹板寡核苷酸互补。在一些实施方案中,组合物包含桥寡核苷酸。在一些实施方案中,该组合物包含桥寡核苷酸、包含如上所述的三重条形码的珠粒以及包含具有与桥寡核苷酸互补的区域的杂交序列的基因组DNA。

2.3使用两个转座子的stLFR

在55℃下,在60μL的10mM TAPS-NaOH(pH 8.5)、5mM MgCl

2.4具有3'分支连接衔接子的stLFR

该方法以相同的杂交插入条件开始,但是仅使用一个转座子而不是两个转座子。如上所述,在捕获和条形码连接步骤之后,将珠粒收集到管的侧面并用低盐洗涤缓冲液洗涤。将在100μL 1X TA缓冲液(Teknova,Hollister,CA)中的90单位核酸外切酶I(NewEngland Biolabs,Ipswich,MA)和100单位核酸外切酶III(New England Biolabs,Ipswich,MA)的衔接子消化混合物添加到珠粒上并在37℃下孵育10分钟。终止反应,并通过添加11μL的1%SDS除去Tn5酶。将珠粒收集到管的侧面,并用低盐洗涤缓冲液洗涤一次,再用1X NEB2缓冲液(New England Biolabs,Ipswich,MA)洗涤一次。通过添加在100uL的1XNEB2缓冲液(New England Biolabs,Ipswich,MA)中的10单位的UDG(New EnglandBiolabs,Ipswich,MA)和30单位的APE1(New England Biolabs,Ipswich,MA)并在37℃下孵育30分钟以除去过量的捕获寡核苷酸。将珠粒收集到管的侧面,并用高盐洗涤缓冲液洗涤一次,并用低盐洗涤缓冲液洗涤一次。在100uL的含50mM Tris-HCl(pH 7.8)、10mM MgCl

示例性的3'分支连接衔接子包含如表6中所示的3'分支连接衔接子-F(/5Phos/CTGATGGCGCGAGGGAGGC)和3'分支连接衔接子-R(TCGCGCCATCA/3'dd/G)寡核苷酸。例如,衔接子F序列包含PCR引物退火序列。可选地,在5'磷酸盐和所示序列之间可以包含条形码(例如样本条形码)。在该实施例中,衔接子R序列比引物退火序列短,使得其将在PCR引物退火的条件下熔解。

2.5序列映射和变异调用

首先,使用条形码分割工具(可从GitHub https://github.com/stLFR/stLFR_read_demux)通过关联的条形码序列对原始读段数据进行多路分解。使用BWA-MEM(2)将条形码分配和剪切的读段映射到hs37d5参考基因组。然后使用SAMtools(3)通过染色体坐标对生成的BAM文件进行排序,并使用picard MarkDuplicate函数(http://broadinstitute.github.io/picard)标记重复项。使用GATK4.0.3.0(4)中的HaplotypeCaller进行了短变异(SNP和indel)调用。然后使用rtgtools vcfeval函数(6)将上述步骤中生成的vcf文件与瓶中基因组(GIAB)高可信度变异列表(ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/latest/GRCh37/)(5)进行基准测试(benchmarked)。基准测试后,使用GATK VariantRecalibrator分析stLFR文库,并使用GIAB真值集训练高斯混合模型。然后使用GATK ApplyVQSR过滤VCF。在几乎所有情况下,将99.9批次(tranche)应用于原始vcfs,但100Gb stLFR-1文库和STD文库除外,其中应用了100批次。然后,我们根据表5中列出的GQ得分、参考深度与替代深度的比率以及条形码支持,建立并应用了进一步的硬过滤标准:

2.6使用Hapcut2进行变异定相

SNP使用Hapcut2(https://github.com/vibansal/HapCUT2)(7)使用其10XGenomics数据管道进行定相。首先将BAM文件转换为带有条形码信息的格式,该格式的信息与10X Genomics条形码BAM相似。具体来说,在每行中添加了一个“BX”字段,以反映该读段的条形码信息。GIAB变异或GATK为每个文库调用的变异用作定相的输入,并使用Hapcut2的calculate_haplotype_statistics.py工具汇总定相结果并将其与GIAB定相的vcf文件(5)进行比较。

2.7.LongHap

在LongHap的定相过程中使用种子(seed)扩展策略。它最初从一对种子开始,该种子由染色体中最上游的杂合变异组成。通过连接其他下游候选变异来扩展种子,直到不能再将其他变异添加到扩展种子中为止(图11)。在此扩展过程中,将不会同等处理位于不同基因座的候选变异(即,上游变异比整个染色体上的下游变异具有更高的优先级)。每两个杂合基因座沿两个不同的等位基因具有两个可能的组合。以变异T

2.8SV检测

如上所述,通过计算基因组区域之间的共享条形码来检测结构变异。首先删除重复的读段。使用沿着基因组的滑动窗口(默认值为2kb)扫描映射的共条形码读段,每个窗口记录在此2kb窗口中发现了多少条形码,并为窗口对之间的共享条形码比率计算了Jaccard指数。通过窗口对之间的Jaccard指数共享度量来识别结构变异事件。

对于基因组上的每个窗口对(X,Y),Jaccard指数计算如下:

X=(x

2.9使用SALSA的重叠群(contig)支架

来自stLFR文库的测序读段被用于支持包含18903个重叠群的NA12878组装体,其NG50为26.83Mb(9)(使用支架程序SALSA(10)从NCBI基因组网站下载的重叠群)。为模仿适合于SALSA的HiC序列结构,从大小>=5kb的片段中选择stLFR序列读段。从长度>=5kb的每个片段中,选择“第一个”和“最后一个”读段以形成一个读段对。随后,通过以2kb的间隔向内移动这些片段来选择这些人工读段对。然后将这些读段对映射到NA12878重叠群上,并用SALSA进行支架构建。然后使用MUMmer 4程序(11)的nucmer和dnadiff将得到的支架与hg19参考基因组进行比对并进行比较。

2.10实施例1的参考文献

1.I.Agent Technologies,RecoverEase DNA Isolation Kit.Revision C.0,(2015).

2.H.Li,R.Durbin,Fast and accurate short read alignment with Burrows-Wheeler transform.Bioinformatics 25,1754-1760(2009).

3.H.Li et al.,The Sequence Alignment/Map format andSAMtools.Bioinformatics 25,2078-2079(2009).

4.A.McKenna et al.,The Genome Analysis Toolkit:a MapReduce frameworkfor analyzing next-generation DNA sequencing data.Genome Res 20,1297-1303(2010).

5.J.M.Zook et al.,Integrating human sequence data sets provides aresource of benchmark SNP and indel genotype calls.Nat Biotechnol 32,246-251(2014).

6.J.G.Cleary et al.,Comparing Variant Call Files for PerformanceBenchmarking of Next-Generation Sequencing Variant Calling Pipelines.bioRxiv,(2015).

7.P.Edge,V.Bafna,V.Bansal,HapCUT2:robust and accurate haplotypeassembly for diverse sequencing technologies.Genome Res 27,801-812(2017).

8.F.Zhang et al.,Haplotype phasing of whole human genomes using bead-based barcode partitioning in a single tube.Nat Biotechnol 35,852-857(2017).

9.M.Pendleton et al.,Assembly and diploid architecture of anindividual human genome via single-molecule technologies.Nat Methods 12,780-786(2015).

10.J.Ghurye,M.Pop,S.Koren,D.Bickhart,C.S.Chin,Scaffolding of longread assemblies using long range contact information.BMC Genomics 18,527(2017).

11.S.Kurtz et al.,Versatile and open software for comparing largegenomes.Genome biology 5,R12(2004).

实施例2:详细实验方案

3.1材料

1Kb Plus DNA Ladder(ThermoFisher,货号10787018)

100Kd MWCO Biotech CE透析管(Spectrum Labs,货号131486)

384-孔Armadillo PCR板(ThermoFisher,货号AB2384)

APE 1(10000单位/mL)(New England Biolabs,货号M0282L)

ATP(100mM)(Teknova,货号A1210)

条形码化珠粒构建寡核苷酸(IDT)(见注释)

甜菜碱(5M)(Sigma-Aldrich,货号B0300-5VL)

BSA(20mg/mL)(New England Biolabs,货号B9000S)

通用衔接子寡核苷酸(IDT)

DMF(~100%)(Sigma-Aldrich,货号D4551-250ML)

DMSO(100%)(Sigma-Aldrich,货号D9170-5VL)

dNTPs(25mM)(ThermoFisher,货号R1121)

透析管(1000kD MWCO)(Spectrum Laboratories,Inc.,货号131486)

DTT(Sigma-Aldrich,货号11583786001)

Dynabeads

EDTA(0.5M,pH 8.0)(Sigma-Aldrich,货号03690-100ML)

核酸外切酶I(20000单位/mL)(New England Biolabs,货号M0293L)

核酸外切酶III(100000单位/mL)(New England Biolabs,货号M0206L)

甲酰胺(100%,250mL)(Sigma-Aldrich,货号47671-250ML-F)

甘油(100%)(Sigma-Aldrich,货号G5516-100ML)

KCl(Sigma-Aldrich,货号P9333-1KG)

KH

KOH(Sigma-Aldrich,货号P5958-1KG)

MgCl

MgSO

MicroAmp透明粘性封板膜(ThermoFisher,货号4306311)

NaCl(5M)(ThermoFisher,货号AM9760G)

Na

NaOH(10M)(Sigma-Aldrich,货号72068-100ML)

NEB2缓冲液(10X)(New England Biolabs,货号B7002S)

PEG-8000(50%)(Rigaku,货号1008063)

Pfu Turbo Cx Hotstart DNA聚合酶(Agilent,货号600414)

蛋白酶K,重组,PCR级溶液(14-22mg/mL)(Roche,货号03115844001)

RiboRuler Low Range RNA Ladder(Thermofisher,货号SM1831)

RNase-IT核糖核酸酶混合物(Agilent,货号400720)

SDS(10%)(ThermoFisher,货号15553027)

蔗糖(Sigma-Aldrich,货号S7903-1KG)

T4 DNA连接酶(2x10

TA缓冲液(10X)(Teknova,货号T0379)

TAPS-NaOH(1M,pH 8.5)(Boston BioProducts,货号BB-2375)

TBE(10X)(ThermoFisher,货号15581028)

TE缓冲液(10X)(Fisher Scientific,货号BP24771)

Tn5酶

转座子寡核苷酸(IDT)

Tris-HCl(1M,pH 7.5)(ThermoFisher,货号15567027)

Tris-HCl(2M,pH 7.8)(Amresco,货号J837-500ML)

Triton

UDG(5,000单位/mL)(New England Biolabs,货号M0280L)

3.2设备

2.4L高聚苯乙烯容器(tall polystyrene container)(Click Clack,货号659030)或等同物

DynaMag

Easy 50EasySep

可容纳管式旋转器/旋转器的实验室烤箱

磁力板搅拌器

中型磁力搅拌棒

标准实验室涡旋振荡器

Tetrad PCR热循环仪(Bio-Rad,货号PTC0240)或等同物,每孔反应体积可达到100μL

管式旋转器/旋转器(Thermo Fisher,货号88881001)或等同物

3.3试剂设置

退火缓冲液(3X)

3mL的1M Tris-HCl,pH 7.5

6mL的5M NaCl

91mL的无菌dH

在室温下储存1年。

3.4缓冲液D(10X)

224mg的KOH

50μL的0.5M EDTA

2.45mL的无菌dH

分装并在-20℃下储存1个月。

3.5偶联缓冲液(1X)

5mL的1X TE

5mL的100%甘油

在-20℃下储存1年。

3.6消化缓冲液(1X,pH 8.0)

1.75g的Na

0.2g的KCl

0.2g的KH

27.4mL 5M NaCl

20mL的0.5M EDTA(pH 8.0)

800mL的无菌dH

用1M NaOH调节pH至8.0。

添加无菌dH

过滤除菌。

在室温下储存1年。

3.7 3’分支连接缓冲液(3X)

6mL的50%PEG-8000

0.75mL 2M Tris-HCl(pH 7.8)

0.3mL 1M MgCl

0.3mL 0.1M ATP

15μL 1M DTT

75μL 20mg/mL BSA

2.560mL的无菌dH

在-20℃下储存1年。

3.8高盐珠粒结合缓冲液(1X)

5mL的1M Tris-HCl(pH7.5)

6mL的5M NaCl

20μL的0.5M EDTA

88.98mL的无菌dH

在室温下储存1年。

3.9高盐洗涤缓冲液(1X)

5mL的1M Tris-HCl,pH 7.5

10mL的5M NaCl

20μL的0.5M EDTA

0.5mL的10%

84.48mL的无菌dH

在室温下储存1年。

3.10杂交缓冲液(1X)

50mL的1M Tris-HCl,pH 7.5

100mL的1M MgCl

5mL的10%

845mL水

在室温下储存1年。

3.11连接缓冲液(10X)

25mL的50%PEG-8000

12.5mL的2M Tris-HCl(pH 7.8)

5mL的100mM ATP

5mL的1M MgCl

2.5mL的无菌dH

在-20℃下储存1年。

3.12连接缓冲液,无MgCl

25mL的50%PEG-8000

12.5mL的2M Tris-HCl(pH 7.8)

5mL的100mM ATP

5mL的1M DTT

2.5mL的无菌dH

在-20℃下储存1年。

3.13低盐洗涤缓冲液(1X)

5mL的1M Tris-HCl,pH 7.5

3mL的5M NaCl

0.5mL的10%

91.5mL的无菌dH

在室温下储存1年。

3.14裂解缓冲液(1X,pH 8.3)

0.22g的KCl

120g的蔗糖

13mL的1M Tris-HCl(pH 7.5)

2mL的0.5M EDTA(pH 8.0)

28mL的5M NaCl

10mL的

800mL的无菌dH

调节pH至8.3

添加无菌dH

过滤除菌。

在4℃储存1年。

3.15转座酶缓冲液(5X)

0.5mL的1M TAPS-NaOH(pH 8.5)

0.25mL的1M MgCl

5mL的100%DMF

4.25mL的无菌dH

在-20℃下储存1年。

3.16PfuCx混合物(2X)

2mL的10X PfuCx缓冲液(包含酶)

0.5mL的100%DMSO

2mL的5M甜菜碱

60μL的1M MgSO

240μL的25mM dNTPs

5.2mL的无菌dH

3.16条形码化珠粒构造寡核苷酸

所有条形码化的寡核苷酸均通过标准脱盐法以100nmol规模在384孔格式中合成,并由Integrated DNA Technologies(Coralville,IA)以200μM的浓度在1X TE(pH 8.0)中递送。每个条形码集共有1536个独特的条形码寡核苷酸,并且有3个条形码集。这使多达36亿种不同的条形码组合成为可能。这对于某些应用可能是不必要的,并且通过订购更少的寡核苷酸板可以实现更少的条形码组合。这种特殊的设计确实需要使用每组中至少一个条形码寡核苷酸来产生适当的最终序列,但是,可以对条形码组之间的6个碱基重叠序列进行轻微的修饰,以去除整个条形码组。

3.2程序

从细胞中分离高分子量DNA

此方法基于RecoverEase

1.在15或50mL锥形管中沉淀多达1×10

2.通过合并250μL的10%SDS、250μL的蛋白酶K和4mL的1X TE来制备蛋白酶K溶液。放在50℃的加热块上,短暂加热(

3.通过将20μL RNase-It核糖核酸酶混合物与4mL消化缓冲液混合来制备消化液。

4.将约4mL制备的消化溶液添加至步骤1的裂解的细胞和缓冲液中,并轻轻摇动锥形管。

5.5分钟后,将锥形管置于50℃的加热块中,向自由漂浮的沉淀物中添加4.5mL加热的蛋白酶K溶液。轻轻旋转锥形管以使其混合。

6.重新盖上管并在50℃的加热块中孵育2小时,每30分钟轻轻旋转管。

7.切开约13cm的透析管(其容量约为1mL/cm)。允许在0.5X TE中平衡30分钟。用透析夹密封一端。

8.将至少1L的0.5X TE缓冲液倒入透析池中。

9.小心地将粘性基因组DNA从锥形管倒入透析管的开口端。用透析夹密封透析管的开口端。将浮子(float)固定在一个夹子上。将带有浮子的透析管放入透析池中。

10.在室温下将基因组DNA透析24至48小时,同时用磁力搅拌棒轻轻搅拌缓冲液。在透析期间更换一次TE缓冲液,以最大限度地提高回收DNA的纯度。

11.完成透析后,从TE缓冲液中取出透析管,从透析管的顶部取出浮子和夹子,然后轻轻倒入15mL锥形管中。DNA无需剪切即可立即使用。

3.3条形码化的珠粒

使用3组双链条形码DNA分子的分裂和合并策略构建条形码珠粒。通过连续的连接构建全长衔接子(图12和图13)。条形码寡核苷酸提供在384孔板中(请参阅“试剂说明”)。常见的衔接子寡核苷酸提供在管中。取决于所使用的测序技术,可能有必要在常见衔接子寡核苷酸内改变PCR引物序列。

12.将来自源384孔板的每个孔的10μL互补寡核苷酸在384孔PCR板中与10μL 3X退火缓冲液混合。在8孔PCR联管的一个孔中混合30μL常见衔接子寡核苷酸。

13.在PCR热循环仪上于70℃孵育3分钟,然后缓慢地以0.1℃/s的速度升至20℃。杂交条形码寡核苷酸的终浓度为66μM。

14.将含有5'双生物素的4.725mL(157.5μmol)杂交的珠粒接头与3.225mL的连接缓冲液(10X)、460.8μL(921,600单位)的T4DNA连接酶和9.67mL dH

15.将11.2μL的连接混合物分配到四个新的384孔PCR板的每个孔中。然后将来自杂交的第一个条形码板的每个孔的8.8μL(580pmol)添加至包含珠粒接头连接混合物的每个孔中。用MicroAmp透明粘性封板膜密封,涡旋,离心,在室温下孵育1小时。

16.通过将50mL珠粒转移到空的50mL离心管中,收集1000亿(143mL)M-280链霉亲和素包被的磁珠粒。将带有珠粒的50mL管放在Easy 50EasySep

17.将5μL在高盐珠粒结合缓冲液中的珠粒分配到含有连接产物的板的每个孔中。在分配过程中,偶尔使珠粒源管涡旋以保持珠粒良好悬浮。

18.用MicroAmp透明粘性封板膜密封板,涡旋,并置于管旋转器上,在室温下以“振荡”模式孵育1小时。

19.以300x g的速度离心板5秒钟,以从密封件上去除珠粒,但不允许形成小球。去除密封并在每个孔中添加2.8μL 0.1%SDS。再次用MicroAmp透明粘性封板膜密封板,短暂涡旋并在室温下孵育10分钟。

20.涡旋振荡,然后将板以300x g离心5秒以从板密封件上去除珠粒。从每个板上取下密封件,然后将板倒置到收集盘上。以500x g离心2分钟。使用10毫升血清移液管,将珠粒收集到一个新的50毫升管中。

21.将珠粒收集到Easy 50EasySep

22.将5ul珠粒分配到四个新的384孔PCR板的每个孔中。在分配过程中,偶尔使珠粒源管涡旋以保持珠粒良好悬浮。

23.为了连接第二组条形码,使包含3.225mL连接缓冲液(10X)、460.8μL(921,600单位)的T4DNA连接酶和6.33mL dH

24.重复步骤18-22。

25.为了连接第三组条形码,使包含3.225mL连接缓冲液(10X)、460.8μL(921600单位)的T4DNA连接酶和6.33mL dH

26.重复步骤18-22。珠粒现在可以在4℃下储存最高一年。以目前的形式,珠粒几乎完全是双链的,还没有以正确的形式用于stLFR。

27.用血细胞计数器计数珠粒并取出500万个珠粒用于QC步骤。将带有珠粒的管放置在DynaMag

3.20 stLFR的珠粒制备

为了制备用于stLFR的珠粒,必须首先将它们变性成单链DNA,然后与桥寡核苷酸再杂交。

28.将来自上一部分的步骤26的5亿个构建的条形码珠粒移液到标准的1.5mL微量离心管中。

29.放置在DynaMag

30.添加1mL的缓冲液D的1X稀释液。短暂涡旋并在室温下孵育2分钟。

31.放置在DynaMag

32.再重复一次步骤30和31。

33.在1X退火缓冲液中洗涤一次。放置在DynaMag

34.混合36μL的100μM桥寡核苷酸(Bridge Oligo)、333.33μL的退火缓冲液(3X)和630.67μL的dH

35.在60℃下孵育5分钟,并且在室温下孵育50分钟。

36.放置在DynaMag

3.21两个转座子stLFR实验方案

该实验方案利用两个转座子沿着基因组DNA分子的长度产生杂交序列和PCR引物位点。这是最简化和最快的stLFR方法,但与3'分支连接实验方案相比,每个长DNA片段的覆盖范围可能减少50%。为了与BGISEQ-500以外的测序技术兼容,可能有必要在嵌合区之后改变一些转座子序列。订购这些寡核苷酸之前,检查所使用的测序引物。有关所有寡核苷酸序列的信息可在补充材料中获得。

37.通过将10μL转座子1T(100μM)、10μL转座子B(100μM)、10μL退火缓冲液(3X)合并到8孔PCR联管的第一个孔中,使捕获的转座子寡核苷酸杂交。通过将10μL的转座子1T(100μM)、10μL的转座子B(100μM)、10μL的退火缓冲液(3X)合并到同一PCR联管的第二个孔中,使未捕获的转座子寡核苷酸杂交。

38.在PCR热循环仪上在70℃下孵育3分钟,然后以0.1℃/s的慢速升温至20℃。将两个转座子合并到PCR联管的第三个孔中。

39.通过将9.6μL的混合转座子与23.53μL的Tn5(13.6pmol/μL)和46.87μL的偶联缓冲液(1X)合并,将Tn5酶偶联至转座子混合物。

40.在30℃下孵育1小时。立即使用或在-20℃下储存最多1个月。为了获得最佳性能和各实验之间的一致性,我们建议在储存前进行等分。

41.通过在8孔联管的一个孔中合并12μL转座酶缓冲液(5X)、0.5μL的来自步骤40的偶联的转座子和40ng DNA,总体积为60μL,将转座子掺入到长基因组DNA中。注意:可以在此步骤中调整DNA的该量和偶联转座子的该量。由于各批次之间可能存在差异,因此有必要滴定Tn5酶的使用量。同样,以较少的DNA起始是可能的,但出于滴定的目的,使用40ng有用,以便某些材料可以在琼脂糖凝胶上电泳以确定转座子掺入的效率(请参阅后面的步骤)。

42.在55℃下孵育10分钟。

43.将40μL掺入转座子的材料转移至新的8孔联管的一个孔中。加入4μL的1%SDS,并在室温下孵育10分钟。

44.将来自步骤43的材料上样在0.5X TBE 1%琼脂糖凝胶上,并在150V下运行40分钟。转座的DNA在凝胶上应介于200至1500bp之间。我们通常希望看到600bp左右的DNA涂片中最亮的部分,根据所选择的测序技术,这可能有所不同。我们通常会加载经过相同步骤但缺少转座子、Tn5酶或基因组DNA的对照。如果转座子整合产物的大小看起来正确,继续执行步骤45。否则,重复上述步骤,但要调整偶联产物的浓度,直到涂片达到所需大小为止。

45.用248.5μL的1x杂交缓冲液稀释1.5μL步骤42的剩余产物。

46.将来自步骤36的50μL珠粒(5000万)转移至1.5mL微量离心管中。放置在DynaMag

47.在60℃下分别加热DNA和珠粒30秒。

48.将250μL的稀释的DNA添加到250μL的珠粒中,用手指轻击管底部轻轻混合,然后在60℃下继续孵育10分钟。每隔几分钟用手指轻轻混匀管。

49.放置在管旋转器上,以“振荡”模式在45℃的烤箱中孵育50分钟。

50.通过合并100μL的连接缓冲液、无MgCl

51.在室温下以“振荡”模式在管旋转器上孵育1小时。

52.向管中加入110μL的1%SDS,并在室温下孵育10分钟。

53.放置在DynaMag

54.通过合并10μL NEB2缓冲液(10X)、2μL UDG(5,000U/mL)、3μL APE1(10000U/mL)、2μL核酸外切酶1(20000单位/mL)和83μL dH

55.轻轻涡旋以重悬珠粒并在37℃温育30分钟。

56.放在DynaMag

57.通过添加150μL PCR混合物(2X)、4μL PCR引物1(100μM)、4μL PCR引物2(100μM)、6μL PfuCx酶和136μL dH

58.轻轻涡旋以重悬珠粒并在以下条件下循环PCR反应:

59.PCR应当产生约500ng的DNA,将20ng的产物在0.5X TBE 1%琼脂糖凝胶上在150V下运行40分钟。该材料应为涂片,其峰在500bp左右。

60.按照制造商的实验方案,用300μL的Agencourt XP珠粒纯化PCR产物。现在,此纯化的产物已准备好进入测序过程。

单转座子3’分支连接stLFR实验方案

该实验方案基于DNA切口中的单转座子插入和新颖的衔接子连接方法,并且可以使每个片段具有更高的覆盖率,这对于某些测序策略(例如从头组装)可能是重要的。由于添加了其他试剂,该策略稍微贵一些。它也需要花费2.5个小时以上。

61.通过将10μL转座子1T(100μM)、10μL转座子B(100μM)、10μL退火缓冲液(3X)合并到8孔PCR联管的第一个孔中,使捕获的转座子寡核苷酸杂交。通过将10μL BranchT(100μM)、10μL BranchB(100μM)、10μL退火缓冲液(3X)合并到同一PCR联管的第二个孔中,使空位连接衔接子杂交。

62.在PCR热循环仪上在70℃下孵育3分钟,然后以0.1℃/s的慢速升温至20℃。

63.通过在步骤61中将9.6μL的杂交捕获转座子与23.53μL的Tn5(13.6pmol/μL)和46.87μL的偶联缓冲液(1X)合并,将Tn5酶偶联至转座子。

64.在30℃下孵育1小时。立即使用或在-20℃下储存最多1个月。

65.执行步骤41-51。

66.放置在DynaMag

67.通过合并10μL TA缓冲液(10X)、4.5μL核酸外切酶I(20000U/mL)、1μL核酸外切酶III(100000U/mL)和74.5μL dH

68.轻轻涡旋以重悬珠粒,并在“振荡”模式下于37℃在管旋转器上孵育10分钟。

69.添加11μL的1%SDS,并在室温下孵育10分钟。

70.放置在DynaMag

71.通过合并10μL NEB2缓冲液(10X)、2μL UDG(5000U/mL)、3μL APE1(10000U/mL)和85μL dH

72.轻轻涡旋以重悬珠粒并在37℃下孵育30分钟。

73.放置在DynaMag

74.通过合并33.4μL的3'分支连接缓冲液(3X)、18μL的在步骤61中制备的3'分支连接衔接子(16.7μM)、2μL的T4 DNA连接酶(2x10

75.轻轻涡旋以重悬珠粒,并在“振荡”模式下于25℃在管式旋转器上孵育2小时。

76.放置在DynaMag

77.通过添加150μL的2X PCR缓冲液、4μL的PCR引物1(100μM)、4μL的PCR引物2(100μM)、6μL的PCR酶和136μL的dH

78.轻轻涡旋以重悬珠粒并在以下条件下循环PCR反应:

79.执行上面的步骤59-60。

3.4分析stLFR数据

7此过程的起点是FASTQ文件。这是大多数测序技术生成的读段数据的标准格式。我们用于对条形码信息进行反卷积的软件将获取FASTQ文件,并期望将条形码的42个碱基和通用衔接子序列附加到第一次读段的末尾。它将条形码读段的数据与每个条形码位置上的预期1536个序列进行匹配。stLFR使用的条形码策略可以对具有单个碱基不匹配的条形码进行错误校正。我们软件的最终输出是一个FASTQ文件,其中条形码信息以#Barcode1ID_Barcode2ID_Barcode3ID格式附加在读段ID的末尾,其中BarcodeID是从0-1536开始的数字。条形码ID为零表示它与任何预期的条形码序列都不匹配。我们建议使用BWA-mem27进行映射,使用GATK28进行变异调用,并使用HapCUT229进行定相。我们还建议使用诱饵序列映射到Hg19。

3.5实施例2的参考文献

1 Zhang,K.et al.Long-range polony haplotyping of individual humanchromosome molecules.Nat Genet 38,382-387(2006).

2 Ma,L.et al.Direct determination of molecular haplotypes bychromosome microdissection.Nat Methods 7,299-301(2010).

3 Kitzman,J.O.et al.Haplotype-resolved genome sequencing of aGujarati Indian individual.Nat Biotechnol 29,59-63(2011).

4 Suk,E.K.et al.A comprehensively molecular haplotype-resolved genomeof a European individual.Genome Res 21,1672–1685(2011).

5 Fan,H.C.,Wang,J.,Potanina,A.&Quake,S.R.Whole-genome molecularhaplotyping of single cells.Nat Biotechnol 29,51-57(2011).

6 Peters,B.A.et al.Accurate whole-genome sequencing and haplotypingfrom 10 to 20 human cells.Nature 487,190-195(2012).

7 Duitama,J.et al.Fosmid-based whole genome haplotyping of a HapMaptrio child:evaluation of Single Individual Haplotyping techniques.NucleicAcids Res 40,2041-2053(2012).

8 Selvaraj,S.,J,R.D.,Bansal,V.&Ren,B.Whole-genome haplotypereconstruction using proximity-ligation and shotgun sequencing.Nat Biotechnol31,1111-1118(2013).

9 Kuleshov,V.et al.Whole-genome haplotyping using long reads andstatistical methods.Nat Biotechnol 32,261-266(2014).

10 Amini,S.et al.Haplotype-resolved whole-genome sequencing bycontiguity-preserving transposition and combinatorial indexing.Nat Genet 46,1343-1349(2014).

11 Zheng,G.X.et al.Haplotyping germline and cancer genomes with high-throughput linked-read sequencing.Nat Biotechnol(2016).

12 Zhang,F.et al.Haplotype phasing of whole human genomes using bead-based barcode partitioning in a single tube.Nat Biotechnol 35,852-857(2017).

13 Peters,B.A.,Liu,J.&Drmanac,R.Co-barcoded sequence reads from longDNA fragments:a cost-effective solution for"perfect genome"sequencing.Frontiers in genetics 5,466(2014).

14 Drmanac,R.Nucleic Acid Analysis by Random Mixtures of Non-Overlapping Fragments.WO 2006/138284 A2(2006).

15 McElwain,M.A.,Zhang,R.Y.,Drmanac,R.&Peters,B.A.Long Fragment Read(LFR)Technology:Cost-Effective,High-Quality Genome-Wide MolecularHaplotyping.Methods Mol Biol 1551,191-205(2017).

16 Schaaf,C.P.et al.Truncating mutations of MAGEL2 cause Prader-Williphenotypes and autism.Nat Genet 45,1405-1408(2013).

17 Peters,B.A.et al.Detection and phasing of single base de novomutations in biopsies from human in vitro fertilized embryos by advancedwhole-genome sequencing.Genome Res 25,426-434(2015).

18 Ciotlos,S.et al.Whole genome sequence analysis of BT-474 usingcomplete Genomics'standard and long fragment read technologies.Gigascience 5,8(2016).

19 Hellner,K.et al.Premalignant SOX2 overexpression in the fallopiantubes of ovarian cancer patients:Discovery and validationstudies.EBioMedicine10,137-149(2016).

20 Mao,Q.et al.The whole genome sequences and experimentally phasedhaplotypes of over 100 personal genomes.Gigascience 5,1-9(2016).

21 Gulbahce,N.et al.Quantitative Whole Genome Sequencing ofCirculating Tumor Cells Enables Personalized Combination Therapy ofMetastatic Cancer.Cancer Res 77,4530-4541(2017).

22 Walker,R.F.et al.Clinical and genetic analysis of a rare syndromeassociated with neoteny.Genetics In Medicine(2017).

23 Mao,Q.et al.Advanced Whole-Genome Sequencing and Analysis of FetalGenomes from Amniotic Fluid.Clinical chemistry(2018).

24 Drmanac,R.,Peters,B.A.,Alexeev,A.Multiple tagging of individuallong DNA fragments.WO 2014/145820 A2(2013).

25 Picelli,S.et al.Tn5 transposase and tagmentation procedures formassively scaled sequencing projects.Genome Res 24,2033-2040(2014).

26 Agent Technologies,I.RecoverEase DNA Isolation Kit.Revision C.0(2015).

27 Li,H.&Durbin,R.Fast and accurate short read alignment withBurrows-Wheeler transform.Bioinformatics 25,1754-1760(2009).

28 McKenna,A.et al.The Genome Analysis Toolkit:a MapReduce frameworkfor analyzing next-generation DNA sequencing data.Genome Res 20,1297-1303(2010).

29 Edge,P.,Bafna,V.&Bansal,V.HapCUT2:robust and accurate haplotypeassembly for diverse sequencing technologies.Genome Res 27,801-812(2017).

来自最近的Chromium数据集的BAM文件“NA12878_WGS_v2_phased_possorted_bam.bam”是从10X Genomics网站下载的,并以与stLFR文库相同的方式进行处理。对于过滤结果,我们使用了来自同一Chromium文库的VCF文件“NA12878_WGS_v2_phased_variants.vcf.gz”。该VCF包含通过10X Genomics优化管道处理的数据。从10X Genomics网站复制了Chromium文库的片段大小。10Genomics使用长度加权平均值计算片段大小,该片段大小可能会大于平均片段大小。

表6示出了可以在本文描述的stLFR方法中使用的示例性序列。

实施例3:3'分支连接,一种将DNA连接到DNA或RNA的3'OH末端的新方法及其应用

4.1引言

该实施例通常描述3'分支连接。在本文所述的stLFR实施方案中,3′分支连接用于添加额外的衔接子(3′分支连接衔接子)。参见例如§1.1.2。

连接酶连接核酸的断裂,这对于细胞的生存力和活力至关重要。DNA连接酶催化DNA末端之间的磷酸二酯键的形成,并在体内DNA修复、重组和复制中发挥关键作用。RNA连接酶通过磷酸二酯键加入5'-磷酰基(5'PO4)和3'-羟基(3'OH)RNA末端,并参与RNA修复、剪接和编辑。来自所有三个生物界的生物体(细菌,古细菌和真核生物)都可以在体外用作重要的分子工具,用于克隆、基于连接酶的扩增或检测、合成生物学等应用。

体外最广泛使用的连接酶之一是噬菌体T4 DNA连接酶,它是单个55-kDA多肽,需要ATP作为能源。T4 DNA连接酶通常会连接双链DNA的相邻5'PO4和3'OH末端。除了密封切口或连接粘性末端外,T4 DNA连接酶还可以有效催化平末端连接,这在所有其他DNA连接酶中均未见。先前已报道了这种连接酶的一些异常催化特性,例如密封双链DNA中的单链空位,密封双链DNA(dsDNA)中无碱基位点附近的切口,促进部分双链DNA的分子内环形成以及连接含有3'分支延伸的DNA链。(Nilsson and Magnusson,Nucleic Acids Res 10:1425–1437,1982;Goffin等人,Nucleic Acids Res 15:8755–8771,1987;Mendel-Hartvig等人,Nucleic Acids Res.32:e2,2004;Western and Rose,Nucleic Acids Res.,19:809–813,1991)。研究人员还观察到由T4连接酶介导的模板非依赖性连接,例如dsDNA中错误配对的切口密封(Alexander,2003,Nucleic Acids Res.2003Jun 15;31(12):3208-16)甚至单链DNA(ssDNA)连接,尽管效率非常低(H.Kuhn,2005,FEBS J.2005Dec;272(23):5991-6000)。这些结果表明,对于某些非常规的T4 DNA连接酶活性,并非迫切需要在连接接合点处或附近的完美互补碱基配对。T4 RNA连接酶1和2分别是T4噬菌体基因63和24的产物。它们都需要相邻的5'PO4和3'OH末端才能成功地将ATP水解为AMP和PPi。T4 RNA连接酶1的底物包括单链RNA和DNA,而T4 RNA连接酶2优先密封dsRNA上的切口,而不是连接ssRNA的末端。

在此,我们证明了由T4 DNA连接酶介导的非常规末端连接事件,我们将其称为3'-分支连接(3'BL)。它可以在切口、单链空位或5’-突出端区域连接DNA或DNA/RNA片段,形成分支结构。该报告广泛研究了各种连接辅因子和激活剂,并优化了这种新颖连接的连接条件。使用我们的3’BL实验方案,不需要碱基配对,即使存在1nt的空位,连接也可以完成90%以上。其应用之一是在NGS文库制备中将衔接子连接到DNA或RNA。以前被认为无法连接的几个基因组结构现在可以成为3'BL的底物,从而在避免嵌合体的情况下,将输入DNA转化为衔接子连接的分子的转化率很高。我们证明了3’BL可以与转座子插入结合。我们提出的定向转座子插入策略理论上可以产生100%可用于测序的模板。microRNA应用。我们的研究证明了这种新颖技术对NGS文库制备的价值,以及促进许多其他分子应用(如放射性标记RNA的3'末端)的潜力。

4.2 3'分支连接,一种连接DNA末端的新颖方法

通常,DNA连接涉及粘性或平末端片段的5'PO4和3'OH DNA末端的连接。粘性末端连接通常比平末端连接更快,并且对酶浓度的依赖性较小。噬菌体T4 DNA连接酶可以催化这两个过程,而噬菌体T4 DNA连接酶使用ATP作为产生能量的辅因子,并且需要Mg

为了优化连接效率,我们广泛测试了影响一般连接效率的许多因素,包括衔接子::DNA底物比率,T4连接酶量,最终ATP浓度,Mg

我们还将研究扩展到不同的衔接子和底物序列(图22)。三种不同衔接子(Ad-T,Ad-A或Ad-GA)的5'PO4末端在共有的CTGCTGA序列连接之前包含一个T或A或二核苷酸GA。将它们分别连接到受体模板的3'OH末端,并在连接接合处带有T。总体而言,使用Ad-T和Ad-A观察到,除切口连接外,在所有情况下均比Ad-GA具有更高的连接效率(70-90%)(图22),表明T4DNA连接酶在连接接合点处的某些核苷酸偏好。尽管有衔接子和底物序列,但5'突出端或3'分支连接始终显示出更高的效率(60-90%),而孵育1小时后,切口连接效率相当低。我们假设这些连接效率的差异是由于DNA弯曲所致,即在切口/空位/突出端开始时DNA弯曲,并暴露了3'OH基团进行连接。较长的ssDNA区域可能会使3'末端更易于连接,并导致更高的连接效率。我们还测试了5'分支连接是否可能发生类似的末端接合事件。相比之下,未观察到在空位或3'突出端的平末端衔接子与5'PO4末端的明显连接,表明T4 DNA连接酶在供体5'末端的三级结构要求可能比3'末端更严格。

4.3.3’分支连接,将DNA连接至RNA的新颖方法

我们进一步研究了在DNA/RNA杂合体(ON21/22)上的3'BL,其形成1个DNA和1个RNA5’-突出端(图23a)。阴性连接对照包括DNA/RNA杂合体,ssDNA或ssRNA寡核苷酸,单独或与衔接子一起孵育(图23b中的泳道3、4和5)。有趣的是,将DNA/RNA杂合体与衔接子一起孵育时,我们看到RNA寡核苷酸的大小从原始的29nt变为49nt,效率>90%,这表明T4 DNA连接酶可以有效地将衔接子连接到RNA。然而,DNA底物保持不变(图23b中的泳道1和2)。这表明平末端DNA衔接子在5'-DNA突出端连接到RNA的3'端,但5'-RNA突出端连接到DNA的3'端。为了确认3’BL所需得5’突出端结构,我们进行了相同的连接反应,用另一个长DNA模板(ON23)替代了原来的DNA寡核苷酸(ON21),该模板不与ON22 RNA互补。毫不奇怪,使用ON23 DNA模板未观察到任何连接,表明3’BL仅在5’-突出端时才能发生。我们的发现表明,T4 DNA连接酶具有某些底物偏好,这可能是由于蛋白质-底物结合亲和力的差异引起的。

先前的研究表明,T4 DNA连接酶和T4 RNA连接酶2,而不是T4RNA连接酶1,可以将5'PO

4.4定向转座子插入文库的构建

由于已经证明3'分支连接对于将衔接子高效连接到几个基因组结构是有用的,因此我们探索了其在NGS工作流程中的应用。基于转座子的文库构建方法省时,比传统的NGS文库制备消耗更少的输入DNA。但是,使用基于商业转座子的文库制备系统,只有一半的标记分子两侧是两个不同的衔接子序列,而标记的DNA两侧是自我互补区域,它们可能形成稳定的发夹结构,从而可能会破坏测序质量(Gorbacheva,2015,Biotechniques Apr;58(4):200–202)。此外,PCR介导的衔接子序列掺入不适用于全基因组亚硫酸氢盐测序,也不适用于无PCR的NGS文库构建。

为了克服这些限制,我们针对结合3’BL的基于转座子的NGS文库构建开发了新的实验方案。Tn5和MuA转座子均通过“剪切和粘贴”机制工作,其中转座子衔接子序列末端连接到靶DNA的5'末端,在基因组DNA的3'末端分别产生9bp或5bp的空位(图24)。然后,使用3’BL在空位处向基因组DNA的3’末端添加另一个衔接子序列,以完成定向衔接子的连接。我们比较了3’BL方法和双转座子插入方法的效率,后者使用两种不同的基于Tn5的衔接子TnA和TnB。将人基因组DNA与单独的TnA转座体复合物或等摩尔量的TnA和TnB转座体复合物一起孵育。TnA转座体片段化产物进一步用于带有平末端衔接子AdB的3’BL,后者与TnB共享一个共同的衔接子序列。使用分别设计用于TnA和AdB/TnB衔接子的两种引物Pr-A和Pr-B进行的PCR扩增显示了相似的PCR产量(图4b,泳道9和10,以及图4c),表明这两种方法具有相同的效率。当仅使用一种对TnA或AdB/TnB衔接子具有特异性的引物时,未观察到明显的扩增(图4b和图4c)。如预期的那样,由于PCR抑制,与仅单独使用TnA或TnB转座体复合物的转座子插入反应相比,3'-连接方法和双转座子插入方法均显示出明显更高的PCR效率(图24b,泳道3和泳道8,以及图24c)。

4.5材料与方法

双链DNA的3'分支连接

用于3’BL的底物由2pmol ON1或ON9与4pmol的一种或两种另外的寡核苷酸在pH8Tris-EDTA(TE)缓冲液(Life Technologies)中混合而成。底物1和5(切口):ON1/2/3和ON9/10/11;底物2和6(1bp的空位):ON1/2/4和ON9/10/12;底物3(8bp空位):ON1/4/5;底物4和9(5'突出端):ON1/2和ON9/10;底物7(2bp空位):ON9/10/13;底物8(3bp空位):ON9/10/14;平末端对照:ON1/6(图1,补充表1)。使用2400单位的T4连接酶(Enzymatics Inc)在3'BL缓冲液[0.05mg/ml BSA(New England Biolabs),50mM Tris-Cl pH7.8(Amresco),10mMMgCl

DNA/RNA杂交的3'分支连接

3’BL的底物由10pmol ON22 RNA寡核苷酸与2pmol ON21或ON23DNA寡核苷酸混合而成。对于T4 DNA连接酶介导的3’BL,如上所述,将底物与Ad-T(ON15/16)在3’BL缓冲液中孵育,并在37℃孵育1小时。使用T4 RNA连接酶1或2在它们自己的1x RNA连接酶缓冲液(NEB)和20%DMSO中进行3’BL。所有的连接产物均在6%变性聚丙烯酰胺凝胶上测定。

定向转座子插入文库的构建

用于该实验的转座子寡核苷酸由Sangon Biotech合成。对于使用TnA和TnB进行的两个转座子实验,将TnA、TnB和MErev寡核苷酸以1:1:2的比例退火。对于使用tn1的单转座子实验,将tn1和MErev以1:1的比例进行退火。

通过混合15pmol的预退火衔接子、7ul Tn5转座酶(Vazemy)和5.5ul甘油进行转座体组装,以获得20ul反应物,将其在30℃下孵育1小时。在包含100ng gDNA、TAG缓冲液(Vazyme)和2ul组装的转座体的20ul反应物中进行基因组DNA的转座子插入(Coriell19240)。将反应在55℃下温育10分钟,然后添加100ul的PB缓冲液(Qiagen)以从加标签的DNA中去除转座体复合物,并使用Agencourt AMPure XP珠粒(Beckman Coulter)纯化。在含有100pmol衔接子、600U的T4 DNA连接酶(Enzymatics Inc.)和3'BL缓冲液的反应物中在25℃下孵育1小时,将AdB(ONB1,ONB2)与标签DNA进行3'分支连接。使用AMPure XP珠粒纯化反应。标记和空位连接的DNA的PCR扩增是在50ul反应物中进行的,反应物中包含2ul标记或空位连接的DNA、TAB缓冲液、1ul TruePrep扩增酶(Vazyme)、200mM dNTPs(Enzymatics Inc.)和引物Pr-A和Pr-B各400mM。标记反应如下进行:在72℃下运行3分钟;98℃运行30秒;8个循环的98℃10秒钟、58℃30秒钟、72℃2分钟;和72℃10分钟延伸。使用相同的程序进行空位连接反应,但没有进行在72℃3分钟的最初延伸。使用AMPure XP珠粒以单步大小选择或通过双分级分离纯化PCR反应。使用Qubit高灵敏度DNA试剂盒(Invitrogen)对纯化的产物进行定量。

实施例4:3'分支连接:一种将非互补DNA连接到DNA或RNA的凹陷或内部3'OH末端的新颖方法

核酸连接酶是在合成、修复和重组过程中修复DNA或RNA中的断裂的关键酶。利用DNA/RNA连接酶的多种活性,已经开发出各种分子工具。但是,其他的连接酶活性仍有待发现。在本文中,我们证明了T4 DNA连接酶具有非常规的能力,可以将5'磷酸化的平末端双链DNA连接到3'凹陷末端、空位或切口处的DNA断裂处,形成3'分支结构。因此,这种与碱基配对无关的连接称为3’分支连接(3’BL)。在类似于平末端连接的最佳连接条件的广泛研究中,连接缓冲液中10%PEG-8000的存在显著提高了连接效率。使用不同的合成DNA在连接位点观察到一些核苷酸偏爱,这表明3'BL的连接偏向水平。此外,我们发现T4 DNA连接酶可将DNA有效连接至DNA/RNA杂合体中RNA的3'末端,而RNA连接酶在此反应中效率较低。T4 DNA连接酶的这些新特性可以在许多重要应用中用作广泛的分子技术。我们对下一代测序(NGS)文库构建的新方向性标记实验方案进行了概念验证研究,该实验方案消除了反向衔接子,并允许样本条形码与基因组DNA相邻插入。从理论上讲,单转座子标记后的3’BL可以获得100%的可用模板,我们的经验数据表明,与传统的双转座子或Y转座子标记相比,新方法产生了更高的产量。我们进一步探讨了3’BL在制备靶向RNA NGS文库中的潜在用途,该文库具有减小的基于结构的偏差和衔接子二聚体问题。

5.1引言

连接酶修复核酸中的断裂,并且该活性对于细胞生存力和活力是必不可少的。DNA连接酶催化DNA末端之间的磷酸二酯键的形成,并在体内的DNA修复、重组和复制中发挥关键作用1-3。RNA连接酶通过磷酸二酯键连接5'-磷酰基(5'PO4)和3'-羟基(3'OH)RNA末端,并参与RNA修复、剪接和编辑4。来自所有三个生物界(细菌,古细菌和真核生物)的连接酶都可以在体外用作重要的分子工具,用于克隆、基于连接酶的扩增或检测以及合成生物学等应用5-7。

体外使用最广泛的连接酶之一是噬菌体T4 DNA连接酶,它是需要ATP作为能源的单一55-kDA多肽8。T4DNA连接酶通常连接双链DNA的相邻的5'PO4和3'OH末端。除了密封切口和连接粘性末端,T4 DNA连接酶还可以有效催化平末端连接,这是其他任何DNA连接酶都未观察到的9,10。先前已报道了这种连接酶的一些不同寻常的催化特性,例如密封双链DNA中的单链空位,密封双链DNA(dsDNA)中无碱基位点附近的切口,促进部分双链DNA形成分子内环以及连接含有3'分支延伸的DNA链11-13。研究人员还观察到由T4连接酶介导的模板非依赖性连接,例如dsDNA14或甚至单链DNA(ssDNA)连接中错误配对的切口密封,尽管效率非常低15。这些结果表明,对于某些非常规的T4 DNA连接酶活性,并不需要在连接接合处或附近的完美互补碱基配对。T4 RNA连接酶1和2分别是T4噬菌体基因63和24的产物。两者都需要相邻的5'PO4和3'OH末端才能成功连接,同时ATP水解为AMP和PPi。T4 RNA连接酶1的底物包括单链RNA和DNA,而T4 RNA连接酶2优先密封dsRNA上的切口,而不是连接ssRNA的末端16,17。

在此,我们证明了由T4 DNA连接酶介导的非常规末端连接事件,我们将其称为3'-分支连接(3'BL)。这种方法可以在切口、单链空位或3'凹陷末端连接DNA或DNA/RNA片段以形成分支结构。该报告包括对各种连接辅因子和激活剂的广泛研究,以及对这种新颖连接的连接条件的优化。使用我们的3’BL实验方案,不需要碱基配对,在大多数情况下,包括1nt的空位,连接可以达到70-90%的完成率。此方法的一种应用是在NGS文库制备过程中将衔接子连接到DNA或RNA。现在可以将以前被认为无法连接的几种基因组结构用作3’BL的底物,从而在避免嵌合体的情况下,将输入DNA转化为衔接子连接的分子的转化率很高。我们证明3’BL可以与转座子标签化结合使用,以提高文库产量。我们提出的定向标记策略在理论上将产生100%可用于测序的模板。我们的研究证明了这种新颖技术对于NGS文库制备的价值以及推动许多其他分子应用的潜力。

5.2结果:3'分支连接,一种连接DNA末端的新颖方法

通常,DNA连接涉及粘性或平末端片段的5'PO4和3'OH DNA末端的连接。与平末端连接相比,粘性末端连接通常更快,对酶浓度的依赖性较小。这两个过程都可以被噬菌体T4DNA连接酶催化,该酶使用ATP作为产生能量的辅因子并需要Mg

为了优化连接效率,我们广泛测试了许多影响一般连接效率的因素,包括衔接子:DNA底物比率,T4连接酶数量,最终ATP浓度,Mg

连接供体(Ad-G)在一端(5'磷酸化和3'双脱氧保护)是双链的,在另一端(3'双脱氧保护)是单链(图26)。连接底物由相同的底部链(ON1)和不同的顶部链组成,以构成切口、空位和突出结构。为了定量连接产物的产率,将反应产物在6%变性聚丙烯酰胺凝胶上分离(图26b)。使用ImageJ将连接效率计算为产物与底物强度的比率(图26b-c)。3'-凹陷连接(图26b中的泳道11)似乎完成约90%,甚至高于平末端连接对照(第14泳道,72.74%),并表明与3'-凹陷DNA末端的连接效率非常高。1-nt或8-nt的空位底物(第5泳道和第8泳道)显示出约45%的良好连接效率。切口连接(泳道2)效率最低,约为13%。然而,当切口连接反应孵育更长的时间时,该连接产率得到改善,表明切口连接反应的动力学较慢。

我们也将研究扩展到不同的衔接子和底物序列(图27)。三种不同衔接子(补充表1中的Ad-T,Ad-A或Ad-GA)的5'PO4末端在共有CTGCTGA序列之前的连接接合点处包含单个T或A或二核苷酸GA。将这些5'PO4末端分别连接到受体模板的3'OH末端,并在连接接合点处加上T。总体而言,在大多数情况下,除了切口连接或使用Ad-GA进行的3'BL以外,都观察到了很高的连接效率(70-90%)(图27f),因此表明T4 DNA连接酶在连接接合点处有一些核苷酸偏爱。独立于衔接子和底物序列,在1小时的孵育中,3'凹陷末端或空位连接始终显示出更高的效率(60-90%),而切口连接效率很低。我们假设这些连接效率的差异是由于DNA弯曲所致,即在切口/空位/突出端开始时DNA弯曲,并暴露了3'OH基团进行连接。较长的ssDNA区域可能会使3'末端更易于连接,并导致更高的连接效率。我们还测试了5'分支连接是否可能发生类似的末端连接事件。与3'BL相比,没有观察到在空位或5'凹陷末端处平末端衔接子与5'PO4末端的明显连接。这一结果表明,供体5'端的T4DNA连接酶的空间位阻大于3'端。

5.3:3'分支连接以将DNA连接至RNA

我们进一步研究了DNA/RNA杂合体(表3中的ON-21/ON-23)上的3'BL,其形成一个DNA和一个RNA 5’-突出端(图28a)。DNA/DNA杂合体上的连接用作阳性对照,而阴性连接对照包括单独或与衔接子一起孵育的DNA/RNA杂合体、ssDNA或ssRNA寡核苷酸(图28c中的泳道3、4和5)。有趣的是,当DNA/RNA杂合体与平末端dsDNA供体一起孵育时,我们观察到连接后RNA寡核苷酸的大小从原来的29nt变为49nt。然而,DNA底物保持不变(图28c中的泳道1和2)。该结果表明平末端dsDNA供体在3′-凹陷DNA末端与RNA的3′-末端连接,但不在3′-凹陷RNA末端与DNA的3′-末端连接。作为阳性对照,每侧都具有3'凹陷末端的DNA/DNA杂合体显示出两条链上带向较大物质的带移(band shift)的效率接近100%。为了确认3'BL需要3'凹陷结构,我们进行了相同的连接反应,同时用另一个长的DNA模板(ON-23)代替了原始的DNA寡核苷酸(ON-21),而该模板不与ON-22RNA互补(图28b)。毫不奇怪,使用ON-23DNA模板没有观察到连接(图28c中的泳道10-13)。我们的发现表明,T4 DNA连接酶可以促进DNA/RNA杂合体上的3’BL,并且这种活性具有一定的空间底物偏好,这可能会受到T4 DNA连接酶与底物结合亲和力差异的影响。

先前的研究报道,当互补链是RNA而不是DNA时,为了密封DNA/RNA杂合体中的切口,T4 DNA连接酶和T4 RNA连接酶2而非T4 RNA连接酶1,可以有效地将5'PO4 DNA末端连接到并置的3'OH DNA或RNA末端17。因此,我们在20%DMSO(图28d)或10%PEG中使用T4 RNA连接酶1和2进行了相同的连接测试。在这两个测试中,T4 RNA连接酶1和T4 RNA连接酶2将平末端衔接子与DNA/RNA杂合体中RNA的3'末端轻微连接。值得注意的是,在仅RNA的对照中,T4 RNA连接酶2可以将平末端dsDNA衔接子连接至ssRNA。总之,T4 DNA连接酶而非T4 RNA连接酶能够有效地通过3’BL将平末端dsDNA连接至RNA的3’端。

5.4定向标记文库的构建

因为3’BL可用于高效地将衔接子连接到多个基因组结构,所以我们探索了其在NGS工作流程中的应用。与传统的NGS文库制备相比,基于转座子的文库构建速度快,消耗的输入DNA更少。但是,使用基于商业转座子的文库制备系统,只有一半的标记分子侧接两个不同的衔接子序列(图29a),而标记的DNA侧接可能形成稳定发夹结构并损害测序质量的自互补区域20。此外,PCR介导的衔接子序列掺入尚未适合全基因组亚硫酸氢盐测序或无PCR的NGS文库构建。

为了克服这些限制,我们通过掺入3’BL为基于转座子的NGS文库开发了新的实验方案。Tn5和MuA转座子均通过“剪切和粘贴”机制起作用,在该机制中,转座子衔接子序列末端连接到靶DNA的5'末端,分别在基因组DNA的3'-末端产生9-bp或5-bp的空位(图29a)。随后,可将3’BL用于在空位处向基因组DNA的3’末端添加另一个衔接子序列,以完成定向衔接子的连接(图29c)。我们在此手稿中使用了Tn5转座子来将单标签+3'BL方法的效率(图29c)与双标签方法的效率(图29a)比较,双标签方法使用两种不同的基于Tn5的衔接子TnA和TnB,以及与使用包含两个不同衔接子序列的Y衔接子的另一种定向单标签策略的效率(图29b)比较。将人基因组DNA与等摩尔量的TnA和TnB转座子复合物,或与单独的TnA转座体复合物,或与TnY(TnA/B)转座体复合物一起孵育。

仅TnA转座体片段化的产物进一步用作平末端衔接子AdB的3’BL模板,后者与TnB共享一个共同的衔接子序列。使用两个引物Pr-A和Pr-B进行PCR扩增,分别设计为识别TnA和AdB/TnB衔接子。定量数据表明,与TnA&TnB和TnY(TnA/B)相比,TnA&AdB的效率最高(图29d)。当仅使用一种对TnA衔接子具有特异性的引物时,未观察到明显的扩增(图29d)。如预期的那样,由于PCR抑制,TnA-3’BL方法,双重标签方法和TnY方法均显示出比仅单独使用TnA或TnB转座体复合物的标签反应显著更高的PCR效率(图29d)。

我们还使用BGISEQ-500对这些文库进行了测序,并比较了转座子干扰端、3'BL端和常规TA连接端之间的碱基位置偏差(图30)。显然,3’BL端的位置偏差小于Tn5端的位置偏差(图30a-b),这是因为3’BL端受转座子中断和3’BL的影响。因为仅3'BL末端的前6nt(位置1-6)显示出碱基偏差,并且偏差与杂交Tn5末端(在9-nt突出端之后的位置30-35)相似但不完全相同,我们认为在3'BL末端观察到的位置偏差主要是由Tn5转座子引起的。因此,3’BL引起最小的偏差并且类似于常规的TA连接(图30c)。

5.5讨论

T4 DNA连接酶的一个重要特性是它可以有效连接平末端的dsDNA21,22,而其他DNA连接酶则没有观察到这种连接。据报道,这种连接酶还介导一些非常规的催化事件,例如在双链DNA中连接单链空位或碱基错配11,12,由部分双链DNA形成茎环分子13,或以不依赖模板的方式低效地连接ssDNA 20。

在此,我们证明了T4 DNA连接酶催化平末端dsDNA与带有切口的dsDNA的3'OH末端的连接以及带有切口或5’-突出端的部分单链双链DNA的连接。相反,未观察到与5'PO4末端在5'凹陷末端或空位中的连接,这表明在与dsDNA衔接子的5'PO4末端结合后,在DNA弯曲时,T4 DNA连接酶可以进入3'凹陷末端。使用我们的3’BL方法,不需要碱基配对,即使在1nt的空位下,使用优化的条件也可以实现超过70%的完成率。然而,对于将5’T、A或GA连接至3’T(图2),观察到不同的连接效率,这表明在连接接合处有一些序列偏好。尽管公认的连接偏差23,但在NGS文库制备过程中,T4 DNA连接酶通常用于衔接子添加步骤。T4连接酶具有执行3’BL的能力,可以将衔接子连接到以前认为无法连接的几个基因组结构,从而提高了模板使用率。3’BL也可以与转座子标签结合。传统的双转座子策略只有50%的标记分子适合随后的扩增步骤。但是,当使用一个转座子和随后的3'BL进行DNA标记时,可以获得在每个插入端具有不同衔接子的分子的产量增加(图4)。此外,带有标签的3’BL产品可以直接装载到Illumina的流通池中作为无PCR的WGS文库,而使用双转座子策略很难做到这一点。

已经提出了其他定向转座子实验方案,其使用由两个不同的衔接子序列组成的Y转座子或用第二个衔接子寡核苷酸替换单个转座子的未连接链,然后进行空位填充和连接24。但是,这些方法继续保留了反向的衔接子序列,无法像标记的-3’BL实验方案那样在基因组DNA附近插入样本条形码。根据NGS数据,连接3'BL的基因组末端也显示具有位置碱基组成偏差的位置更少,并且第一个6-nt偏差较为轻微,主要是由转座子中断(interruption)引起的,这表明3'BL具有最小的位置偏差。使用这种新的文库构建方法,Wang等人成功地在WGS中实现了高度准确和完整的变异调用,并将变异近乎完美地定相为N50大小高达23.4Mb的长重叠群,可用于长片段读取(BioRxiv,https://doi.org/10.1101/324392)。

在这项研究中,我们还使用形成5'DNA和5'RNA突出端的嵌合DNA/RNA双链体的模板研究了3'BL(图3)。出乎意料的是,平末端的dsDNA被有效地连接到RNA的3'末端,而不是DNA,这表明T4连接酶具有三元复合物形成偏好。如果使用T4 RNA连接酶I或II连接末端,则连接效率会大大降低。3’BL与T4 DNA连接酶的另一个初步但重要的应用是mRNA的富集或靶向RNA文库的构建,特别是对于miRNA,miRNA是小的调控性RNA,其表达失控导致许多疾病25,26。因此,我们的3’BL技术可以很容易地应用于使用miRNA的癌症和阿尔茨海默氏病的检测。与靶向Poly(A)尾部或特定miRNA序列的DNA探针杂交可用于创建具有DNA 5’-突出端的DNA-RNA杂合体,然后通过3'BL连接到带有样本和/或UID条形码的衔接子序列。然后可以将这些通用序列逆转录,以产生靶向RNA序列的cDNA。与目前的miRNA捕获技术相比,由T4DNA连接酶介导的3’BL的使用可能为NGS RNA文库的构建提供一些优势。首先,与DNA链杂交将阻止RNA链形成二级结构,因此可减轻其他实验方案引入的偏差。其次,T4 DNA连接酶可通过3'BL实现高效衔接子添加,从而避免了RNA连接酶可促进的分子内RNA相互作用。第三,可以有效消除衔接子二聚体,可能使不必要的凝胶纯化变得不必要。这种新方法可以通过简单且可扩展的工作流程改善无偏微RNA表达谱,因此,大规模的研究将变得更加经济实惠。

该研究的发现增加了对T4 DNA连接酶活性的日益了解。我们预见3'分支连接将成为分子生物学中的通用工具,它将推动新的DNA工程方法的开发超越已描述的NGS应用。

5.6材料与方法

双链DNA的3'分支连接

3'BL的底物由2pmol的ON1或ON9与4pmol的一种或两种另外的寡核苷酸在pH8Tris-EDTA(TE)缓冲液(Life Technologies)中混合而成,如下:底物1和5(切口),ON-1/2/3和ON-9/10/11;底物2和6(1-nt空位),ON1/2/4和ON9/10/12;底物3(8-nt空位),ON1/4/5;底物4和9(5'突出端),ON1/2和ON9/10;底物7(2-nt空位),ON9/10/13;底物8(3-nt空位),ON9/10/14;平末端对照,ON1和ON6(图26,补充表1)。使用2400单位的T4连接酶(EnzymaticsInc.)在3'BL缓冲液[0.05mg/ml BSA(New England Biolabs),50mM Tris-Cl pH 7.8(Amresco),10mM MgCl

DNA/RNA杂交的3'分支连接

3’BL的底物由10pmol ON-21RNA寡核苷酸与2pmol ON-21或ON-23DNA寡核苷酸混合而成。对于T4 DNA连接酶介导的3′BL,如上所述,将底物与Ad-T(ON15/16)在3′BL缓冲液中孵育,并在37℃孵育1小时。在1x RNA连接酶缓冲液(NEB)与20%DMSO或25%PEG中使用T4RNA连接酶1或2进行3’BL。所有的连接产物均在6%变性聚丙烯酰胺凝胶上测定。

定向标记文库构建

用于该实验的转座子寡核苷酸由Sangon Biotech合成。对于使用TnA/TnB进行的两个转座子实验,将TnA(ON24)、TnB(ON25)和MErev(ON26)的寡核苷酸以1:1:2的比例退火。对于使用TnA的单转座子实验,将ON24和ON26以1:1的比例退火。对于Y(TnA&TnB)转座子实验,ON24和ON27以1:1的比例退火。

通过将100pmol的预先退火的衔接子、7μL的Tn5转座酶和足够的甘油混合以获得总20μL的反应物,并将其在30℃下孵育1小时,进行转座子组装。基因组DNA(Coriell12878)的标记是在20μL反应物中进行的,反应物中包含100ng gDNA、TAG缓冲液(自制)和1μL组装的转座子。将反应在55℃下孵育10分钟;然后加入40μL 6M盐酸胍(Sigma)从标记的DNA中除去转座子复合物,并使用Agencourt AMPure XP珠粒(Beckman Coulter)纯化DNA。在含有100pmol衔接子、600U T4 DNA连接酶(Enzymatics Inc.)和3'BL缓冲液的反应中,在25℃将AdB(ON28和ON29)与带标签的DNA进行空位连接1小时。使用AMPure XP珠粒纯化反应。标记和空位连接的DNA的PCR扩增是在50μL反应物中进行的,反应物包含2μL标签化或空位连接的DNA、TAB缓冲液、1μL TruePrep扩增酶(Vazyme)、200mM dNTPs(Enzymatics Inc.)和引物Pr-A和Pr-B各400mM。标记反应如下孵育:72℃3分钟;98℃30秒;8个循环的:98℃10秒,58℃30秒和72℃2分钟;和72℃10分钟延伸。使用相同的程序进行空位连接的反应,但没有进行在72℃3分钟的最初延伸。使用AMPure XP珠粒纯化使用prA(ON30)或prA和prB(ON31)的PCR反应。使用Qubit高灵敏度DNA试剂盒(Invitrogen)对纯化的产物进行定量。

5.6实施例4的参考文献

1.Lehnman,I.R.DNA ligase:structure,mechanism,and function.Science(80-.).186,790-797(1974).

2.Tomkinson,A.E.&Mackey,Z.B.Structure and function of mammalian DNAligases.Mutat.Res.Repair 407,1–9(1998).

3.Timson,D.J.,Singleton,M.R.&Wigley,D.B.DNA ligases in the repair andreplication of DNA.Mutat.Res.Repair 460,301–318(2000).

4.Ho,C.K.,Wang,L.K.,Lima,C.D.&Shuman,S.Structure and mechanism of RNAligase.Structure 12,327–339(2004).

5.Tomkinson,A.E.,Vijayakumar,S.,Pascal,J.M.&Ellenberger,T.DNAligases:structure,reaction mechanism,and function.Chem.Rev.106,687–699(2006).

6.Pascal,J.M.DNA and RNA ligases:structural variations and shared mechanisms.Curr.Opin.Struct.Biol.18,96–105(2008).

7.Shuman,S.DNA ligases:progress and prospects.J.Biol.Chem.284,17365–17369(2009).

8.Dickson,K.S.,Burns,C.M.&Richardson,J.P.Determination of the free-energy change for repair of a DNA phosphodiester bond.J.Biol.Chem.275,15828–15831(2000).

9.Cai,L.,Hu,C.,Shen,S.,Wang,W.&Huang,W.Characterization ofbacteriophage T3 DNA ligase.J.Biochem.135,397–403(2004).

10.

11.Nilsson,S.V&Magnusson,G.Sealing of gaps in duplex DNA by T4 DNAligase.Nucleic Acids Res.10,1425–1437(1982).

12.Goffin,C.,Bailly,V.&Verly,W.G.Nicks 3′or 5′to AP sites or tomispaired bases,and one-nucleotide gaps can be sealed by T4 DNAligase.Nucleic Acids Res.15,8755–8771(1987).

13.Mendel-Hartvig,M.,Kumar,A.&Landegren,U.Ligase-mediatedconstruction of branched DNA strands:a novel DNA joining activity catalyzedby T4 DNA ligase.Nucleic Acids Res.32,e2–e2(2004).

14.Alexander,R.C.,Johnson,A.K.,Thorpe,J.A.,Gevedon,T.&Testa,S.M.Canonical nucleosides can be utilized by T4 DNA ligase as universaltemplate bases at ligation junctions.Nucleic Acids Res.31,3208–3216(2003).

15.Kuhn,H.&Frank-Kamenetskii,M.D.Template-independent ligation ofsingle-stranded DNA by T4 DNA ligase.FEBS J.272,5991–6000(2005).

16.Ho,C.K.&Shuman,S.Bacteriophage T4 RNA ligase 2(gp24.1)exemplifiesa family of RNA ligases found in all phylogeneticdomains.Proc.Natl.Acad.Sci.99,12709–12714(2002).

17.Bullard,D.R.&Bowater,R.P.Direct comparison of nick-joiningactivity of the nucleic acid ligases from bacteriophage T4.Biochem.J.398,135–144(2006).

18.Broude,N.E.,Sano,T.,Smith,C.L.&Cantor,C.R.Enhanced DNA sequencingby hybridization.Proc.Natl.Acad.Sci.91,3072–3076(1994).

19.Gunderson,K.L.et al.Mutation detection by ligation to complete n-mer DNA arrays.Genome Res.8,1142–1153(1998).

20.Gorbacheva,T.,Quispe-Tintaya,W.,Popov,V.N.,Vijg,J.&Maslov,A.Y.Improved transposon-based library preparation for the Ion Torrentplatform.Biotechniques 58,200(2015).

21.Sgaramella,V.&Khorana,H.G.CXII.Total synthesis of the structuralgene for an alanine transfer RNA from yeast.Enzymic joining of the chemicallysynthesized polydeoxynucleotides to form the DNA duplex representingnucleotide sequence 1 to 20.J.Mol.Biol.72,427–444(1972).

22.SGARAMELLA,V.&EHRLICH,S.D.Use of the T4 Polynucleotide Ligase inThe Joining of Flush-Ended DNA Segments Generated by RestrictionEndonucleases.FEBS J.86,531–537(1978).

23.Seguin-Orlando,A.et al.Ligation bias in illumina next-generationDNA libraries:implications for sequencing ancient genomes.PLoS One 8,e78575(2013).

24.Goryshin,I.,Baas,B.,Vaidyanathan,R.&Maffitt,M.Oligonucleotidereplacement for di-tagged and directional libraries.(2016).

25.Bushati,N.&Cohen,S.M.microRNA functions.Annu.Rev.Cell Dev.Biol.23,175–205(2007).

26.Mallory,A.C.&Vaucheret,H.Functions of microRNAs and related smallRNAs in plants.Nat.Genet.38,S31(2006).

尽管已经参考特定方面和实施方案公开了本发明,但是显而易见的是,本领域的其他技术人员可以设计本发明的其他实施方案和变型而不脱离本发明的真实精神和范围。

为了美利坚合众国的所有目的,在本公开中引用的每个出版物和专利文件都通过引用并入本文,就好像每个这样的出版物或文件都被具体地和单独地指出通过引用并入本文。引用出版物和专利文件无意于表明任何此类文件都是相关的现有技术,也不构成对其内容或日期的承认。

表1B

表2.支架统计(Scaffolding statistics)

表3

表4

表5

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号