首页> 中国专利> GRAMC:顺式调节模块的基因组规模报道子测定方法

GRAMC:顺式调节模块的基因组规模报道子测定方法

摘要

本文公开了用于功能性调节元件的报道子核酸的文库以及用于构建和使用这种文库的方法和试剂盒。示例的文库、方法和试剂盒可用于功能性调节元件的高通量检测、鉴别和/或定量。

著录项

  • 公开/公告号CN112996927A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 罗格斯新泽西州立大学;

    申请/专利号CN201980072431.X

  • 发明设计人 J·南;

    申请日2019-10-30

  • 分类号C12Q1/686(20060101);C12Q1/6855(20060101);C12Q1/6853(20060101);

  • 代理机构72002 永新专利商标代理有限公司;

  • 代理人王健;林晓红

  • 地址 美国新泽西州

  • 入库时间 2023-06-19 11:27:38

说明书

相关申请的交叉参考

本申请要求于2018年10月31日提交的美国临时申请号62/753,608的权益,其全部内容并入本文作参考。

发明领域

本申请提供了报道子核酸的文库,例如功能性调节元件,以及用于构建和使用这种文库的方法和试剂盒。

发明背景

顺式调节模块(CRM),如增强子、启动子和阻抑物是基因组中的功能元件。据估计,有几十万的CRM散布于人基因组中(Niu,et al.Nucleic acids research 46.11(2018):5395-5409;Visel,et al.Nature 461.7261(2009):199;ENCODE ProjectConsortium.Nature 489.7414(2012):57)。由于CRM调节基因表达的时间、地点和水平,因此CRM几乎参与了每个生物过程。各个CRM直接与多种转录因子相互作用,多种CRM组合起作用以介导基因调节活性(Davidson.The Regulatory Genome,Elsevier(2006);Levine,etal.Cell 157.1(2014):13-25;De Laat,et al.Nature 502.7472(2013):499)。对这些元件进行综合实验鉴别是一个挑战。

鉴别CRM的标准报道子测定是在基础启动子和报道基因上游克隆候选CRM,及检验其驱动报道基因表达的能力(Rosenthal,Methods in enzymology 152(1987):704-720;Arnone,et al.Methods in cell biology 74.(2004):621-652;Banerji,et al.Cell27.2(1981):299-308)。相同的报道子构建体可以监测CRM如何响应基因扰动(Nam,etal.PLoS One7.4(2012):e35934)和转录结合位点中的突变(Damle,et al.Developmentalbiology 357.2(2011):505-517;de-Leon,et al.PNAS USA 107.22(2010):10103-10108;Cui,et al.Cell reports 19.2(2017):364-374;Emison,et al.Nature 434.7035(2005):857;Guerreiro,et al.PNAS USA 110.26(2013):10682-10686)。然而,这种常规的逐个报道子测定不适于分析基因组中包含的数百万种潜在CRM(例如高通量分析)。已经尝试了一些高通量分析,但是可能会有偏差。

发明概述

本发明公开了构建核酸分子报道子文库的方法,以及使用本文公开的方法产生的核酸分子报道子文库。与在标准报道子测定的情况一样,所公开的基因组规模报道子测定方法对于增强子和启动子都是有效的。所述测定还可以容纳长DNA插入物,从而可以筛选完整CRM而不是部分CRM。过量基因组覆盖和DNA条形码增加实验成本,而不足的基因组覆盖和DNA条形码导致数据可靠性降低。然而,在本文公开的文库和方法中,文库中的基因组覆盖和DNA条形码的数目是可调的。最后,与现有方法相比,本发明的测定方法使用可比或更少的输入材料即可生成可再现的数据。

在一些实施方案中,构建核酸分子报道子文库的方法包括分离选择的大小范围(例如大小范围为100-3000个碱基对长、例如约750-850个碱基对长)的多个核酸分子(例如基因组DNA或合成DNA),将所述多个分离的核酸分子与至少一个线性衔接子序列(如包括至少两个连续核糖核苷酸的衔接子,两侧是在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸)连接,以形成包含插入物(分离的核酸分子)和衔接子的多个环状核酸分子,将所述多个环状核酸分子与酶在足以产生多个线性核酸分子的条件下接触,并将所述多个线性核酸分子与至少一个报道子核酸融合以产生多个报道子构建体,形成核酸分子报道子文库。

可以使用任何核酸分子,包括基因组DNA(例如基因组DNA片段)或合成DNA。在一些实例中,所述核酸是得自感兴趣的细胞或细胞群的基因组DNA。基因组DNA可以来自任何感兴趣的生物,包括但不限于动物(例如哺乳动物)、植物、细菌、真菌或古细菌。在一些实例中,所述方法包括使用凝胶电泳或基于珠的大小选择法以选择分离的核酸分子的大小范围。在一些实例中,所述方法包括使用连接酶将所述多个分离的核酸分子与至少一个线性衔接子序列连接。在一些实例中,所述连接酶包括DNA连接酶,例如T4 DNA连接酶。所述线性衔接子序列可以包括至少两个连续核糖核苷酸,两侧是在3’末端的至少一个脱氧核糖核苷酸和在5'末端的至少一个脱氧核糖核苷酸(例如SEQ ID NO:1和/或SEQ ID NO:2所示核酸)。因此,连接产生包括插入物和衔接子的多个环状核酸分子。

在一些实例中,所述方法进一步包括在线性化所述环状核酸之前,在足以从所述多个环状核酸分子中去除线性核酸分子的条件下,使所述多个环状核酸分子与核酸外切酶(例如核酸外切酶I、核酸外切酶III和/或λ核酸外切酶)接触。在一些实例中,所述方法然后包括在足以产生多个线性核酸分子的条件下,将所述多个环状核酸分子与核糖核酸内切酶(例如特异于DNA双链体中核糖核苷酸的核糖核酸内切酶,例如RNase HII或尿嘧啶-DNA糖基化酶)接触,每个所述线性核酸分子包含在插入物两侧的所述在3’末端的至少一个脱氧核糖核苷酸和所述在5’末端的至少一个脱氧核糖核苷酸。在一些实例中,所述方法包括将所述多个线性核酸分子与至少一个报道子核酸(例如编码荧光蛋白的核酸和/或包括条形码的核酸)融合以产生多个报道子构建体。

在一些实例中,所述方法进一步包括确定所述多个线性核酸分子的基因组覆盖。例如,确定基因组覆盖可以包括选择至少一个感兴趣的基因组区域,扩增所述多个线性核酸分子,以及确定选择的基因组区域是否存在于所述多个线性核酸分子中,在所述多个线性核酸分子中选择的基因组区域的拷贝数目和/或基因组覆盖。在一些实例中,通过选择一个或多个单拷贝靶进行分析以确定基因组覆盖。示例的单拷贝靶包括ACTA1、ADM、ADAM12、AXL、CFB、DLX5、Kiss1、NCOA6、Notch2、RPP30和TOP1。依据文库起始材料的来源可以选择其它或另外的单拷贝靶。

在一些实例中,所述方法包括将所述多个核酸分子与线性载体核酸(例如包括基础启动子的线性载体核酸)融合。因此,所述方法可用于产生包含核酸分子的多个线性载体。

在一些实例中,所述至少一个报道子核酸包括编码荧光蛋白的核酸,将所述多个线性核酸分子与至少一个报道子核酸的融合包括将所述多个线性载体与荧光报道子核酸融合。因此,所述方法可用于产生多个荧光报道子构建体。在其它实例中,所述至少一个报道子核酸包括编码条形码的核酸,将所述多个线性核酸分子与至少一个报道子核酸的融合包括将所述多个报道子线性载体与条形码核酸融合。因此,所述方法可用于产生多个条形码报道子构建体。在一些实例中,所述至少一个报道子核酸包括编码条形码的核酸和编码荧光蛋白的核酸,将所述多个线性载体与至少一个报道子核酸融合包括将所述多个报道子构建体与条形码核酸和编码荧光蛋白的核酸融合。因此,所述方法可用于产生多个荧光和条形码报道子构建体。

在一些实例中,所述方法进一步包括使所述多个线性载体的每一个与包括条形码报道子构建体的引物核酸接触。在一些实例中,所述方法随后包括进行聚合酶链反应(PCR)。因此,本文的方法可用于产生包括条形码报道子构建体的多个扩增的载体。在一些实例中,所述方法然后包括使包括条形码报道子构建体的扩增的载体自连接以产生环状载体。因此,本文的方法可用于产生条形码报道子构建体。在一些实例中,本文的方法进一步包括在足以从包含条形码报道子构建体的多个环状载体中去除线性核酸分子的条件下,使包括条形码报道子构建体的多个环状载体与核酸外切酶(例如核酸外切酶I、核酸外切酶III和/或λ核酸外切酶)接触。

在构建核酸分子报道子文库的方法的具体实例中,所述方法包括分离多个选择的大小范围的核酸分子;使用连接酶连接所述多个分离的核酸分子与至少一个线性衔接子序列,其中所述线性衔接子序列包括至少两个连续核糖核苷酸,两侧是在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸,从而产生包括插入物和衔接子的多个环状核酸分子;在足以从所述多个环状核酸分子中去除线性核酸分子的条件下,使所述多个环状核酸分子与核酸外切酶接触;在足以产生多个线性核酸分子的条件下,使所述多个环状核酸分子与核糖核酸内切酶接触,每个所述线性核酸分子包括在插入物两侧的所述在3’末端的至少一个脱氧核糖核苷酸和所述在5’末端的至少一个脱氧核糖核苷酸;并且将所述多个线性核酸分子与至少一个报道子核酸融合以产生多个报道子构建体,例如通过(a)将所述多个核酸分子与线性载体核酸融合,从而产生多个包括所述核酸分子的线性载体;(b)使每个包括所述核酸分子的多个线性载体与包括条形码核酸的引物接触;及(c)进行聚合酶链反应(PCR)和连接反应,产生多个包括条形码报道子构建体的环状载体;并且在足以从包括条形码报道子构建体的多个环状载体中去除线性核酸分子的条件下,使包括条形码报道子构建体的多个环状载体与核酸外切酶接触。在一些实例中,所述方法进一步包括在将所述多个线性核酸分子与所述至少一个报道子核酸融合之前,确定插入物的基因组覆盖。

本文进一步公开了检测功能性核酸调节元件的方法(例如高通量方法)。在一些实例中,所述方法包括用本文公开的任何文库转染或转化至少一种感兴趣的细胞。示例的细胞包括动物(例如哺乳动物)细胞、细菌细胞、植物细胞、真菌细胞和古细菌细胞。例如,哺乳动物细胞可以包括心肌细胞、神经元、肝细胞、内皮细胞、胚胎干细胞、类器官衍生的细胞和诱导的干细胞。在一些实例中,所述方法包括从至少两个对象收集所述至少一种感兴趣的细胞,其中所述至少两个对象包括至少一个患有疾病或状况的对象和至少一个没有疾病或状况的对象。在一些实例中,所述法包括从至少一个对象收集所述至少一种感兴趣的细胞,其中在不同条件下从所述对象收集多个细胞。

在一些实例中,所述方法还包括测量所述至少一个报道子。例如,一些方法可以包括鉴别和/或量化所述至少一个报道子。在一些实例中,所述方法包括从感兴趣的细胞中分离RNA以产生分离的RNA。在一些实例中,鉴别所述报道子包括逆转录所述分离的RNA以产生cDNA,例如使用重组莫洛尼鼠白血病病毒(rMoMuLV)逆转录酶或禽成髓细胞瘤病毒(AMV)逆转录酶。在特定的实例中,RNA和DNA依赖性DNA聚合酶也用于逆转录所述分离的RNA。

在一些实例中,所述方法然后包括检测所述cDNA。在一些实例中,检测包括扩增所述cDNA。例如,在至少一个报道子是至少一个独特的条形码核酸的情况下,扩增所述cDNA可以包括选择特异于包括至少一个独特的核酸条形码的核苷酸的引物,使所述引物与所述cDNA接触,并使用所述引物和cDNA进行PCR以产生扩增的DNA。

在一些实例中,所述方法进一步包括鉴别至少一个独特的核酸条形码。在一些实例中,通过对扩增的DNA进行测序鉴别至少一个独特的核酸条形码。在一些实例中,所述方法还包括对至少一个独特的核酸条形码进行定量。

在本文所述方法的一些实例中,所述多个核酸分子例如使用本文所述方法产生的文库中的所述多个核酸分子,包括选择的感兴趣的基因组的至少80%。在本文所述方法的一些实例中,所述多个核酸分子包括选择的感兴趣的基因组中所述顺式调节元件的至少80%。

本文还公开了用于构建核酸分子报道子文库的试剂盒。在一些实例中,所述试剂盒包括本文所述的任何报道子核酸中的至少一个。在一些实例中,所述报道子核酸包括SEQID NO:1和/或SEQ ID NO:2所示线性衔接子序列。示例的试剂盒还可包括至少一个连接酶、核酸外切酶、核糖核酸内切酶和/或聚合酶。

本文进一步公开了用于高通量鉴别和/或定量功能性核酸调节元件的试剂盒。在一些实例中,所述试剂盒包括本文公开的任何文库,例如覆盖至少80%感兴趣基因组的文库。所述试剂盒的其它实例包括至少一种逆转录酶和/或PCR引物和高保真DNA聚合酶。

根据以下参考附图进行的详细描述,本公开的前述和其它特征将变得更明显。

附图简述

图1A-1D:GRAMc库建立。图1A示出了控制文库的基因组覆盖的示例性方法。通过与融合的衔接子连接,将经大小选择和末端修复的随机基因组DNA片段环化。通过核酸外切酶处理去除线性DNA及随后进行RNaseHII消化以线性化连接产物和dice衔接子串联体。然后将衔接子连接的产物连续稀释,以通过QPCR确定每个稀释度的基因组覆盖。使用GIBSON

图2A-2E示出GRAMc的再现性和准确性。图2A示出GRAMc结果的再现性。在两批200MHepG2细胞中测试人GRAMc文库。CRM活性针对输入质粒的拷贝数和背景活性(bg)被双重标准化。在一批细胞中驱动报道子表达≥5×bg及在另一批细胞中驱动报道子表达≥4.5×bg的插入物被认为是CRM(有活性),CRM调用是80%可再现的。在一批细胞中未达到截断值但仍≥3×bg及在另一批细胞中≥2.7×bg的插入物被认为是边缘活性的,具有62%的较低再现性。图2B示出通过单独报道子测定法对GRAMc结果的验证。通过QPCR在4批单独报道子测定中测试了一组11个CRM(有活性)、5个边缘活性插入物和4个无活性插入物。将来自4批单独报道子测定的平均活性(实线)与GRAMc数据进行比较(R

图3A-3G示出在ChromHMM预测的强增强子中顺式调节活性和TFBS基序富集。图3A示出CRM中预测的增强子的富集(黑色条)相对于通过GRAMc测量的CRM活性(灰色条)。在两批GRAMc数据中根据插入物的平均活性将其分类:G5,大于5×bg;G3L5,等于或大于3×bg且小于5×bg;G2L3,等于或大于2×bg且小于3×bg;G1L2,等于或大于1×bg且小于2×bg;及L1,小于1×bg。图3B-3G示出活性逐渐减弱的预测的增强子相对于GRAMc鉴别的CRM(G5)的相对基序富集(log

图4A-4E示出CRM驱动的基因调节程序预测。图4A示出CRM中TFBS基序的丰度和富集。丰度是含给定TFBS基序的CRM(G5组)或无活性组(L1组)的比例,相对富集是G5组和L1组之间基序富集的比率。垂直线表示基序相对富集的边界。标记了几个高度富集和丰富基序。图4B示出在G5组中预测的TFBS基序和ENCODE ChIP-seq注释的富集的比较。图4C示出在其它细胞(细胞X)中PITX2或IKZF1对HepG2-CRM的作用的两个供选假说。图4D-4E示出通过人pitx2(图4D)和人ikzf1(图4E)相对于CMV::gfp对照的异位表达,测试关于HepG2中未表达的转录因子的富集TFBS基序的假说。属于G5组的插入物以红点(基序+)或黑点(基序-)示出。两条黑色对角线表示扰动组相对于对照组之间的2倍差异。插入物箱线图示出使用两样本t检验在基序+相对于基序-插入物P值之间的差异。

图5A-5B示出GRAMc数据中重复元件的富集。如图3A-3G所示,插入物通过其在两批GRAMc数据中的平均活性而分类。图5A示出GRAMc数据中的重复元件的代表性家族。图中示出具有不同活性的基因组区域内重复元件的富集。G5组中的基因组区域被认为是CRM。图5B示出GRAMc数据中Alu元件的三个主要亚家族的富集。

图6A-6B示出融合的衔接子及衔接子连接的插入物的产生。图6A示出融合的衔接子。通过将两个5’-磷酸化寡聚物退火(上方是SEQ ID NO:1;下方是SEQ ID NO:2)以制备融合的衔接子。融合的衔接子含两个引物位点,P1(黄色箭头)和P2(洋红色箭头),用于扩增衔接子连接的基因组插入物。方框表示用于RNase HII切割的两个核糖核苷酸。图6B示出用于制备纯衔接子连接的插入物群的示例方法。插入物与融合的衔接子的连接产生对核酸外切酶处理具有抗性的环状DNA。通过核酸外切酶I/III去除所有不希望的线性DNA。由于环状DNA难以使用PCR扩增,因此环状连接产物可通过RNase HII线性化。然后将线性化的衔接子连接的插入物准备用于使用P1和P2引物的PCR扩增。

图7是示出制备用于GIBSON

图8示出用于为Illumina NextSeq500构建双末端测序文库的示例方法。用在插入物和N25条形码两侧的衔接子序列的2对引物(P2/nP3和P1/P4)进行GRAMc文库的PCR,然后自连接,生成2个亚文库,其中N25与插入物的5’末端配对(Hs800_14)或与插入物的3’末端配对(Hs800_23)。核酸外切酶处理可确保在随后用另一组引物(对于Hs800_23使用P1/P4,对于Hs800_14使用P2/nP3)进行第二轮插入物::N25盒扩增期间仅配对的环状连接物存活,生成2个测序文库Hs800_2314和Hs800_1423。PCR为Illumina双末端测序加入PE1和PE2位点。每个测序文库使用七个异相(out of phase)引物加入PE1位点,以弥补侧翼衔接子序列多样性的缺乏。成相引物(phased primer)在PE1位点与相应的nP3或P4位点之间掺入0N、2N、4N、6N、8N、10N和12N随机序列。在Illumina NextSeq500平台上对14个成相文库(phasedlibrary)进行测序。

图9示出从总RNA中制备GRAMc测序文库的示例示意图。在第一个QC步骤(QC1)期间,通过QPCR测量GFP DNA以监测RNA样品中污染DNA的去除。经DNase处理12小时后,如果GFP DNA的Ct值保持≤30,则继续进行DNA消化。每6小时观察一次Ct值,并重复这个程序直至Ct值>30。作为逆转录(RT)的质量控制(QC)标准,将DNaseI/ExoI/ExoIII消化的1000ng总RNA用于标准RT反应。在第二个QC(QC2)步骤期间,监测基因组规模RT反应并根据需要补充试剂,直到GFP cDNA的Ct值在QC标准中Ct值的1个周期内。

图10A-10F示出人基因组38的CRM、表达的基因和输入的密度。图10A-10B示出人基因组38的GRAMc CRM密度。图10C-10D示出人基因组38表达的基因密度。图10E-10F示出了人基因组38的GRAMc输入密度。

图11示出异位转录因子表达的Western印迹确认。对用来自GRAMc文库的80K构建体及带有Flag标记的EGFP(对照)或Flag标记的转录因子PITX2或IKZF1共转染的细胞样品进行抗-Flag检测蛋白质表达。用抗GAPDH对照印迹确认等价样品上样。

图12示出GRAMc的示例示意图,包括文库构建和鉴定以及文库在报道子测定中的应用以及数据去卷积。

图13示出从短随机寡聚物中逐步合成长随机DNA序列的示例。从头合成大量的长随机DNA序列仍然具有挑战性;因此,本发明示出一种简单的方法,从可商购的短随机单链DNA(ssDNA)产生长随机DNA序列集(pool)。首先,使用多核苷酸激酶将2μg的ssDNA磷酸化,然后将其通过随机六聚体、dNTP和Klenow酶转化为双链DNA(dsDNA)。同时,使用随机六聚体、dNTP和Klenow酶将1μg未磷酸化的ssDNA转化为dsDNA。其次,用在1×T4 DNA连接酶缓冲液中的200ng未磷酸化的dsDNA和T4 DNA连接酶制备反应管。未磷酸化的dsDNA与磷酸化的dsDNA连接。第三,为了开始连接,将50ng磷酸化的dsDNA(或部分未磷酸化的DNA,例如约1/4)加入到连接反应管中。由于反应中存在过量的未磷酸化DNA,因此大多数磷酸化DNA与未磷酸化DNA连接。每个未磷酸化的DNA分子最多可以接受两个磷酸化DNA分子(一个末端一个分子)。连接产物包括未磷酸化的5’-末端。重复所述连接程序至少一个循环(例如至少约1、2、3、4、5、6、7、8、9、10、12、15、18、20、25、30、45、50、60、75、90或100个循环,或约1-5、1-10、1-15、1-20、5-20、10-25、25-50或50-100个循环,或约16个循环)。循环数(X)预计为≥2xL/I,其中L和I分别是随机DNA的期望长度和起始寡聚物的长度。例如,为了用长度为100bp的寡聚物合成长度约800bp的DNA分子集,X应约≥16。第四,用DNA修复酶(NEB PreCR RepairMix,Cat#M0309S)修复连接产物中的缺口。第五,使用基于凝胶或基于珠的大小选择法富集期望长度的DNA。然后,洗脱的DNA准备用于文库构建(例如CRM文库),例如具有至少约10、25、50、100、250、500、10

图14示出扰动实验的再现性。对于每个扰动实验,比较两个独立批次的80000个随机选择的报道子构建体。所有三个实验均高度可再现(Pearson’s r≥0.97)。

序列表

如37C.F.R.1.822定义,使用核苷酸碱基的标准字母缩写和氨基酸的3个字母代码,显示在所附序列表中列出的核酸和氨基酸序列。每个核酸序列仅显示一条链,但应理解提及所展示链包括了互补链。序列表以ASCII文本文件提交,创建于2019年10月30日,30kb,在此引用作为参考。在随附的序列表中:

SEQ ID NO:1和2是示例的线性衔接子核酸序列。

SEQ ID NO:3-116是示例的引物序列。

SEQ ID NO:117-124是示例的修剪衔接子序列。

发明详述

除非另有说明,否则根据常规用法使用技术术语。分子生物学中常用术语的定义可见于Benjamin Lewin,Genes VII,published by Oxford University Press,2000(ISBN019879276X);Kendrew et al.(eds.),The Encyclopedia of Molecular Biology,published by Blackwell Publishers,1994(ISBN 0632021829);Robert A.Meyers(ed.),Molecular Biology and Biotechnology:a Comprehensive Desk Reference,publishedby Wiley,John&Sons,Inc.,1995(ISBN 0471186341);及George P.Rédei,EncyclopedicDictionary of Genetics,Genomics,and Proteomics,2nd Edition,2003(ISBN:0-471-26821-6)。

除非上下文另外明确指出,否则单数形式“a”、“an”和“the”是指一个或多个。除非上下文另外明确指出,否则术语“或”是指所陈述的可替换元件中的一个元件或两个或更多个元件的组合。如本文所用,“包含”是指“包括”。因此,“包含A或B”是指“包括A、B或A和B”,而不排除其它元件。

还应理解,针对核酸或多肽给出的所有碱基大小或氨基酸大小以及所有分子量或分子质量值均为近似值,且为描述所提供。尽管与本文描述的那些类似或等价的方法和材料可以用于本公开的实施或测试中,但是在下文描述了合适的方法和材料。本文提及的所有出版物、专利申请、专利和其它参考文献以及

为了便于回顾本公开的各个实施方案,提供了对特定术语的以下解释。

衔接子(或衔接子序列或接头):单链或双链核酸(例如DNA、RNA或二者组合),其可以连接于其它核酸分子(例如DNA和/或RNA)的末端。可以合成双链衔接子,使其具有平端、粘端、或粘端和平端。在特定实例中,衔接子序列包括至少一个核糖核苷酸或至少两个连续核糖核苷酸(例如至少约2、3、4、5、6、7、8、9、10、25、50或100个核糖核苷酸,如约2-5、2-10、2-25、25-50或50-100个核糖核苷酸,或约2个核糖核苷酸),例如两侧是在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸(例如在3’末端和/或5’末端的至少约1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500或1000个脱氧核糖核苷酸,或者约5-45、10-40、15-35、20-30、1-50、1-100、1-250、1-500或1-1000个脱氧核糖核苷酸,或约21、28或29或约15-35或20-30个脱氧核糖核苷酸)。特别地,衔接子序列的非限制性实例包括SEQ ID NO:1和SEQ ID NO:2。

条形码(barcode):任何核酸或遗传标记。条形码可以是随机的(例如对于报道子应用,例如高通量应用)、半随机或非随机的(例如在分类应用中,例如特异于分类群的独特条形码以进行鉴别)。在特定实例中,条形码是随机条形码。在一些实例中,条形码来自条形码文库(例如预先存在或算法生成的条形码文库),如至少10、25、50、100、250、500、10

互补:一个核酸分子被称为与另一个核酸分子互补是如果这两个核酸分子共享足够数目的互补核苷酸(例如A-T,A-U或G-C)以在所述链例如通过形成Watson-Crick、Hoogsteen或反向Hoogsteen碱基对而彼此结合(杂交)时形成稳定的双链体或三链体。当在所需条件下由于核酸分子中互补核苷酸之间的碱基配对导致核酸分子保持可检测地结合另一核酸时,发生稳定或特异性结合。

足以…的条件:任何允许所需活性的环境,例如允许两个分子之间(例如核酸与蛋白质之间或两个核酸之间)特异性结合或允许酶促活性(例如连接酶活性或核酸酶活性)的环境。

接触:置于直接物理相关中;包括固体和液体形式二者。例如,可以在体外或细胞中与核酸、蛋白质和/或酶(例如连接酶或核酸酶)发生接触。

检测:确定是否存在物质(如核酸分子和/或报道子分子)。在一些实例中,这可进一步包括鉴别和/或定量。例如,在特定实例中使用所公开的方法和检测探针可以确定核酸或报道子分子(例如报道子核酸)的存在、量和/或特性(identity)。

杂交:互补单链DNA、RNA或DNA/RNA杂交体形成双链体分子(也称为杂交复合物)的能力。

连接:通过一个核酸分子的3’羟基与另一个核酸分子的5’磷酸基团之间的磷酸二酯键将两个核酸分子连接在一起。催化核酸的并列的5’磷酸与3’羟基末端之间磷酸二酯键形成的酶称为连接酶。示例的连接酶包括DNA连接酶(包括T4 DNA连接酶,T3 DNA连接酶,T7DNA连接酶,Taq DNA连接酶(例如Taq DNA连接酶或高保真Taq DNA连接酶如HiFi Taq DNA连接酶)),热稳定DNA连接酶(例如催化无缺口地与互补DNA链杂交和精确配对的两条相邻DNA链的5’-磷酸与3’-羟基之间磷酸二酯键形成的热稳定连接酶,如9°

核酸酶:切割磷酸二酯键的酶。核酸内切酶是切割核苷酸链内的内部磷酸二酯键的酶(与在核苷酸链的末端切割磷酸二酯键的核酸外切酶相比)。核酸内切酶包括限制性核酸内切酶或其它位点特异性核酸内切酶,如核糖核酸内切酶(其在序列特异性位点切割RNA),例如RNase HII(例如以去除任何核糖核苷酸)或尿嘧啶-DNA糖基化酶。核酸酶的其它实例包括DNase I,S1核酸酶,CELI核酸酶,绿豆核酸酶,核糖核酸酶A(RNase A),核糖核酸酶T1(RNase T1),核糖核酸酶H(RNase H),RNase I,RNase PhyM,RNase U2,RNase CLB,微球菌核酸酶和无嘌呤/无嘧啶核酸内切酶。核酸外切酶包括核酸外切酶I,核酸外切酶III,λ核酸外切酶,核酸外切酶VII和Bal 31核酸酶。在本文的特定实例中,核酸酶是RNA特异性核酸酶,如RNase HII(例如以去除任何核糖核苷酸)或尿嘧啶-DNA糖基化酶,或核酸外切酶,如核酸外切酶I,核酸外切酶III或λ核酸外切酶。

调节元件:核酸分子节段,其能增加或降低特定基因的表达。示例的调节元件包括激活物,例如启动子(例如启动基因转录的DNA区域)和增强子(例如可以与其它分子如蛋白质相互作用以增加特定基因转录可能性的转录因子或DNA区域),或阻抑物,如沉默子(例如与阻抑蛋白或转录因子结合时抑制DNA序列转录为RNA的DNA区域)。

对象:任何多细胞脊椎动物生物体,如人和非人哺乳动物(例如兽医对象)。

载体:被用作人工将外来遗传材料携带至另一细胞中的运载体的核酸(例如DNA或RNA)。载体的示例类型包括质粒、病毒载体、粘粒和人工染色体。载体中包括的示例元件是复制起点、调节元件(例如启动子或增强子)、多克隆位点、标记和/或报道子。在具体实例中,载体可至少包括多克隆位点;调节元件;例如启动子(例如基础启动子和/或合成启动子,如超级核心启动子),增强子或阻抑物;及聚(A)尾部。

构建核酸分子报道子文库的方法

本文描述了构建核酸分子报道子文库的方法。因此,提供了可以确定在较大核酸序列如基因组(例如动物或人基因组)内感兴趣的核酸序列的存在与否和/或感兴趣的核酸序列的表达的方法,所述感兴趣的核酸序列例如是特异性和/或功能性序列。本文的方法可以与任何感兴趣的核酸序列一起使用,例如功能性核酸序列,例如调节基因表达的核酸序列(例如调节元件或模块,如顺式调节元件或模块)。在一些实例中,所述公开的方法允许鉴别或定量感兴趣的核酸序列。在一些实例中,所述方法包括分离多个核酸序列,如包括感兴趣的核酸序列的多个核酸序列,及将所述多个核酸序列与报道子核酸融合,产生多个报道子构建体。

在一些实施方案中,所述方法包括分离经选择的大小范围的多个核酸分子。可以使用任何核酸分子,包括基因组DNA(例如基因组DNA片段)或合成DNA。在一些实例中,所述核酸是得自感兴趣的细胞或细胞群的基因组DNA。可以使用任何细胞或细胞群,如动物细胞(例如哺乳动物细胞)、植物细胞、细菌细胞、真菌细胞或古细菌细胞。在一些实例中,哺乳动物细胞包括干细胞、神经细胞、心血管细胞、肝细胞、内皮细胞、上皮细胞、口腔细胞、生殖系统细胞、内分泌细胞、晶状体细胞、脂肪细胞、分泌细胞、肾细胞、细胞外基质细胞、收缩细胞、免疫细胞、血细胞或生殖细胞中的至少一种。在具体的非限制性实例中,哺乳动物细胞是心肌细胞、神经元、肝细胞、内皮细胞(例如人脐静脉内皮细胞,HUVEC,如在血管生成模型中)、胚胎干细胞、诱导的多能干细胞、HepG2细胞、LNCaP细胞、HeLa细胞、HCT116细胞或K562细胞中的至少一种。在一些实例中,植物细胞包括分生组织细胞(包括分生组织衍生细胞)、薄壁组织细胞(例如叶肉细胞、转移细胞或绿色组织细胞)、厚角组织细胞、厚壁组织细胞(如厚壁组织硬化细胞或厚壁组织纤维)、管胞、管状分子(vessel element)、韧皮部细胞(如筛管、伴细胞、韧皮纤维或韧皮硬化细胞)或表皮细胞(如气孔保卫细胞)中的至少一种。在具体的非限制性实例中,植物细胞是拟南芥属(Arabidopsis)、大麻、玉米、水稻、大麦、小麦、柳枝稷、番茄、马铃薯、衣藻属(Chlamydomonas)、水网藻属(Hydrodictyon)、水绵属(Spirogyra)和Actebularia的至少一种。在一些实例中,细菌细胞包括革兰氏阴性或革兰氏阳性细菌细胞的至少一种,例如酸杆菌属(Acidobacteria)、放线菌属(Actinobacteria)、产水菌属(Aquificae)、拟杆菌属(Bacteroidetes)、嗜热丝菌属(Caldiserica)、衣原体属(Chlamydiae)、绿菌属(Chlorobi)、绿弯菌属(Chloroflexi)、产金菌属(Chrysiogenetes)、蓝细菌属(Cyanobacteria)、脱铁杆菌属(Deferribacteres)、恐球菌-栖热菌属(Deinococcus-Thermus)、网团菌属(Dictyoglomi)、埃希氏菌属(Escherichia)、迷踪菌属(Elusimicrobia)、纤维杆菌属(Fibrobacteres)、厚壁菌属(Firmicutes)、梭杆菌属(Fusobacteria)、芽单胞菌属(Gemmatimonadetes)、黏胶球形菌属(Lentisphaerae)、硝化螺旋菌属(Nitrospira)、浮霉菌属(Planctomycetes)、变形菌属(Proteobacteria)、螺旋体属(Spirochaetes)、互养菌属(Synergistetes)、软壁菌属(Tenericutes)、热脱硫杆菌属(Thermodesulfobacteria)、热袍菌属(Thermotogae)或疣微菌属(Verrucomicrobia)细胞。在一些实例中,真菌细胞包括木霉属(Trichoderma)、链孢霉属(Neurospora)、曲霉菌属(Aspergillus)、红曲霉属(Monascus)、毛霉菌属(Mucor)、酵母菌属(Saccharomyces)、毕赤酵母属(Pichia)或根霉菌属(Rhizopus)的至少一种。在一些实例中,古细菌细胞包括餐古菌属(Cenarchaeum)、Caldococcus、Ignisphaera、酸叶菌属(Acidilobus)、Acidococcus、气火菌属(Aeropyrum)、除硫球菌属(Desulfurococcus)、燃球菌属(Ignicoccus)、葡萄嗜热菌属(Staphylothermus)、Stetteria、厌硫球菌属(Sulfophobococcus)、热盘菌属(Thermodiscus)、热球形菌属(Thermosphaera)、Geogemma、超热菌属(Hyperthermus)、热网菌属(Pyrodictium)、火叶菌属(Pyrolobus)、氨氧化古菌(Nitrosopumilus(candidatus))、酸菌属(Acidianus)、生金球形菌属(Metallosphaera)、憎叶菌属(Stygiolobus)、硫化叶菌属(Sulfolobus)、硫磺球形菌属(Sulfurisphaera)、热丝菌属(Thermofilum)、暖枝菌属(Caldivirga)、热棒菌属(Pyrobaculum)、热分支菌属(Thermocladium)、热变形菌属(Thermoproteus)、火山鬃菌属(Vulcanisaeta)、Aciduliprofundum、古球菌属(Archaeoglobus)、铁球状菌属(Ferroglobus)、地球状菌属(Geoglobus)、适盐菌属(Haladaptatus)、盐碱球菌(Halalkalicoccus)、Haloalcalophilium、盐盒菌属(Haloarcula)、盐杆菌属(Halobacterium)、盐棒菌属(Halobaculum)、盐二型菌属(Halobiforma)、盐球菌属(Halococcus)、极嗜盐菌属(Haloferax)、盐几何菌属(Halogeometricum)、盐微菌属(Halomicrobium)、盐惰菌属(Halopiger)、盐盘菌属(Haloplanus)、Haloquadra、盐棍菌属(Halorhabdus)、盐红菌属(Halorubrum)、盐八叠球菌(Halosarcina)、盐简菌属(Halosimplex)、盐陆生菌属(Haloterrigena)、Halovivax、钠白菌属(Natrialba)、钠线菌属(Natrinema)、钠杆菌属(Natronobacterium)、钠球菌属(Natronococcus)、盐碱湖菌属(Natronolimnobius)、盐碱红菌属(Natronorubrum)、Methanoregula(candidatus)、甲烷砾菌属(Methanocalculus)、甲烷杆菌属(Methanobacterium)、甲烷短杆菌属(Methanobrevibacter)、甲烷球形菌属(Methanosphaera)、甲烷嗜热杆菌属(Methanothermobacter)、甲烷热菌属(Methanothermus)、甲烷暖球菌属(Methanocaldococcus)、甲烷炎菌属(Methanotorris)、产甲烷球菌属(Methanococcus)、Methanothermococcus、甲烷粒菌属(Methanocorpusculum)、甲烷囊菌属(Methanoculleus)、甲烷泡菌属(Methanofollis)、产甲烷菌属(Methanogenium)、甲烷裂叶菌属(Methanolacinia)、甲烷微菌属(Methanomicrobium)、甲烷盘菌属(Methanoplanus)、甲烷螺菌科(Methanospirillaceae)、甲烷螺旋菌属(Methanospirillum)、甲烷鬃菌属(Methanosaeta)、甲烷微球菌属(Methanimicrococcus)、拟甲烷球菌属(Methanococcoides)、甲烷盐菌属(Methanohalobium)、甲烷嗜盐菌属(Methanohalophilus)、甲烷叶菌属(Methanolobus)、甲烷食甲基菌属(Methanomethylovorans)、甲烷咸菌属(Methanosalsum)、甲烷八叠球菌属(Methanosarcina)、甲烷火菌属(Methanopyrus)、古老球菌属(Palaeococcus)、焦球菌属(Pyrococcus)、热球菌属(Thermococcus)、铁原体属(Ferroplasma)、嗜酸菌属(Picrophilus)、热原体属(Thermoplasma)、初古菌门(Korarchaeota)、纳古菌门(Nanoarchaeota)或纳古菌属(Nanoarchaeum)细胞中的至少一种。

经选择的大小范围的多个核酸分子可以来自任何来源,例如来自细胞的基因组或部分基因组,包括染色体DNA和线粒体DNA。因此,在一些实例中,所述分离的核酸是从选择的细胞类型或细胞类型群体分离的。将所述DNA(例如基因组DNA)例如通过消化、剪切、超声或其组合进行片段化。在一些实例中,所述核酸是合成DNA,如选定长度或长度范围的随机双链DNA序列。任何DNA合成方法都可用于产生合成DNA。在特定实例中,合成DNA(例如选定大小范围的DNA)可以通过连接小于选定大小范围的DNA的两个或更多个DNA分子产生(例如对于选定大小范围为约750-850个碱基对或约800个碱基对的DNA而言,较小DNA可以至少是约25、50、100、200、300或400个碱基对,或约25-50、25-100、25-200、25-400或100-400个碱基对,或约100个碱基对)。产生选定大小范围的合成DNA核酸分子的示例方法示于图13。

在一些实例中,所述分离的核酸的大小范围为至少约50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500或3000个碱基对长,如约50-3000或100-3000个碱基对长,如约50-200、100-200、100-300、300-500、100-1500、500-1200、700-1000、700-900或750-850个碱基对长或约800个碱基对长。可以使用任何方法选择期望大小范围的多个核酸分子。在一些实例中,使用凝胶电泳(例如使用琼脂糖凝胶,如人工制备的琼脂糖凝胶或琼脂糖凝胶盒,如使用恒定电压或变化电压,如至少1%、1.2%、1.5%、2%、3%或5%琼脂糖凝胶,如1-5%、1-2%、2-3%或3-5%琼脂糖凝胶或1.2%琼脂糖凝胶)或基于珠的大小选择法(例如固相可逆固定化SPRI,如使用顺磁珠,例如带有羧基涂层的顺磁性珠)选择所述多个核酸分子。

在一些实例中,所述方法包括将核酸分子(例如选定大小的多个分离的核酸分子,在本文中也称为“插入物”)连接于衔接子序列(例如至少一个衔接子序列,如至少一个线性衔接子序列)。可以使用任何衔接子序列,如能例如通过与多个分离的核酸分子连接而形成环状核酸分子(例如多个环状核酸分子)的线性衔接子序列。在一些实例中,衔接子序列包括核糖核苷酸和脱氧核糖核苷酸。在特定实例中,衔接子序列包括一个核糖核苷酸或至少两个连续核糖核苷酸(例如至少约2、3、4、5、6、7、8、9、10、25、50或100个核糖核苷酸,如约2-5、2-10、2-25、25-50或50-100个核糖核苷酸,或约2个核糖核苷酸)。在一些实例中,衔接子序列包括一个核糖核苷酸或至少两个连续核糖核苷酸,两侧是在3’末端的至少一个脱氧核糖核苷酸(例如在3’末端的至少约1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500或1000个脱氧核糖核苷酸,或约5-45、10-40、15-35、20-30、1-50、1-100、1-250、1-500或1-1000个脱氧核糖核苷酸,或约21、28或29或约15-35或20-30个脱氧核糖核苷酸)及在5’末端的至少一个脱氧核糖核苷酸(例如在5’末端的至少约1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500或1000个脱氧核糖核苷酸,或约5-45、10-40、15-35、20-30、1-50、1-100、1-250、1-500或1-1000个脱氧核糖核苷酸,或约21、28或29个或约15-35或20-30个脱氧核糖核苷酸)。在特定实例中,线性衔接子序列可包括以下序列:CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT(SEQ ID NO::1)或者CTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT(SEQ ID NO:2),其中“rU”和“rA”表示核糖核苷酸。在特定实例中,衔接子是通过SEQ ID NO:1和2的核酸杂交制备的双链线性衔接子。

使用任何连接方法(例如连接酶介导的连接或化学连接),将所述多个分离的核酸分子(例如多个插入物)连接于衔接子序列(例如至少一个衔接子序列,如至少一个线性衔接子序列,例如SEQ ID NO:1和/或SEQ ID NO:2)。在一些实例中,至少一种连接酶用于连接。可以使用本文描述的任何核酸或衔接子序列。在一些实例中,连接方法足以形成包括“插入物”核酸分子和衔接子序列(例如包括SEQ ID NO:1和SEQ ID NO:2的双链衔接子)的环状核酸分子(例如多个环状核酸分子)。因此,在特定实例中,所述方法可用于产生均具有插入物和衔接子序列的多个环状核酸分子。在一些实例中,使用DNA连接酶。可以使用足以连接核酸的任何连接酶(例如T4 DNA连接酶)。可以使用的连接酶的实例包括DNA连接酶(包括T4 DNA连接酶,T3 DNA连接酶,T7 DNA连接酶,Taq DNA连接酶(例如Taq DNA连接酶或高保真Taq DNA连接酶,如HiFi Taq DNA连接酶),热稳定DNA连接酶(例如,热稳定连接酶,其催化两条与互补DNA链杂交和精确配对的无缺口的相邻DNA链的5’-磷酸和3’-羟基之间磷酸二酯键的形成,如9°

在一些实施方案中,所述方法进一步包括在足以从环状核酸分子(例如本文所述的任何环状核酸分子,例如多个环状核酸分子)中去除线性核酸的条件下,将所述多个环状核酸分子与至少一种酶(例如至少约1、2、5或10种酶,或约1-2、1-5或1-10种酶或约1或2种酶)接触,所述酶特异于从多核苷酸分子末端去除连续核苷酸(例如至少一种核酸外切酶,如至少约1、2、5或10种核酸外切酶,或约1-2、1-5或1-10种核酸外切酶,或约1或2种核酸外切酶)。在一些实例中,所述至少一种核酸外切酶包括核酸外切酶I、核酸外切酶III和/或λ核酸外切酶。在特定实例中,所述至少一种核酸外切酶是核酸外切酶I和核酸外切酶III。

在一些实施方案中,所述方法包括将包括插入物和衔接子序列的所述多个环状核酸分子与特异于分离多核苷酸链内核苷酸的酶(例如除了5’或3’末端的那些核苷酸之外的核苷酸,如核酸内切酶)在足以从包括插入物和衔接子的所述多个环状核酸分子中产生线性核酸分子(例如多个线性核酸分子)的条件下接触。在一些实例中,产生的线性核酸分子均包括在5’末端的至少一个脱氧核糖核苷酸和在3’末端的至少一个脱氧核糖核苷酸,例如在插入物两侧(例如本文所述的任何插入物)。在一些实例中,产生的线性核酸分子包括插入物,其两侧是在5’末端的至少一个脱氧核糖核苷酸和在3’末端的至少一个脱氧核糖核苷酸。例如,所述在5’末端或3’末端的至少一个脱氧核糖核苷酸可以包括至少一个脱氧核糖核苷酸,如约至少约1、2、5、10、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、100、250、500或1000个脱氧核糖核苷酸,或约5-45、10-40、15-35、20-30、1-50、1-100、1-250、1-500或1-1000个脱氧核糖核苷酸,或约21、28或29个或约15-35或20-30个脱氧核糖核苷酸。在特定实例中,所述酶特异于去除双链核酸内的核糖核苷酸(例如核糖核酸内切酶)。例如,所述酶可以从环状核酸(例如本文所述的任何环状核酸分子,如多个环状核酸分子)去除至少一个核糖核苷酸,如约至少约2、3、4、5、6、7、8、9、10、25、50或100个核糖核苷酸,如约2-5、2-10、2-25、25-50或50-100个核糖核苷酸,或约2个核糖核苷酸。在特定实例中,所述酶(例如核糖核酸内切酶)可以包括RNase HII(例如以去除任何核糖核苷酸)或尿嘧啶-DNA糖基化酶(例如以去除尿嘧啶)。线性化所述环状核酸产生包括所述插入物核酸及3’末端的至少一个脱氧核糖核苷酸和5’末端的至少一个脱氧核糖核苷酸的多个线性核酸分子。

在一些实施方案中,所述方法包括将通过线性化包括插入物和在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸的环状核酸而获得的多个线性核酸分子融合至至少一个报道子核酸(例如产生多个报道子构建体,如核酸分子报道子文库)。可以使用任何报道子核酸,例如荧光或条形码报道子核酸,如编码荧光蛋白的核酸和/或包括条形码的核酸。在一些实例中,至少一个报道子是编码荧光蛋白的核酸。可以编码任何荧光蛋白,如蓝色、紫色、绿色、黄色、橙色或红色荧光蛋白,或具有这种荧光的任何组合或变化的蛋白。在特定实例中,至少一个报道子核酸是编码绿色荧光蛋白(GFP)的核酸。在其它实例中,至少一个报道子核酸是包括条形码的核酸(例如核酸或遗传标记)。任何核酸或遗传标记都可以用作条形码。在一些实例中,条形码是短核酸或遗传标记,例如至少约5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000或5000个核苷酸长、或约5-10、10-20、15-40、20-30、10-50、10-75、10-100、100-250、250-500、500-1000、1000-3000或1000-5000个核苷酸长、或约20、25、30、15-40或20-30个核苷酸长的核酸或遗传标记。在进一步实例中,所述报道子包括至少一个编码荧光蛋白的核酸和至少一个条形码核酸。

在特定实例中,至少一个报道子核酸是条形码核酸。可以使用任何核酸条形码;例如可以使用随机的、半随机的或非随机的条形码,如来自条形码文库的。在特定实例中,所述条形码是随机条形码。在一些实例中,所述条形码来自条形码文库(例如预先存在或算法生成的条形码文库),如至少10、25、50、100、250、500、10

在一些实施方案中,所述方法包括将包括插入物核酸和在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸的线性核酸分子以及报道子融合于线性载体核酸以产生多个线性载体。可以使用任何线性载体核酸。例如,线性载体核酸可包括核酸酶切割位点和转录或翻译调节元件(如启动子、增强子、阻抑物和/或聚(A)尾部)。在一些实例中,所述线性载体核酸可包括至少一个启动子,如基础启动子和/或合成启动子。例如,所述线性载体核酸可包括至少约1、2、3、4、5、6、8或10个启动子,或约1-4、5-10或1-10个启动子。在一些实例中,至少一个启动子如基础和/或合成启动子可包括至少一个启动子基序,如至少约1、2、3、4、5、6、8或10个启动子基序,或约1-4、5-10或1-10个启动子基序或约4个启动子基序,例如合成启动子可包括TATA盒、起始子(Inr)、十基序元件(MTE)、下游启动子元件(DPE)、B识别元件(BRE)、E-box、CCAAT盒、NRF-1、GABPA、YY1、ACTACAnnTCCC和/或十聚体启动子基序。在特定实例中,至少一个启动子是合成启动子,其包括TATA盒、Inr、MTE和DPE基序(例如超级核心启动子);其它示例的启动子可见于Morgan,addgene blog:“Plasmids 101:The Promoter Region–Let's Go!”,2014,在此以其全部内容并入本文作参考。

包括在3’末端具有至少一个脱氧核糖核苷酸和在5’末端具有至少一个脱氧核糖核苷酸的插入物核酸的线性核酸分子可以在任何时间与线性载体核酸融合,例如线性核酸分子与至少一个报道子核酸融合时、之前或之后。在一些实例中,所述线性载体核酸包括至少一个报道子核酸(例如编码荧光蛋白如绿色荧光蛋白的至少一个报道子核酸,或包括至少一个条形码的至少一个报道子核酸),因此将线性核酸分子与线性载体核酸的融合包括与至少一个报道子核酸的融合。在一些实例中,所述方法包括在线性核酸分子与至少一个报道子核酸融合之前(例如编码荧光蛋白的核酸或包括条形码的核酸),将线性核酸分子与线性载体核酸融合。例如,将多个线性核酸分子与至少一个报道子核酸的融合可以包括将多个线性载体与编码荧光蛋白的报道子核酸(例如荧光报道子核酸)融合以产生多个荧光报道子构建体。在一些实例中,将多个线性核酸分子与至少一个报道子核酸融合可包括将多个线性载体与包括条形码的报道子核酸(例如条形码报道子核酸)融合以产生多个条形码报道子构建体。在其它实例中,在与线性载体核酸融合之前,所述线性核酸包括具有在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸的插入核酸和报道子核酸。

所述方法包括将任意数目的报道子核酸与多个线性核酸分子或包括核酸分子的多个线性载体融合,例如至少约1、2、3、4、5、10、15、20或25个、或约1-2、1-5、1-10、10-20、15-25或1-25个或约2个报道子核酸。在一些实例中,所述方法包括将多个线性核酸分子或包括核酸分子的多个线性载体与荧光报道子核酸(例如编码GFP的报道子核酸)融合以产生多个荧光报道子构建体。在一些实例中,所述方法包括将多个线性核酸分子或包括核酸分子的多个线性载体与条形码报道子核酸(例如包括短条形码例如约25个核苷酸长的条形码的报道子核酸)融合以产生多个条形码报道子构建体。在一些实例中,所述方法包括将多个线性核酸分子或包括核酸分子的多个线性载体与荧光报道子核酸和条形码报道子核酸(例如编码GFP的报道子核酸和包括短条形码如约25个核苷酸长的条形码的报道子核酸)融合以产生多个荧光和条形码报道子构建体。在特定实例中,所述方法包括将包括核酸分子的多个线性载体与荧光报道子核酸和/或条形码报道子核酸(例如编码GFP的报道子核酸和/或包括短条形码例如约25个核苷酸长的条形码的报道子核酸)融合以产生多个荧光和条形码报道子构建体。

在一些实施方案中,将多个线性核酸分子或包括核酸分子的多个线性载体与条形码报道子核酸融合包括将多个线性核酸分子或多个线性载体与引物核酸接触,所述线性核酸分子包括具有在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸的插入物核酸,所述线性载体包括具有在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸的插入物核酸,所述引物核酸包括条形码报道子核酸(例如包括短条形码如约25个核苷酸长的条形码的报道子核酸)。在一些实例中,使用多个线性核酸分子或包括线性核酸分子的多个线性载体及包括条形码报道子核酸的至少一个引物核酸进行聚合酶链反应(PCR),如用于延伸线性核酸分子或多个线性载体以产生多个条形码报道子构建体或包括条形码报道子构建体的多个线性载体。在特定实例中,使用包括核酸分子的多个线性载体和包括条形码报道子核酸的引物核酸进行聚合酶链反应(PCR),以产生包括条形码报道子构建体的多个线性载体。

在一些实例中,所述方法包括使用连接酶将包括报道子构建体(例如荧光和/或条形码报道子构建体)的多个线性载体的末端连接以产生包括报道子构建体(例如荧光和/或条形码报道子构建体)的多个环状载体。在特定实例中,所述方法包括使用连接酶将包括条形码报道子构建体的多个线性载体的末端连接以产生包括条形码报道子构建体的多个环状载体。可以使用本文所述的任何连接酶(例如DNA连接酶,如T4 DNA连接酶)。在一些实例中,所述连接酶足以连接双链核酸的平端(例如T4 DNA连接酶或T3 DNA连接酶)。在特定实例中,所述连接酶是T4 DNA连接酶。在一些实例中,所述方法还包括将包括条形码报道子构建体的多个环状载体与至少一个核酸外切酶接触,以从所述多个环状载体中去除线性核酸分子。可以使用本文所述的任何核酸外切酶(例如核酸外切酶I,核酸外切酶III和/或λ核酸外切酶)。在特定实例中,所述至少一个核酸外切酶是核酸外切酶I和核酸外切酶III。

在一些实施方案中,所述方法还包括确定多个线性核酸分子的基因组覆盖,例如,其中所述多个线性核酸分子包括基因组DNA时。可以随时确定基因组覆盖。在一些实例中,在将多个线性核酸分子与报道子核酸融合之前确定基因组覆盖,所述线性核酸分子包括具有在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸的插入物核酸。在特定实例中,可以使用多个线性核酸分子(例如包括核酸分子和衔接子序列的线性核酸分子)确定覆盖。基因组覆盖可以使用任何方法确定。在特定实例中,通过选择至少一个感兴趣的基因组区域(例如整个基因组或部分基因组)、扩增所述多个线性核酸分子(例如使用PCR,如定量PCR,即QPCR)并确定在所述多个线性核酸分子中是否存在选择的基因组区域,由此确定基因组覆盖。在一些实例中,如在线性核酸分子包括核酸分子和衔接子序列的情况下,使用与衔接子序列互补的引物(例如与全部或部分衔接子序列互补的引物,如位于核酸分子5’的全部或部分衔接子序列)进行PCR。

在构建核酸分子报道子文库的方法的特定实例中,所述方法包括分离选定大小范围(例如至少约50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500或3000个碱基对长、如约50-3000或100-3000个碱基对长、如约50-200、100-200、100-300、300-500、100-1500、500-1200、700-1000或750-850个碱基对长或约800个碱基对长)的多个核酸分子;使用连接酶(例如T4连接酶)将所述多个核酸分子与至少一个线性衔接子序列连接,其中所述线性衔接子序列包括至少两个连续核糖核苷酸,两侧是在3’末端的至少一个脱氧核糖核苷酸和在5’末端的至少一个脱氧核糖核苷酸(例如在3’末端或5’末端的至少约21、28或29或约15-35或20-30个脱氧核糖核苷酸),如SEQ ID NO:1或SEQ ID NO:2,从而产生包括插入物和衔接子的多个环状核酸分子;在足以从所述多个环状核酸分子中去除线性核酸分子的条件下,使所述多个环状核酸分子与核酸外切酶(例如核酸外切酶I和/或核酸外切酶III)接触;在足以产生多个线性核酸分子的条件下使所述多个环状核酸分子与核糖核酸内切酶(例如RNase HII)接触,所述多个线性核酸分子每一个均包括在插入物两侧的所述在3’末端的至少一个脱氧核糖核苷酸和所述在5’末端的至少一个脱氧核糖核苷酸;将所述多个线性核酸分子与至少一个报道子核酸融合以产生多个报道子构建体,如通过(a)将所述多个核酸分子与线性载体核酸融合,从而产生包括所述核酸分子的多个线性载体;(b)使所述包括所述核酸分子的多个线性载体每一个与包括条形码核酸的引物接触;以及(c)进行聚合酶链反应(PCR),产生包括条形码报道子构建体的多个环状载体;和在足以从包括条形码报道子构建体的所述多个环状载体中去除线性核酸分子的条件下,使包括所述条形码报道子构建体的多个环状载体与核酸外切酶(例如核酸外切酶I和/或核酸外切酶III)接触。

构建核酸分子报道子文库的组合物和试剂盒

本文预期的是使用本文描述的任何方法产生的核酸分子报道子文库。所述报道子文库可以包括任意数目的报道子构建体。在一些实例中,报道子构建体的数目可以取决于一或多个感兴趣的核酸序列。例如,当核酸分子报道子文库包括来自较大序列例如基因组(例如动物或人基因组、植物基因组、细菌基因组、真菌基因组或古细菌基因组)的核酸分子时,报道子构建体的数目可取决于所述较大序列的大小和/或所述文库的覆盖水平。在一些实例中,报道子构建体的数目为至少约10、25、50、100、250、500、10

本文预期的是包括报道子分子和核酸分子(例如插入物)的报道子构建体的文库。使用本文的方法产生的核酸分子报道子文库中的报道子构建体的元件也可以根据预期的鉴别和/或定量方法而变化。例如,使用本文的方法产生的文库可以在体内或体外使用,以及鉴别和/或定量的范围可以从使用基于目测的报道子(例如荧光报道子,例如编码蓝色、紫色、绿色、黄色、橙色或红色荧光蛋白的核酸,如用于基于目测和/或光谱测定的鉴别和/或定量)至基于序列的报道子(例如条形码报道子,例如随机、半随机或非随机条形码,包括至少约5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000或5000个核苷酸长、或约5-10、10-20、15-40、20-30、10-50、10-75、10-100、100-250、250-500、500-1000、1000-3000或1000-5000个核苷酸长、或约20、25、30、15-40或20-30个核苷酸长的核酸或遗传标记,如用于基于阵列和/或基于测序的鉴别和/或定量)。本文预期的是包括多于一个的报道子或报道子类型的文库。在一些实例中,所述文库可以包括基于目测和基于序列的报道子,如包括荧光和条形码报道子的文库。在特定实例中,所述文库包括具有编码GFP的核酸及包括短条形码(例如约25个核苷酸长的条形码)的核酸二者的报道子构建体。报道子构建体的预期插入物的大小也可以根据预期的鉴别和/或定量方法而变化。例如,插入物大小范围是至少约50、100、200、300、400、500、750、800、900、1000、1200、1500、2000、2500或3000个碱基对长,如约50-3000或100-3000个碱基对长,如约50-200、100-200、100-300、300-500、100-1500、500-1200、700-1000或750-850个碱基对长或约800个碱基对长。

本文进一步预期的是包括除报道子分子以外的其它元件的报道子构建体的文库。例如,可以包括报道子核酸的线性衔接子序列或其部分(例如SEQ ID NO:1和/或SEQ IDNO:2或其部分)。例如,所述报道子构建体还可包括本文所述的任何载体和/或载体元件,如核酸酶切割位点和转录或翻译调节元件,例如启动子(例如基础启动子和/或合成启动子,如超级核心启动子)、增强子、阻抑物和/或聚(A)尾部。

本文还预期的是用于构建核酸分子报道子文库的试剂盒。在一些实例中,所述试剂盒包括一个或多个线性衔接子,例如SEQ ID NO:1和/或SEQ ID NO:2。在一些实例中,所述试剂盒包括本文所述的任何报道子核酸。例如,可以包括基于目测的核酸报道子(例如荧光报道子,如编码蓝色、紫色、绿色、黄色、橙色或红色荧光蛋白的核酸,如用于基于目测和/或基于光谱测定的鉴别和/或定量)和/或基于序列的报道子(例如条形码报道子,如随机、半随机或非随机条形码,包括至少约5、10、15、20、25、30、35、40、45、50、75、100、250、500、1000、2000、3000或5000个核苷酸长、或约5-10、10-20、15-40、20-30、10-50、10-75、10-100、100-250、250-500、500-1000、1000-3000或1000-5000个核苷酸长、或约20、25、30、15-40或20-30个核苷酸长的核酸或遗传标记,如用于基于阵列和/或基于测序的鉴别和/或定量)。可以考虑一个以上的报道子或报道子类型。例如,所述试剂盒可包括基于目测和基于序列的报道子,如荧光和条形码报道子。在特定实例中,所述试剂盒包括编码GFP的核酸和包括短条形码(例如约25个核苷酸长的条形码)的核酸二者的核酸报道子。

本文进一步预期的是具有报道子构建体的试剂盒,所述报道子构建体包括报道子分子之外的其它元件。例如,可以包括报道子核酸的线性衔接子序列(例如SEQ ID NO:1和/或SEQ ID NO:2)。所述试剂盒还可包括本文所述的任何载体和/或载体元件,如核酸酶切割位点和转录或翻译调节元件,例如启动子(例如基础启动子和/或合成启动子,如超级核心启动子)、增强子、阻抑物和/或聚(A)尾部。本文还预期的是用于实施本文所述方法的任何酶。例如,所述试剂盒可以包括至少一种连接酶,例如DNA连接酶(包括T4 DNA连接酶,T3DNA连接酶,T7 DNA连接酶,Taq DNA连接酶(例如Taq DNA连接酶或高保真Taq DNA连接酶如HiFi Taq DNA连接酶),热稳定DNA连接酶(例如热稳定连接酶,其可催化与互补DNA链杂交且无缺口精确配对的两条相邻DNA链的5’-磷酸和3’-羟基之间磷酸二酯键的形成,如9°

检测功能性核酸调节元件的方法及所用试剂盒

本文公开的文库可用于多种目的,包括鉴别感兴趣的基因组中顺式调节元件。在一些实例中,本公开的文库可以用于直接测量来自相同物种的不同个体的CRM中的功能差异。本公开的文库和方法可以在基于细胞的方法(例如心肌细胞、神经元、肝细胞)中直接测量序列变异的功能结果。在其它实例中,本公开的文库和方法可用于鉴别生物标记CRM,如介导药物细胞毒性的CRM,维持细胞病理状态的CRM和/或维持健康细胞状态的CRM。

例如,本公开的文库法可以鉴别应答药物细胞毒性的CRM。可以产生检测多种不同细胞毒性作用的生物标记CRM的集合,这个生物标记集合可用于在一次筛选中检测药物毒性。本公开的文库和方法还可以鉴别特异于患者衍生细胞(例如iPSC衍生心肌病细胞)中的病理细胞状态特异的CRM。本公开的文库和方法还用于鉴别特异于对照细胞(例如iPSC衍生对照心肌细胞)中的健康细胞状态的CRM。此外,通过合并所有三种类型生物标记CRM,可以在一次筛选中筛选出可将病理细胞状态转变为正常状态而不会引起细胞毒性作用的药物。

在另一个实施方案中,本公开的文库和方法可以筛选具有任何期望活性的人工CRM。这些CRM可以包括任何细胞类型中选择标记的强大驱动子(例如精确控制工程化细胞(细菌、真菌、植物、古细菌和哺乳动物细胞)中基因表达的驱动子(例如酶))。

在其它实施方案中,本公开的文库和方法可以筛选宿主细胞类型中未表达转录因子的富集基序,例如用以检测各种细胞类型(例如互斥细胞类型,例如从干细胞如胚胎干细胞或诱导型干细胞形成的)中的基因调节相互作用。示例性的应用包括组织工程化,例如以产生特定细胞类型。例如,一种细胞类型可以被抑制而另一种细胞类型可以被促进(例如对于其中一种细胞类型可以转变为另一种细胞类型的应用,例如希望的细胞类型或感兴趣的细胞类型可以转变为不希望的细胞类型或不感兴趣的细胞类型的情况)。

本文公开了检测功能性核酸调节元件(例如CRM,如启动子、增强子和/或阻抑物)的方法。在一些实例中,所述方法可以包括用本文公开的核酸分子报道子文库转染至少一种感兴趣的细胞。在一些实例中,所述方法包括选择感兴趣的细胞。可以使用和/或选择任何感兴趣的细胞,如动物细胞(例如哺乳动物细胞)、植物细胞、真菌细胞、细菌细胞或古细菌细胞。在一些实例中,哺乳动物细胞包括干细胞、神经细胞、心血管细胞、肝细胞、内皮细胞、上皮细胞、口腔细胞、生殖系统细胞、内分泌细胞、晶状体细胞、脂肪细胞、分泌细胞、肾细胞、细胞外基质细胞、收缩细胞、免疫细胞、血细胞或生殖细胞中的至少一种。在特定的非限制性实例中,哺乳动物细胞是心肌细胞、神经元、肝细胞、内皮细胞(例如人脐静脉内皮细胞、HUVEC如在血管生成模型中)、胚胎干细胞、诱导的多能干细胞、HepG2细胞、LNCaP细胞、HeLa细胞、HCT116细胞或K562细胞中的至少一种。在一些实例中,植物细胞包括分生组织细胞(包括分生组织衍生细胞)、薄壁组织细胞(如叶肉细胞、转移细胞或绿皮组织细胞)、厚角组织细胞、厚壁组织细胞(例如厚壁组织硬化细胞或厚壁组织纤维)、管胞、管状分子、韧皮部细胞(例如筛管、伴细胞、韧皮纤维或韧皮硬化细胞)或表皮细胞(如气孔保卫细胞)中的至少一种。在特定的非限制性实例中,植物细胞是拟南芥属、大麻、玉米、水稻、大麦、小麦、柳枝稷、番茄、马铃薯、衣藻属、水网藻属、水绵属和Actebularia中的至少一种。在一些实例中,细菌细胞包括革兰氏阴性或革兰氏阳性细菌细胞中的至少一种,例如酸杆菌属、放线菌属、产水菌属、拟杆菌属、嗜热丝菌属、衣原体属、绿菌属、绿弯菌属、产金菌属、蓝细菌属、脱铁杆菌属、恐球菌-栖热菌属、网团菌属、迷踪菌属、埃希氏菌属、纤维杆菌属、厚壁菌属、梭杆菌属、芽单胞菌属、黏胶球形菌属、硝化螺旋菌属、浮霉菌属、变形菌属、螺旋体属、互养菌属、软壁菌属、热脱硫杆菌属、热袍菌属或疣微菌属细胞。在一些实例中,真菌细胞包括木霉属、链孢霉属、曲霉菌属、红曲霉属、毛霉菌属、酵母菌属、毕赤酵母属或根霉菌属的至少一种。在一些实例中,古细菌细胞包括餐古菌属、Caldococcus、Ignisphaera、酸叶菌属、Acidococcus、气火菌属、除硫球菌属、燃球菌属、葡萄嗜热菌属、Stetteria、厌硫球菌属、热盘菌属、热球形菌属、Geogemma、超热菌属、热网菌属、火叶菌属、氨氧化古菌(Nitrosopumilus(candidatus))、酸菌属、生金球形菌属、憎叶菌属、硫化叶菌属、硫磺球形菌属、热丝菌属、暖枝菌属、热棒菌属、热分支菌属、热变形菌属、火山鬃菌属、Aciduliprofundum、古球菌属、铁球状菌属、地球状菌属、适盐菌属、盐碱球菌、Haloalcalophilium、盐盒菌属、盐杆菌属、盐棒菌属、盐二型菌属、盐球菌属、极嗜盐菌属、盐几何菌属、盐微菌属、盐惰菌属、盐盘菌属、Haloquadra、盐棍菌属、盐红菌属、盐八叠球菌、盐简菌属、盐陆生菌属、Halovivax、钠白菌属、钠线菌属、钠杆菌属、钠球菌属、盐碱湖菌属、盐碱红菌属、Methanoregula(candidatus)、甲烷砾菌属、甲烷杆菌属、甲烷短杆菌属、甲烷球形菌属、甲烷嗜热杆菌属、甲烷热菌属、甲烷暖球菌属、甲烷炎菌属、产甲烷球菌属、Methanothermococcus、甲烷粒菌属、甲烷囊菌属、甲烷泡菌属、产甲烷菌属、甲烷裂叶菌属、甲烷微菌属、甲烷盘菌属、甲烷螺菌科、甲烷螺旋菌属、甲烷鬃菌属、甲烷微球菌属、拟甲烷球菌属、甲烷盐菌属、甲烷嗜盐菌属、甲烷叶菌属、甲烷食甲基菌属、甲烷咸菌属、甲烷八叠球菌属、甲烷火菌属、古老球菌属、焦球菌属、热球菌属、铁原体属、嗜酸菌属、热原体属、初古菌门、纳古菌门或纳古菌属细胞中的至少一种。

在一些实例中,所述方法包括收集至少一种感兴趣的细胞(例如来自至少一个对象)。在一些实例中,从至少两个对象收集细胞,例如至少一个患有疾病或状况的对象和至少一个没有疾病或状况的对象。在其它实例中,在不同条件下(例如在施用试剂或方案如药物或治疗方案之前或之后)从细胞或对象收集细胞。可以使用本文描述的任何文库。所述方法还可以包括测量所述至少一个报道子。在一些实施方案中,所述方法还包括鉴别和/或定量至少一个报道子。在特定实施方案中,鉴别和/或定量至少一个报道子表示存在与该报道子关联的一或多种CRM。可以例如通过分离与报道子关联的核酸并对该核酸进行测序来进一步鉴定CRM。分离的核酸可以进一步测试以鉴别核酸中包括的CRM。

在一些实施方案中,所述方法包括从已经用核酸报道子文库转染的感兴趣的细胞中分离RNA,从而产生分离的RNA。可以使用任何方法分离RNA,包括提取和沉淀方法(例如Tan et al.Journal of biomedicine&biotechnology(2009):574398-574398,以其全部内容并入本文作参考)。在一些实例中,可以包括其它步骤,如用以增强分离的RNA的纯度。可以包括任何其它RNA分离步骤,如将RNA与特异于DNA的酶接触,例如DNase(如DNase I)和/或核酸外切酶(例如核酸外切酶I和/或核酸外切酶III)。

在一些实施方案中,鉴别报道子包括合成cDNA。在一些实例中,合成cDNA包括逆转录分离的RNA(例如使用本文所述的任何方法分离的RNA),从而产生cDNA。可以使用任何逆转录方法。在一些实例中,所述方法包括将分离的RNA与至少一种逆转录酶接触。可以使用任何逆转录酶。在一些实例中,可以使用重组莫洛尼鼠白血病病毒(rMoMuLV)逆转录酶和/或禽成髓细胞瘤病毒(AMV)逆转录酶。可以包括任何其它cDNA合成步骤。在特定实例中,其它cDNA合成步骤包括将RNA和至少一种逆转录酶与RNA依赖性和DNA依赖性的DNA聚合酶进一步接触。在一些实例中,其它cDNA合成步骤包括加入RNase(例如特异于单链RNA的RNase,如RNase I

在一些实施方案中,所述方法包括检测和/或鉴别cDNA(例如使用本文所述的任何方法合成的cDNA)。可以使用任何检测和/或鉴别cDNA的方法(例如基于测序、基于微阵列和/或基于PCR的方法,如下一代测序方法、微阵列和杂交和/或定量PCR)。在一些实例中,cDNA包括至少一个独特的条形码报道子。在一些实例中,检测cDNA包括扩增cDNA(例如使用PCR,如高保真PCR,例如通过使cDNA与高保真聚合酶和/或至少一个引物如一对通用引物接触),如条形码报道子cDNA(例如条形码报道子cDNA)。在特定实例中,扩增cDNA包括选择特异于包括至少一个独特核酸条形码的核苷酸的引物(例如至少一个引物,如一对引物,例如一对通用引物)。在一些实例中,所述引物包括一对通用引物,其扩增cDNA中的条形码集。在一些实例中,扩增cDNA进一步包括使引物与cDNA接触并进行PCR(例如使用所述引物和所述cDNA)。因此,在一些实例中,所述方法可用于产生扩增的DNA(例如cDNA),如扩增的条形码DNA。在一些实例中,所述方法包括鉴别cDNA,如通过鉴别报道子(例如核酸条形码)。在一些实例中,所述方法包括使用基于测序、基于微阵列和/或基于PCR的方法例如下一代测序、微阵列和杂交和/或定量PCR来鉴别核酸条形码。在特定实例中,通过对核酸条形码进行测序(例如使用下一代测序)来鉴别cDNA。示例的方法可以进一步包括定量步骤(例如定量所述至少一个独特的核酸条形码)。

在一些实例中,本文描述的方法是高通量方法。在一些实例中,本文所述文库中的多个核酸分子覆盖选择的感兴趣的基因组(例如动物或人基因组)的至少约10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%或100%,或约10-20%、20-40%、25-50%、50-75%、75-85%、80-90%、85-90%、85-100%或90-100%,或约93%、93.4%或94%。在其它实例中,所述文库中的多个核酸可提供大于1×的基因组覆盖(例如1×、1.5×、2×、2.5×、3×、3.5×、4×、4.5×、5×、8×、10×或更大的覆盖)。在一些实例中,所述多个核酸分子包括选择的的感兴趣基因组中顺式调节元件的至少约10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%或100%,或约10-20%、20-40%、25-50%、50-75%、75-85%、80-90%、85-90%、85-100%或90-100%或约85%、90%或95%。

本文进一步预期的是检测功能性核酸调节元件的试剂盒。在一些实例中,所述试剂盒可用于鉴别和/或定量功能性核酸调节元件。在一些实例中,所述试剂盒可用于功能性核酸调节元件的高通量检测、鉴别和/或定量。在一些实例中,所述试剂盒可包括本文所述的任何核酸报道子文库。在某些实例中,所述文库覆盖选择的感兴趣的基因组(例如动物或人基因组)的至少约10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%或100%,或约10-20%、20-40%、25-50%、50-75%、75-85%、80-90%、85-90%、85-100%或90-100%,或约93%、93.4%或94%。在一些实例中,所述文库包括选择的感兴趣的基因组(例如动物或人基因组)中顺式调控元件的至少约10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、98%或100%,或约10-20%、20-40%、25-50%、50-75%、75-85%、80-90%、85-90%、85-100%或90-100%,或约85%、90%或95%。

在一些实例中,所述试剂盒进一步包括至少一种逆转录酶(例如重组莫洛尼鼠白血病病毒(rMoMuLV)逆转录酶,禽成髓细胞瘤病毒(AMV)逆转录酶)。可以包括其它cDNA合成元件,如RNA依赖性和DNA依赖性DNA聚合酶和/或RNase(例如特异于单链RNA的RNase,例如RNase I

实施例

提供以下实施例以说明某些特定特征和/或实施方案。这些实施例不应被解释为将本公开限制为所描述的特定特征或实施方案。这些实施例描述了用于顺式调节模块(CRM)的基因组规模报道子测定方法。GRAMc可以可靠地测量带有约800bp随机片段化插入物的2亿个HepG2细胞中人基因组近90%的顺式调节活性。生成了一个报道子构建体文库,其覆盖了人基因组约4倍(4×覆盖),具有≥15M的约800bp的随机片段化插入物。

实施例1

这个实施例描述了用于实施例1-7的方法和材料。

融合的衔接子制备:GRAMc制备包括定制设计的融合衔接子,以最小化形成不需要的串联体(图6)。通过Integrated DNA Technologies(IDT)合成两个互补杂合寡聚物:p-AD4_F(5'-/p/CTGCTGAATCACTAGTGAATTATTACCCrUrUCAAGACACTACTCTCCAGCAGT-3’;SEQ IDNO:1)和p-AD4_R(5'-/p/CTGCTGGAGAGTAGTGTCTTGrArAGGGTAATAATTCACTAGTGATTCAGCAGT-3’;SEQ ID NO:2))。核糖核苷酸位点标记为“rU”和“rA”。通过在1×T4 DNA连接酶缓冲液(

GRAMc载体制备:通过用基于pGEM-T Easy载体

基因组插入物的制备:将20μg的NG16408基因组DNA(Coriell Institute)在具有

从短随机寡聚物逐步合成长随机DNA序列:由于从头合成大量长随机DNA序列仍具有挑战性,因此在某些实例中,从可商购的短随机单链DNA(ssDNA;图13)产生长随机DNA序列集。首先,使用多核苷酸激酶将2μg ssDNA磷酸化,然后通过随机六聚体、dNTPs和Klenow酶转化为双链DNA(dsDNA)。平行地,使用随机六聚体、dNTPs和Klenow酶将1μg未磷酸化的ssDNA转化为dsDNA。其次,用在1×T4 DNA连接酶缓冲液中的200ng未磷酸化的dsDNA和T4DNA连接酶制备反应管。将未磷酸化的dsDNA与磷酸化的dsDNA连接。第三,为起始连接,将50ng磷酸化的dsDNA(或未磷酸化的DNA的一部分,例如约1/4)加入连接反应管中。由于反应中存在过量的未磷酸化的DNA,因此大多数磷酸化的DNA与未磷酸化的DNA连接。每个未磷酸化的DNA分子最多可以接受两个分子的磷酸化的DNA(一个末端一个分子)。连接产物包括未磷酸化的5’-末端。重复这个连接程序至少一个循环(例如至少约1、2、3、4、5、6、7、8、9、10、12、15、18、20、25、30、45、50、60、75、90或100个循环,或约1-5、1-10、1-15、1-20、5-20、10-25、25-50或50-100个循环,或约16个循环)。循环数(X)预计为≥2xL/I,其中L和I分别是希望的产生的随机DNA的长度和起始核酸的长度。例如,要用100bp长的核酸合成约800bp长的DNA分子集,X应约≥16。第四,用DNA修复酶(

基因组覆盖估算:为确定代表1×基因组覆盖的衔接子连接的插入物的量,制备0.5ng/μl、0.25ng/μl、0.1ng/μl、0.05ng/μl和0.025ng/μL的插入物稀释液。用两种衔接子特异性引物NJ-213和NJ-214扩增每种稀释液,在61℃退火及延伸1分钟,通过循环测试确定。使用

文库中存在的基因组区域的泊松概率(P)表示为P=1-(1-p)XN,其中p=(插入物大小)/(基因组大小),N=对于指定插入物大小的基因组分区数,X=预期的基因组覆盖。将通过QPCR鉴别存在的靶比例与P值进行比较。基于此模型,对于约1×基因组覆盖的样品的P约为0.6。测试0.1ng/μL稀释液对11个靶中的6个呈阳性或比例为0.545,表示0.5×-1×覆盖。因此,确定0.2ng插入物代表约1×基因组覆盖。混合等摩尔量的独立扩增的重复样品以获得5×基因组覆盖的插入物集合。

GRAMc文库的插入物克隆和N25条形码编码:将30ng的5×基因组插入物克隆进在16μL

为在GFP ORF下游加入N25条形码,在50μL的Q5高保真DNA聚合酶反应中使用150ng文库用于用NJ-127的单次PCR循环,其包含随机25bp条形码序列,核心聚(A)信号(Nag,etal.RNA 12.8(2006):1534-1544)和5’生物素酰化,退火温度为60℃,持续40秒,延伸时间为15分钟。NJ-126在PCR中用作竞争剂,以通过占据和延伸相反链来降低模板转换的可能性。如前所述,通过使用50μL珠进行

分离后,将C1珠在20μL水中洗涤,然后重悬在50μL水中。将一半的条形码编码的文库在24×20μL重复

然后将条形码编码的GRAMc文库进行自连接。为减少分子间连接,将125ng条形码编码的文库在600μL的1×T4连接酶缓冲液(

GRAMc文库的转化和大小估算:为确定电穿孔的规模,将1μl连接产物电穿孔到25μL的

为产生具有200M集落靶的完整GRAMc文库,每2×25μL

作为质量控制步骤,从平板中挑选12个集落,并提取质粒以使用Sanger测序检查插入物大小和条形码。每个集落的质粒应含有一个插入物(约800bp)和一个条形码。在连接产物包括高条形码多样性的情况中,从集落中鉴别的条形码序列不应出现在最终文库中。表3中提供了使用的GRAMc载体和寡聚物的示例序列。

表3:引物和衔接子修剪序列示例

测序文库:为鉴别单个报道子构建体中的插入物和相关条形码,使用NextSeq500平台进行双末端(paired-end)测序。在

在这个实施例中,构建测序文库从使用针对载体主链或GFP ORF的sgRNA用Cas9(

为从环化的第一轮PCR产物中扩增插入物::N25盒,使用NJ-209和NJ141扩增4个包含2ng的Hs800_14连接物的重复样品(以下称为Hs800_1423),及使用NJ-208和NJ142扩增4个包含2ng的Hs800_23连接物的重复样品(以下称为Hs800_2314),退火温度60℃,延伸时间90秒,共8个循环。将产物进行柱清洗,凝胶分离和珠清洁,以用于随后的PCR扩增,以加入用于

为增加在

从插入物和条形码修剪衔接子序列:从每对序列读取提取插入物的5’和3’末端及其相关的N25条形码。使用Trimmomatic(Bolger,et al.Bioinformatics 30.15(2014):2114-2120)去除衔接子序列,及使用seqtk(github.com)以反向互补序列。为提取插入物的5’-末端和3’-末端,分别修剪了P1和P2衔接子。为提取N25条形码,根据序列读取方向,首先修剪P3或P4衔接子,对修剪的序列进行反向互补,再修剪P4或P3衔接子。未能修剪任何衔接子序列的双末端读取被放弃。注意,对于N25条形码序列,每个衔接子保留1bp,获得27bp读取。表3中提供了用于修剪的衔接子序列。

人基因组中插入物的序列读取作图和鉴别:为鉴别插入物,将提取的插入物的5’和3’末端作图于GRCh38/hg38组件上(从genome.ucsc.edu下载)。使用Burrows-Wheeler比对工具(BWA)(Li,et al.Bioinformatics 25.14(2009):1754-1760)通过以下命令对序列作图:“bwa mem-W 1500”。跨越>1,500bp或<300bp的作图的成对读取被放弃。当两个作图的插入物重叠时,其中点在20bp范围内,两端在50bp范围内,将其合并为一个插入物,并采用最大化其长度的坐标。

聚类N25条形码:为鉴别同一条形码的读取,基于以下步骤对提取的条形码读取聚类:i)使用Khmer软件包(Crusoe,et al.F1000Research 4(2015))及如下命令通过过滤冗余读取生成代表性读取:“normalize-by-median.py-C 1 -k 25 -N 5 -x 2.5e9”;及ii)使用BWA软件(Li,et al.Bioinformatics 25.14(2009):1754-1760)及如下命令将整组条形码读取与代表性读取进行匹配:“bwa aln -n 2 -o 2 -e -1 -M 3 -O 11 -E 8 -k 1 -l6”。将与任何代表性读取均不匹配的条形码读取加入代表性读取文件中,并重复进行BWA检索。通过单连锁聚类法鉴别相同条形码的读取,并且为每个聚类指派独特的条形码聚类(bcl)编号。生成具有bcl编号的代表性读取新文件,用于将来使用(见下文,HepG2中的GRAMc测定:将条形码读取与条形码聚类匹配)。

将基因组插入物与条形码聚类(bcls)相关联:尽管在双末端读取中每个条形码读取均固有地与来自插入物的读取相关联,但一小部分bcl与一个以上已鉴别的基因组插入物相关联。这种歧义的主要原因是基因组中高度相似的重复区域所致。bcl的指派被强制用于具有最大bcl读取的插入物。如果≥2个插入物对bcl具有相同读取编号,则不会将bcl指派给任何插入物。

细胞培养:将HepG2细胞(ATCC HB-8065)在供应商推荐条件下在补加不含抗生素的10%胎牛血清的EMEM中生长。自所有实验接收之日起,使用不超过16代内的HepG2细胞。所有实验均在融化后经历最低5代传代的细胞中进行,因为在<5代传代的细胞中与在≥5代传代的细胞中的报道子表达不同。

基因组规模转染和裂解物收集:对于每批基因组规模转染批次,将10

为了收集,转染后将细胞用1×PBS洗涤26小时并通过在2.4mL RNA-STAT-60

RNA制备和cDNA合成:这个方案着重于两个参数:i)全面去除RNA样品中污染的DNA,以及ii)大量(约4mg)总RNA逆转录(RT)的效率最大化。为DNase I补充核酸外切酶I和III的混合物可以完全去除双链和单链污染DNA,因为DNase I对单链DNA的效率较低。为经济高效地最大化RT,使用的RNA是制造商建议的最大输入RNA的15倍,而又不影响RT反应中的cDNA产量。这个方案示意图在图9中示出。

为去除污染的DNA,将分离的总RNA(约4mg)重悬于1.7mL无核酸酶的水中,在37℃在包含1×DNase I缓冲液、100U DNase I(

作为逆转录(RT)的质量控制,将含有约4000个细胞(约1μg)的等效体积的总RNA用于cDNA合成,根据制造商的方案使用高容量cDNA逆转录试剂盒(APPLIED

将剩余的总RNA(约4mg)稀释至1.420mL,加入2000pmol的GRAMc_RT_oligo(NJ-489)。将RNA/引物混合物在65℃温育1分钟,然后在冰上冷却,随后加入200μL的10×高容量缓冲液、80μL的10mM dNTP和100μL的Multiscribe,不使用随机寡聚物。将反应在室温温育10分钟,然后在37℃4小时。与使用100个细胞/孔等效体积的标准RT对照相比,通过针对GFP的QPCR监测基因组规模cDNA合成的进程。使反应继续进行直至Ct值变得类似于标准RT反应。如果需要,将反应用M-MuLV逆转录酶(

RT反应完成后,将样品用乙醇沉淀以减少体积。将RNA/cDNA重悬并用1000U的RNase If(

制备用于NGS的表达的N25条形码:使用引物NJ-141和NJ-142在8次重复的50μl的

制备测序文库以进行

将条形码读取与条形码聚类(bcls)匹配:这个步骤的目的是针对每个条形码聚类(bcl)计数从表达的条形码或输入文库中读取的条形码数目。通过使用与上述相同的命令进行BWA搜索,将衔接子修剪的条形码读取与上述建立的代表性条形码读取匹配。当一个条形码读取匹配多于一个bcl时,每个匹配都计入相应bcl。因为对表达的条形码和输入文库都应用了相同的程序,所以中和了多次计数条形码读取的影响。

CRM活性的计算:这个步骤基于从表达的条形码和输入文库计数的每个bcl的读取数目,计算每个插入物的顺式调节活性。当一个插入物与≥2个bcl相关联(99%的插入物)时,合并所述插入物的所有bcl的读取计数。首先,为避免由于输入计数过低而导致的假阳性CRM,对于这两个批次的实验,保留了来自输入文库的≥10计数或表达的条形码≥50计数的插入物。这个过滤获得9,339,996个符合保留标准的插入物。其次,将表达的条形码的读取计数除以输入文库的读取计数,然后对所得数字进行排序。中间30%的数据用于计算背景活性(bg)(例如26)。将CRM活性根据背景活性进一步标准化。当至少一个批次显示≥5×bg且另一个显示≥4.5×bg(90%的5×bg)时,插入物被认为是CRM。总共鉴别出54,115个通过标准的插入物。在去除基因组其它部分中具有≥95%相同序列的插入物及合并重叠CRM之后,最终一组包含41,216个独特且不重叠CRM。散点图在图2A中示出,其是使用R软件包(cran.r-project.org)中ggplot2(Wickham.ggplot2:Elegant Graphics for DataAnalysis,Springer-Verlag New York,2009)产生的,使用500,000个随机选择的插入物。

为比较CRM和基因的基因组位置,使用来自ftp.ensembl.org的可公开获得的基因注释文件“GRCh38.89.gff3”和来自encodeproject.org的HepG2细胞“ENCFF861GCR和ENCFF640ZBJ”的RNA-seq数据。在两个RNA-seq数据中FPKM≥1的基因均被视为“表达”。为生成图2C和10A-10F中所示的图,使用R中的Grid Graphics Package(Murrell.Rgraphics.CRC Press,2016),仓大小为1Mb。

为计算基因组区域中关于基因的CRM富集(图2D),将跨越超过2kb窗口的插入物/CRM分配给与插入物最多重叠的窗口。从GRCh38.89.gff3文件中提取基因5’末端和3’末端的基因组坐标。一个基因的插入物/CRM仅计数一次,但对于不同的基因则允许多次计数。

产生单个报道子构建体:通过PCR单独扩增20个基因组区域(11个CRM,5个边缘活性区域和4个非活性区域)并通过GIBSON

将预先条形编码的SCP-GRAMc载体进一步用于产生EGFP内部对照载体,用于各个克隆的GFP报道子表达的QPCR。对于这个步骤,使用NJ731和NJ732通过反向PCR扩增载体。来自pEGFP-C1的EGFP ORF使用NJ729和NJ730扩增并使用GIBSON

单独报道子测定以验证GRAMc结果:将HepG2细胞以约60K个细胞/孔接种在24孔平板中的补充有10%FBS的500μL EMEM中。为与基因组规模测定一致,使用的细胞在从ATCC收到第12-15代之间,在恢复后至少7代。使细胞附着24小时并用50μL的

ENCODE ChIP-seq文件得自encodeproject.org。使用bedtools(Quinlan,etal.Bioinformatics 26.6(2010):841-842)与命令“bedtools jaccard-f 1E-09-F 1E-09”计算CRM和各个ENCODE数据之间重叠。通过以下程序计算CRM中ENCODE注释的相对富集。i)首先,计算CRM和ENCODE注释之间重叠碱基对的基因组比例。ii)通过将两个数据集的基因组比例相乘来计算随机预期的重叠。iii)将i)的结果除以ii)的结果以计算富集。iv)按照相同程序,计算非活性区域(L1组)中相同ENCODE注释的富集。v)通过获得iii和iv的比率来计算相对富集。

GRAMc插入物的选择:将ChromHMM(Ernst,et al.Nature 473.7345(2011):43;Ernst,et al.Nature biotechnology 28.8(2010):817)预测的HepG2的强增强子与GRAMc数据比较CRM活性和基序富集。染色质状态的基因组坐标通过liftOver(Hinrichs,etal.Nucleic acids research 34.suppl_1(2006):D590-D598)转变为hg38。首先,随机选择与预测的强增强子长度≥90%重叠的非重叠GRAMc插入物。这种选择产生了18,898个GRAMc插入物,其对应于预测的强增强子。这个用于生成图3A。

为比较基序富集,在不考虑预测的增强子的情况下,随机采样了另外18,898个不重叠的GRAMc CRM(≥5×bg或G5)。作为阴性对照,还采样了37,796个不重叠无活性插入物(≤1×bg或L1)。

基序富集测量:为测量推定的转录因子结合位点(TFBS)基序,同时分析了采样的75,592个插入物。使用HOCOMOCOv10数据库(Kulakovskiy,et al.Nucleic acids research44.D1(2015):D116-D125)和FIMO软件(Cuellar-Partida,et al.Bioinformatics 28.1(2011):56-62;Bailey,et al.Nucleic acids research 37(2009):W202-W208),E值截止值为1E-5。每个基序的丰度是给定集合中包含基序的插入物的比例。相对基序富集是通过将CRM或预测的增强子中基序的丰度除以阴性对照集合中相同基序的丰度来计算的。

CRM中基序富集和ChIP-seq峰的比较:以名称鉴别HOCOMOCOv10与ENCODE ChIP-seq数据之间的58个常见转录因子。计算的相对富集评分用于生成图4B。

GRAMc文库随机子集的制备:为获得GRAMc文库的小规模子集以通过pitx2或ikzf1的异位表达进行扰动实验,将约50μL冷冻甘油原液在2ml的LB培养基中稀释,在37℃以250RPM回转式振荡20分钟以回收。制备一系列2倍稀释液,其中1/100用于2个10倍稀释液进行铺板和集落计数,剩余的每个2倍稀释液用于接种150ml的LB-Amp培养液过夜生长。使用

80K构建体文库的扰动测定:将细胞以约2M个细胞/10cm

转染后24小时,通过胰蛋白酶消化收集细胞并用1×DPBS洗涤。保存1/10的细胞用于western印迹分析,以确认Pitx2和IKZF1的表达。裂解剩余细胞,针对DNA和RNA使用带有IIICG柱的Zymo-Duet试剂盒处理,无需柱上DNase I处理。在100μL中洗脱DNA,在80μL中洗脱RNA,并在37℃用DNase I(8U)/ExoI(100U)/ExoIII(100U)处理最少4小时,总反应体积为在1×DNase I缓冲液中100μL。假设每个样品有约10M个细胞,使用以GFP为靶的QPCR检测等价的约10,000个细胞的gDNA和约5000个细胞的核酸酶处理的RNA,以分别确认转染质量和RNA中DNA去除的完成。根据需要用另外2U的DNase I加标反应。使用Zymo-IIIC柱清洁RNA,在50μL水中洗脱。如基因组规模方案中所述,将等价的约4000个细胞在标准RT反应中用作质量控制的量度。剩余RNA与用于cDNA合成的80pmole的GRAMc_RT_oligo(NJ-489)在80μL的1×高容量cDNA合成反应中保温,使用8μL的Multiscribe和3.2μL的dNTP但不使用随机引物在37℃温育4小时至过夜,在室温2小时后,用于质量控制QPCR。DNA消化完成后,在37℃将4μL的

如上所述,初步扩增N25条形码,但是使用6个循环的单个50μL的

通过Western印迹确认异位转录因子表达:将每种转染条件(80K文库+CMV::pitx2,80K文库+CMV::IKZF1,及80K文库+CMV::EGFP)的等分试样在冰上在80μL的RIPA缓冲液(150mM NaCl,1%NP40,0.5%脱氧胆酸钠,0.1%SDS,50mM Tris-HCl pH 8.0,5mM EDTA)中间歇性轻弹裂解30分钟,缓冲液用1:100稀释的Halt蛋白酶抑制剂混合物

将约25ng的每种样品一式两份加样(表达和对照),在12%聚丙烯酰胺凝胶上分离,移至PVDF膜上,并用抗FLAG抗体(1:500,Santa Cruz sc-166355)或抗GAPDH抗体(1:1000,Santa Cruz sc-25778)印迹。辣根过氧化物酶缀合的二抗(1:5000)和增强的化学发光试剂(GE Healthcare)用于在Bio-Rad ChemiDoc MP系统上检测条带。

实施例2

本实施例描述了GRAMc文库的构建。在这个实施例中,通过以下程序生成GRAMc文库(图1A-1D)。首先,对随机基因组DNA片段进行大小选择,衔接子连接,然后连续稀释以达到预期的基因组覆盖(图1A)。为改良衔接子连接的准确性,将衔接子(图6)融合以形成环状连接产物,其可以抵抗针对线性DNA的核酸外切酶I/III处理,包括未连接的DNA和线性串联体。核酸外切酶处理后,通过RNase HII使环状连接产物线性化,其切割在融合的衔接子内的核糖核苷酸位点(UU/AA)。然后将线性化的连接物连续稀释并使用衔接子特异性引物进行PCR扩增。通过QPCR计数11个随机选择的基因组区域的存在或不存在来鉴别预期的基因组覆盖的稀释度。对于包含约4M个随机取样的约800bp长的基因组DNA片段(平均1×基因组覆盖)的稀释液,预期靶区域存在率为0.6。将5×稀释液(或任何所需的基因组覆盖)与两个常见DNA组件组装在一起以形成线性DNA产物文库,其中包含基因组测试片段、基础启动子、GFP ORF(Arnone,et al.Development 124.22(1997):4649-4659)和载体主链(图7)。载体系统使用全部两个对称超级核心启动子(pan-bilaterian Super Core Promoter)1(SCP)(Juven-Gershon,et al.Developmental biology 339.2(2010):225-229)。

其次,使用一对可以扩增包括载体主链的整个文库的通用引物通过PCR,用过量的随机25mer(N25)对所得基因组DNA文库进行条形编码(图1B)。常见的引物之一,即引物_R,含有在中间的一个随机N25和一个核心聚腺苷酸化信号(polyA)(Nag,et al.RNA 12.8(2006):1534-1544)。将条形编码的文库自连接,核酸外切酶I/III处理,并电穿孔进大肠杆菌中以进行文库扩增和质粒提取。一小部分(例如1/1,000)未回收的转化体用于测量集落形成单位(cfu),其余用于在液体培养中的文库扩增和随后的质粒提取。由于PCR介导的条形编码导入过多的条形码,因此实际上所有单个转化体都含有独特的条形码。例如,在最终文库中未鉴别出用于集落计数的存在于转化体中的条形码。GRAMc文库中独特条形码报道子的数目可以通过电穿孔的规模来控制。在本文使用的方案中,具有约800bp的插入物的4-10ng环状连接产物始终产生约40M cfu,这与可商购的感受态细胞的广告效率相当。只要收获的独特条形码的数目远大于独特插入物的数目,就可以维持第一步中确定的文库的基因组覆盖。纯化的质粒用于文库鉴定。文库鉴定包括通过

使用所述方法,产生了约800bp长的插入物的人GRAMc文库。这个文库中独特基因组DNA插入物和独特条形码的预期数目分别为20M(5×基因组覆盖)和200M(10个条形码/插入物)。在分析了作图为hg38组装的479.1M个成对序列后(在519M双末端读取中),鉴别出15.6M个基因组区域。与这些基因组区域相关的独特条形码的总数为191M。所述文库至少一次覆盖93.4%的人基因组(表1)。

表1:人GRAMc文库的基因组覆盖

尽管获得更多的测序读取将改善这些数目,但这些数目已经接近文库中插入物和条形码的预期数目。在检测的15.6M个基因组区域中,有13.8M个插入物是序列独特的(与其它基因组区域的序列相同性<95%)。另外,独特插入物的基因组分布或多或少是均匀的(图2C)。对于独特插入物(图1C),71%的插入物在750-850bp范围内,表明大小选择是有效的。此外,考虑到每个插入物的条形码数目(图1D),尽管大多数插入物的条形码数目与预期的数目10有明显偏差,但是99%和55%的独特插入物分别与≥2个条形码和≥10个条形码相关联。因此,在GRAMc文库中,条形码对报道子表达的特异性作用不明显。插入物及其相关条形码的基因组坐标的列表可从图6中获得。

实施例3

在这个实施例中,描述了GRAMc在HepG2细胞中的应用。将GRAMc文库在两个批次中测试:在种植时100M HepG2细胞或在转染时200M细胞。作为比较,先前基因组规模增强子筛选使用了300M LNCaP细胞(Liu,et al.Genome biology 18.1(2017):219)和800M的HeLa细胞(Muerdter,et al.Nature methods 15.2(2018):141),基因组规模启动子筛选使用了100M的K562细胞(van Arensbergen,et al.Nature biotechnology 35.2(2017):145)。将GRAMc文库转染进细胞后,提取总RNA并逆转录,对表达的条形码进行PCR扩增。为避免在二次富集mRNA(Muerdter,et al.Nature methods 15.2(2018):141)或报道子转录本(Tewhey,et al.Cell 165.6(2016):1519-1529)期间损失报道子转录,将总RNA和GRAMc特异性寡聚物用于逆转录。通过PCR扩增表达的条形码,并通过

从每批表达的条形码中获得约200M读取,78-79%的条形码与具有相关基因组区域的条形码匹配。为说明拷贝数变化,从输入质粒中获得约450M条形码读取。由于99%的插入物驱动≥2个条形码,因此将同一插入物的多个条形码的读取合并在一起。从输入质粒中≥10个读取的约7.5M插入物用于数据分析。在两个独立的实验中,来自41,216个非重叠基因组区域的共50,993个插入物显示的活性比背景(bg)活性(红色点,≥5×bg)高≥5倍(图2A)。重复GRAMc数据显示Pearson相关系数(r)为0.95,一个批次中的CRM被认为是另一批次中的CRM的可能性为0.80(80%的CRM再现性)。当截止值降低至背景的3倍时(橙色和红色点,≥3×bg)时,活性区域的数目增加至150,011(CRM的再现性62%)。

为验证GRAMc的准确性,随机选择11个CRM(≥5×bg,红点)、5个边缘活性片段(3-5×bg,橙色点)和4个非活性片段(≤1×bg,黑色点),使用逐一报道子测定单独检测其调节活性(图2B)。通过QPCR测量相对于转染DNA拷贝的GFP转录物水平。将报道子表达根据背景活性(bg)进一步标准化,这是4个非活性报道子构建体的平均水平。以黑色条示出各个插入物的4个独立测定的平均水平。在测试的11个CRM中,8个插入物≥5×bg,而2个插入物和1个插入物分别为2.8×bg和1.9×bg。这个结果与GRAMc中CRM的80%再现性相当(图2A)。对于5个边缘活性插入物,1个插入物为10×bg,3个插入物在预期的3-5×bg范围内,1个插入物为1.4×bg。总体而言,通过GRAMc测量的顺式调节活性在独立测定中可再现(R2=0.83)。这些结果表明,GRAMc是在基因组规模发现CRM的可靠而有效的工具。

实施例4

这个实施例描述了具有预期CRM特征的GRAMc鉴别的CRM。由于GRAMc基于报道子构建体的标准构型,因此GRAMc鉴别的CRM应具有通过传统的报道子测定法鉴别的CRM的已知特征。首先,CRM应主要位于HepG2中表达的基因附近。比较了HepG2、CRM和输入文库中表达基因的基因组位置,表达的基因和CRM具有相似的模式,而输入文库大致均匀分布(图2C和10A-10F)。

其次,已知CRM富集在基因5’近端(启动子);但是其大多数位于近端区域之外(远端增强子)(26)。当针对在表达基因的上游或下游的滑动2kb窗口内测试的插入物的数目计算CRM的比例时,5’近端2kb区域显示最高的富集(0.03)(图2D)。3’近端2kb区域显示第二最高峰,而基因组区域中的CRM略微耗尽。尽管存在这些区域差异,但与0.0067的基因组平均值相比,CRM在每个方向上一致富集在至少100kb区域内的表达基因周围。在未表达的基因附近也观察到类似模式,但是富集程度低于表达的基因附近。这些结果表明,GRAMc可以有效地鉴别近端启动子和远端增强子二者。

第三,预期CRM与转录因子和其它积极影响CRM功能的蛋白质结合相关。窄峰的相对富集(相对于随机预期共享的总碱基对)是根据来自CRM相对于非活性片段中HepG2的167个ENCODE ChIP-seq或DNase-seq数据计算得出的(图2E),有153个数据显示在CRM相对于非活性区域≥2倍富集。这些包括一般转录因子(例如GTF2F1,TAF1和TBP)、转录共激活因子(P300)和组蛋白修饰酶(例如H3K4me3和H3K9ac)。在CRM中未富集或甚至耗尽的ChIP-seq峰包括转录因子(TCF12和BCLAF1)、剪接体组分(PLRG1和SNRNP70)和组蛋白甲基化酶(H3K27me3,H3K36me3和H3K9me3)。有趣的是,尽管总体富集,但只有32%的GRAMc鉴别的CRM与在CRM中≥2倍富集的153个ENCODE数据重叠,而58%的CRM不与本分析中使用的任何ENCODE数据重叠。尽管获得更多转录因子的ChIP-seq数据可能会增加重叠,但报道子测定可检测由于染色质沉默而在基因组中无活性的CRM或可逃避ChIP-seq检测的CRM。

实施例5

在这个实施例中,示出基序富集以解释ChromHMM预测的增强子的差异活性。较早研究表明,尽管基于染色质标记的CRM预测在经过功能验证的CRM中富集,但大多数预测的CRM在报道子测定中均未驱动显著表达(Liu,et al.Genome biology 18.1(2017):219;Muerdter,et al.Nature methods 15.2(2018):141;van Arensbergen,et al.Naturebiotechnology 35.2(2017):145)。与这些观察结果一致,在与在HepG2中ChromHMM预测的强增强子重叠≥90%的GRAMc测试的片段的顺式调节活性测定中(Ernst,et al.Naturemethods 9.3(2012):215),约80%预测的增强子显示出在GRAMc中背景活性的≤2倍(图3A)。如果预测的增强子是真正的增强子,则可以预期转录因子结合位点(TFBS)基序的富集。预测的强增强子是本文的重点,因为启动子固有地富含基序,而预测的弱增强子可能增加歧义。

使用FIMO软件(Cuellar-Partida,et al.Bioinformatics 28.1(2011):56-62;Bailey,et al.Nucleic acids research 37(2009):W202-W208)比较在预测的增强子、GRAMc鉴别的CRM和无活性片段中601个HOCOMOCO_v10人基序的富集(Kulakovskiy,etal.Nucleic acids research 44.D1(2015):D116-D125)。总体而言,GRAMc鉴别的CRM比预测的增强子表现出更强的基序富集(图3B)。在GRAMc中(图3C-3D)活性或边缘活性的预测增强子显示出与GRAMc鉴别的CRM相当的基序富集或耗竭。相反,在具有较弱报道子表达的预测增强子中,基序的富集逐渐消失(图3E-3G)。由于其无法驱动显著报道子表达和弱基序富集,因此大多数预测的增强子可能不是真正的增强子。但是,这并不排除染色质标记可能指示增强子的邻域而不是确切位置的可能性,以及预测的增强子可能具有在报道子测定中无法测量的其它类型的顺式调节活性。

干扰素途径的激活导致在DNA转染时错误鉴别干扰素反应性增强子(Muerdter,etal.Nature methods 15.2(2018):141),并且这种假象会减少GRAMc鉴别的CRM和ChromHMM预测之间的重叠。但是,与HepG2细胞不激活该途径的最初发现一致,干扰素刺激的转录因子包括IRF1-9和hMX1的基序在GRAMc鉴别的CRM中不富集。

实施例6

这个实施例表明,CRM中富集的基序可以预测潜在的新型基因调节相互作用。通过小报道子构建体测量的报道子表达模式是宿主细胞中反式调节环境的直接解读。由于CRM的DNA序列包含转录因子的结合位点,因此通常使用计算基序分析来推断基因调节程序(例如Xie,et al.Nature 434.7031(2005):338;Mariani,et al.Cell systems 5.3(2017):187-201;Enuameh,et al.Genome research(2013):gr-151472;Markstein,etal.Development131.10(2004):2387-2394;Halfon,et al.BMC genomics 12.1(2011):578)。基于通过FIMO在CRM和在无活性片段(阴性对照)中计算预测的601个HOCOMOCO_v10HUMAN基序(Kulakovskiy,et al.Nucleic acids research 44.D1(2015):D116-D125),计算丰度(基序阳性CRM或无活性片段的比例)和基序的相对富集(CRM相对无活性片段中的基序的相对丰度)(图4A)。结果表明,与无活性片段相比,601个基序中有176个基序在CRM中≥2倍富集。有趣的是,大多数(65%)富集的基序是针对表达的(FPKM≥1)转录因子,而其余是针对未表达或表达极低(FPKM<1)的转录因子(3)。

表达的转录因子的富集基序应预测在HepG2中鉴别的CRM的阳性调节因子。为检测调节因子,将基序分析结果与来自HepG2细胞的ENCODE ChIP-seq数据比较(3)。如果基于基序富集的预测转录因子是正确的,则相同转录因子的ChIP-seq峰也应富集。两个数据集共有总计58个转录因子。在58个因子中,相对无活性片段,31个基序和56个ChIP-seq峰在CRM中富集≥2倍(图4B)。假定除了一个富集的基序以外,所有其它基序也都在ChIP-seq数据中富集,则基于基序富集的阳性调节因子预测具有非常低的假阳性率(<<0.1)。其它约50%的转录因子显示基序富集<2倍,但ChIP-seq峰仍然高度富集。尽管需要进行更详细的分析,但在保守的情况下,本文基于基序的预测显示出约0.5的假阴性率。

未表达的转录因子的基序富集表明其在其它细胞类型或条件下将HepG2-CRM作为激活物或阻抑物来控制(图4C)。候选转录因子在HepG2中的异位表达被用于检测这种调节因子。检验两个转录因子基因pitx2(同源盒基因)和ikzf1(ikaros同源物)。在小鼠中,pitx2在胎肝中表达并且是胎肝的造血功能所必需的,而pitx2和胎肝的造血功能的关闭对于从胎肝分化成年肝脏至关重要(Kieusseian,et al.Blood 107.2(2006):492-500)。类似地,ikzf1是造血发育的关键调节物(Davis.Therapeutic advances in hematology 2.6(2011):359-368)并在胎肝中表达(Roy,et al.PNAS USA(2012):201211405);但是其在肝发育中的功能尚不清楚。将可以组成型表达pitx2(CMV::pitx2)或ikzf1(CMV::ikzf1)的mRNA的质粒与来自完整GRAMc文库中的一组随机选择的约80,000个GRAMc报道子构建体共转染。作为对照实验,将可组成型表达GFP mRNA(CMV::gfp)的质粒与同一组报道子构建体共转染。所有这三个实验的重复实验都是高度可再现的(Pearson's r≥0.99)(图14)。HepG2中pitx2的异位表达下调大多数CRM≥2倍,这种下调在pitx2基序阳性CRM中更加明显(双样本t检验,P=4.4E-16)(图4D)。在ikzf1的情况下,只有9个CRM下调≥2倍,9个下调的CRM中有6个对IKZF1基序呈阳性(双样本t检验,P=2.5E-4)(图4E)。通过western印迹证实了这两个重组基因的蛋白表达(图11)。这些结果表明,pitx2(和ikzf1在较小程度上)在胎肝中维持HepG2-CRM抑制,而pitx2清除对于成年肝脏中HepG2-CRM的激活和基因表达至关重要。这些结果表明,CRM不仅可用于预测宿主细胞中的调节程序,而且可用于预测在时间和空间上分离的细胞之间的调节相互作用。

实施例7

这个实施例表明SINE/Alu元件在CRM中富集。真核基因调节的早期模型提出重复元件是基因表达控制的关键参与者(McClintock.PNAS USA 36.6(1950):344-355;Britten,et al.Science 165.3891(1969):349-357)。这些预测随后得到有助于基因调节及其进化的Alu和ERV元件的多个实例支持(Britten.PNAS USA 93.18(1996):9374-9377)。此外,染色质特征的基因组调查表明,SINE/Alu元件在推定的CRM中富集(Su,et al.Cellreports 7.2(2014):376-385;Trizzino,et al.BMC genomics 19.1(2018):468)。但是,针对增强子(Muerdter,et al.Nature methods 15.2(2018):141)或启动子(vanArensbergen,et al.Nature biotechnology 35.2(2017):145)的基因组规模报道子测定已检测到LTR/ERV1和LTR/ERVL-MaLR在CRM中富集而不是SINE/Alu。为测定在GRAMc鉴别的CRM中的这种富集,将本文的数据与人基因组中带注释的重复元件进行比较(Smit,et al."RepeatMasker Open-4.0”(2015))。检测到三个重复元件家族,即随体/端粒、SINE/Alu和LTR/ERV1,在CRM中富集≥2倍(图5A中G5组);但是LTR/ERVL-MaLR在CRM中不富集。这三个元件在边缘活性G3L4和G4L5组中也较低程度富集。有趣的是,CRM中的α随体耗竭了约8倍,表明其在HepG2中具有抑制功能或与其它CRM的不相容性。然而,未检测到预期在肝脏中是转录阻抑物的逆转录子/SVA元件的耗竭(Trizzino.Genome research 27.10(2017):1623-1633)。

使用GRAMc鉴别的CRM,测定Alu元件向增强子的进化与时间的关系(Su,etal.Cell reports 7.2(2014):376-385)。CRM中Alu元件的富集应与年龄正相关。但是,检验了Alu的三个主要亚家族(图5B),最年轻的亚家族(AluY)和中间亚家族(AluS)示出在CRM中≥3倍富集,而最老的亚家族(AluJ)仅示出中度富集(1.3倍)。因为最初的研究基于HeLa细胞中的染色质注释,所以这种差异可以用细胞类型的差异来解释。因此,汇编了在HeLa细胞中用萤光素酶测定法测试的19个Alu元件的亚家族(Su,et al.Cell reports 7.2(2014):376-385)。与这些结果一致,8/10的AluY或AluS元件是活性的,而仅4/9的AluJ元件是活性的。因此,结果与可替换模型一致,即Alu元件随着年龄增长而失去调节活性。

这些结果表明,GRAMc数据可用于测试多种进化基因组学假说,并且与早期基因组规模报道子测定或染色质注释所产生的数据相比,其可以得出不同结论。此外,有可能在GRAMc和先前报道子测定之间观察到的差异可能在很大程度上归因于所使用的不同细胞类型。表2提供了重复元件的完整列表的富集。

表2:重复元件的完整列表的富集

注意:富集评分在log

鉴于可以将本公开的原理应用于其的许多可能的实施方案,应当认识到示例的实施方案仅是举例,不应被视为限制本发明的范围。本发明的范围是由所附权利要求书限定。因此,我们要求保护在这些权利要求的范围和精神内的所有内容作为我们的发明。

序列表

<110> 罗格斯新泽西州立大学

<120> GRAMC:顺式调节模块的基因组规模报道子测定方法

<130> 7213-101448-02

<150> 62/753,608

<151> 2018-10-31

<160> 124

<170> PatentIn version 3.5

<210> 1

<211> 52

<212> DNA

<213> 人工序列

<220>

<223> 示例线性衔接子序列

<400> 1

ctgctgaatc actagtgaat tattacccuu caagacacta ctctccagca gt 52

<210> 2

<211> 52

<212> DNA

<213> 人工序列

<220>

<223> 示例线性衔接子序列

<220>

<221> misc_RNA

<222> (24)..(25)

<400> 2

ctgctggaga gtagtgtctt gaagggtaat aattcactag tgattcagca gt 52

<210> 3

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-95, Gibson_SCP1_amp1

<400> 3

ctgctggaga gtagtgtctt gtacttatat aagggggtgg g 41

<210> 4

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-96, EcoP15l_P1r_lin

<400> 4

ctgctgaatc actagtgaat tcgcgg 26

<210> 5

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-101, 3PofN25merShort

<400> 5

ggcgcgccgc tgagggagt 19

<210> 6

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-126, NT_del_F

<400> 6

aattcgccct atagtgagtc gta 23

<210> 7

<211> 71

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-127, bN25_polyA_R-1/primer_R

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5' 生物素修饰

<220>

<221> misc_feature

<222> (22)..(46)

<223> n is a, c, g, t or u

<400> 7

tacagtccga cgatccagca gnnnnnnnnn nnnnnnnnnn nnnnnnggcg cgccgctgag 60

ggagtctaga g 71

<210> 8

<211> 66

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-128, pN25_polyA_R-2

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5' 磷酸化修饰

<400> 8

cacaaaccac aactagaatg cagtgaaaaa aatgctttat ttgtttacag tccgacgatc 60

cagcag 66

<210> 9

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> Example sequence listing, NJ-129, pNT_del_F

<400> 9

aattcgccct atagtgagtc gta 23

<210> 10

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-132, GRAMc_Ion-A_IX7_P4s

<400> 10

ccatctcatc cctgcgtgtc tccgactcag ttcgtgattc gattacagtc cgacgatcca 60

gcag 64

<210> 11

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-133, GRAMc_Ion-A_IX8_P4s

<400> 11

ccatctcatc cctgcgtgtc tccgactcag ttccgataac gattacagtc cgacgatcca 60

gcag 64

<210> 12

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-134, GRAMc_Ion-A_IX9_P4s

<400> 12

ccatctcatc cctgcgtgtc tccgactcag tgagcggaac gattacagtc cgacgatcca 60

gcag 64

<210> 13

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-141, pGRAMc_nP3_short

<220>

<221> misc_feature

<222> (1)..(1)

<223> 磷酸化修饰

<400> 13

tagactccct cagcggc 17

<210> 14

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-142, pGRAMc_P4_short

<220>

<221> misc_feature

<222> (1)..(1)

<223> 磷酸化修饰

<400> 14

tacagtccga cgatccagca g 21

<210> 15

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-145, S_3PofN25merShort

<220>

<221> misc_feature

<222> (1)..(7)

<223> 至6-7的核苷酸键是核苷酸1-2的硫代磷酸酯键

<400> 15

ggcgcgccgc tgagggagt 19

<210> 16

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-146, S_NT_del_F

<220>

<221> misc_feature

<222> (1)..(7)

<223> 至6-7的核苷酸键是核苷酸1-2的硫代磷酸酯键

<400> 16

aattcgccct atagtgagtc gta 23

<210> 17

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-179, CRSP_F_T7_backbone

<400> 17

ttaatacgac tcactatagg tcgtagttat ctacacgacg gttttagagc tagaaatag 59

<210> 18

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-180, CRSP_F_T7_GFP

<400> 18

ttaatacgac tcactatagg cgcgctgaag tcaagttcga gttttagagc tagaaatag 59

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-183, CRSP_R

<400> 19

aaaagcaccg actcggtgcc 20

<210> 20

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-197, GRAMc_Ion-A_IX1_P4s

<400> 20

ccatctcatc cctgcgtgtc tccgactcag ctaaggtaac gattacagtc cgacgatcca 60

gcag 64

<210> 21

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-198, GRAMc_Ion-A_IX2_P4s

<400> 21

ccatctcatc cctgcgtgtc tccgactcag taaggagaac gattacagtc cgacgatcca 60

gcag 64

<210> 22

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-200, GRAMc_Ion-A_IX3_P4s

<400> 22

ccatctcatc cctgcgtgtc tccgactcag aagaggattc gattacagtc cgacgatcca 60

gcag 64

<210> 23

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-208, pGRAMc_P1s_NoT

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5' 磷酸化修饰

<400> 23

attcactagt gattcagcag 20

<210> 24

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-209, pGRAMc_P2s_NoT

<220>

<221> misc_feature

<222> (1)..(1)

<223> 5' 磷酸化修饰

<400> 24

gacactactc tccagcag 18

<210> 25

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-213, Gibson_P1-T

<400> 25

gcgaattcac tagtgattca gcagt 25

<210> 26

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-214, Gibson_iNBP-T

<400> 26

caagacacta ctctccagca gt 22

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-268, Hs-Top1_QF

<400> 27

acttcgtgtg gagcacatca 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-269, Hs-Top1_QR

<400> 28

cgtttctcaa cagggacctt 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-270, Hs-ACTA1_QF

<400> 29

atggtcggta tgggtcagaa 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-271, Hs-ACTA1_QR

<400> 30

tctccatgtc atcccagttg 20

<210> 31

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-276, Hs-AXL_QF2

<400> 31

ctgtcagacg atgggatgg 19

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-277, Hs-AXL_QR2

<400> 32

taaggggtgt gaggatggag 20

<210> 33

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-278, Hs-DLX5_QF

<400> 33

tacacaagtg cagccagctc 20

<210> 34

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-279, Hs-DLX5_QR

<400> 34

gagtaagaga gagcagccca tc 22

<210> 35

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-280, Hs-NOTCH2_QF

<400> 35

aaatgcctca caggcttcac 20

<210> 36

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-281, Hs-NOTCH2_QR

<400> 36

cactggcact ggtaggaacc 20

<210> 37

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-282, Hs-RPP30_QF

<400> 37

ctgcttccag gagacctgac 20

<210> 38

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-283, Hs-RPP30_QR

<400> 38

tttgtggtga tttcccccta 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-284, Hs-ADM_QF

<400> 39

ggtcggactc tggtgtcttc 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-285, Hs-ADM_QR

<400> 40

cttgcgcgac tattccttgt 20

<210> 41

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-286, Hs-CFB_QF

<400> 41

caagcagaca agcaaagcaa 20

<210> 42

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-287, Hs-CFB_QR

<400> 42

gataaagggc atcaggcaga 20

<210> 43

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-288, Hs-Kiss1_QF

<400> 43

acctgccgaa ctacaactgg 20

<210> 44

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-289, Hs-Kiss1_QR

<400> 44

tttggggtct gaagttcact g 21

<210> 45

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-292, Hs-NCOA6_QF

<400> 45

tggcttctca gcaggacag 19

<210> 46

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-293, Hs-NCOA6_QR

<400> 46

tgctggacat tttgatttgc 20

<210> 47

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-294, Hs-ADAM12_QF

<400> 47

cagttgcagc aggaaggact 20

<210> 48

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-295, Hs-ADAM12_QR

<400> 48

tccacaaatc tgttcccaca 20

<210> 49

<211> 78

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-364, PE2_GRAMC_P4s

<400> 49

caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatctac 60

agtccgacga tccagcag 78

<210> 50

<211> 75

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-399, PE2_GRAMC_P3s

<400> 50

caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatctta 60

gactccctca gcggc 75

<210> 51

<211> 75

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-400, PE1_GRAMC_P3s

<400> 51

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctta 60

gactccctca gcggc 75

<210> 52

<211> 75

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-401, PE2_GRAMC_P2s

<400> 52

caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatctac 60

actactctcc agcag 75

<210> 53

<211> 79

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-402, PE1_GRAMC_P4s

<400> 53

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctta 60

cagtccgacg atccagcag 79

<210> 54

<211> 77

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-403, PE2_GRAMC_P1s

<400> 54

caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatcttt 60

cactagtgat tcagcag 77

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-404, EGFPC1_QF1

<400> 55

aagggcatcg acttcaagga 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-405, EGFPC1_QR1

<400> 56

ggcggatctt gaagttcacc 20

<210> 57

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-443, GRAMc_GFP_QF2

<400> 57

gccctgtcta aagatcccaa 20

<210> 58

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-444, GRAMc_GFP_QR2

<400> 58

cttgtacagc tcgtccatgc 20

<210> 59

<211> 16

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-489, GRAMc_RT_oligo

<400> 59

tacagtccga cgatcc 16

<210> 60

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-497, PE1_adapter

<400> 60

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 61

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-498, PE1s_GRAMc_2N_P4s

<220>

<221> misc_feature

<222> (22)..(23)

<223> n is a, c, g, t or u

<400> 61

tacacgacgc tcttccgatc tnntacagtc cgacgatcca gcag 44

<210> 62

<211> 46

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-499, PE1s_GRAMc_4N_P4s

<220>

<221> misc_feature

<222> (22)..(25)

<223> n is a, c, g, t or u

<400> 62

tacacgacgc tcttccgatc tnnnntacag tccgacgatc cagcag 46

<210> 63

<211> 48

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-500, PE1s_GRAMc_6N_P4s

<220>

<221> misc_feature

<222> (22)..(27)

<223> n is a, c, g, t or u

<400> 63

tacacgacgc tcttccgatc tnnnnnntac agtccgacga tccagcag 48

<210> 64

<211> 50

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-501, PE1s_GRAMc_8N_P4s

<220>

<221> misc_feature

<222> (22)..(29)

<223> n is a, c, g, t or u

<400> 64

tacacgacgc tcttccgatc tnnnnnnnnt acagtccgac gatccagcag 50

<210> 65

<211> 52

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-502, PE1s_GRAMc_10N_P4s

<220>

<221> misc_feature

<222> (22)..(31)

<223> n is a, c, g, t or u

<400> 65

tacacgacgc tcttccgatc tnnnnnnnnn ntacagtccg acgatccagc ag 52

<210> 66

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-503, PE1s_GRAMc_12N_P4s

<220>

<221> misc_feature

<222> (22)..(33)

<223> n is a, c, g, t or u

<400> 66

tacacgacgc tcttccgatc tnnnnnnnnn nnntacagtc cgacgatcca gcag 54

<210> 67

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-504, PE1s_GRAMc_2N_nP3s

<220>

<221> misc_feature

<222> (22)..(23)

<223> n is a, c, g, t or u

<400> 67

tacacgacgc tcttccgatc tnntagactc cctcagcggc 40

<210> 68

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-505, PE1s_GRAMc_4N_nP3s

<220>

<221> misc_feature

<222> (22)..(25)

<223> n is a, c, g, t or u

<400> 68

tacacgacgc tcttccgatc tnnnntagac tccctcagcg gc 42

<210> 69

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-506, PE1s_GRAMc_6N_nP3s

<220>

<221> misc_feature

<222> (22)..(27)

<223> n is a, c, g, t or u

<400> 69

tacacgacgc tcttccgatc tnnnnnntag actccctcag cggc 44

<210> 70

<211> 46

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-507, PE1s_GRAMc_8N_nP3s

<220>

<221> misc_feature

<222> (22)..(29)

<223> n is a, c, g, t or u

<400> 70

tacacgacgc tcttccgatc tnnnnnnnnt agactccctc agcggc 46

<210> 71

<211> 48

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-508, PE1s_GRAMc_10N_nP3s

<220>

<221> misc_feature

<222> (22)..(31)

<223> n is a, c, g, t or u

<400> 71

tacacgacgc tcttccgatc tnnnnnnnnn ntagactccc tcagcggc 48

<210> 72

<211> 50

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-509, PE1s_GRAMc_12N_nP3s

<220>

<221> misc_feature

<222> (22)..(33)

<223> n is a, c, g, t or u

<400> 72

tacacgacgc tcttccgatc tnnnnnnnnn nnntagactc cctcagcggc 50

<210> 73

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-523, GRAMc_Ion-P_nP3s

<400> 73

cctctctatg ggcagtcggt gattagactc cctcagcggc 40

<210> 74

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-575, GRAMc_test1_F

<400> 74

ttcactagtg attcagcagg agtgccatca tgattcataa atag 44

<210> 75

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-576, GRAMc_test1_R

<400> 75

acactactct ccagcaggta cttaatattt gaggttactc gtag 44

<210> 76

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-577, GRAMc_test2_F

<400> 76

ttcactagtg attcagcagc acctgaccac tagtggg 37

<210> 77

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-578, GRAMc_test2_R

<400> 77

acactactct ccagcagcac tttggaatcc aaatttccag 40

<210> 78

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-579, GRAMc_test3_F

<400> 78

ttcactagtg attcagcagc aagtacagca ttgactgagc 40

<210> 79

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-580, GRAMc_test3_R

<400> 79

acactactct ccagcagaga cagagctgac acacac 36

<210> 80

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-589, GRAMc_test8_F

<400> 80

ttcactagtg attcagcagt tattttgctt acagggccag 40

<210> 81

<211> 46

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-590, GRAMc_test8_R

<400> 81

acactactct ccagcaggtg acacaggagc ttatatatat ataagc 46

<210> 82

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-591, GRAMc_test9_F

<400> 82

ttcactagtg attcagcagt acaatccacc tacttaaagt gtg 43

<210> 83

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-592, GRAMc_test9_R

<400> 83

acactactct ccagcagtta aatagagacg gggtttcac 39

<210> 84

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-691, G5_1_F

<400> 84

ttcactagtg attcagcagc ctttctaact tgggtcattt ctg 43

<210> 85

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-692, G5_1_R

<400> 85

acactactct ccagcagctt tctttatcta cagcaaacag g 41

<210> 86

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-693, G5_2_F

<400> 86

ttcactagtg attcagcagc acaagataca tgtagctgaa tttag 45

<210> 87

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-694, G5_2_R

<400> 87

acactactct ccagcagtat ttttagtaga gacggggttt cac 43

<210> 88

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-695, G5_3_F

<400> 88

ttcactagtg attcagcaga aaccctctag gtcctttaac 40

<210> 89

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-696, G5_3_R

<400> 89

acactactct ccagcaggga ttacaggaat gtgccac 37

<210> 90

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-697, G5_4_F

<400> 90

ttcactagtg attcagcaga aaacaccacg tagtttggc 39

<210> 91

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-699, G5_5_F

<400> 91

ttcactagtg attcagcaga agccagcgtt gcccatc 37

<210> 92

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-700, G5_5_R

<400> 92

acactactct ccagcaggcc tcagcctcct gagtag 36

<210> 93

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-701, G5_6_F

<400> 93

ttcactagtg attcagcagg taaatccaat cccaggttg 39

<210> 94

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-702, G5_6_R

<400> 94

acactactct ccagcaggcc accatgtttg gctattttc 39

<210> 95

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-705, G3_1_F

<400> 95

ttcactagtg attcagcaga gttttggtat tttaatactc ttg 43

<210> 96

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-706, G3_1_R

<400> 96

acactactct ccagcagcat tggttaagtg tagcaaac 38

<210> 97

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-707, G3_2_F

<400> 97

ttcactagtg attcagcaga tcatttttct ttccgagatg ttg 43

<210> 98

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-708, G3_2_R

<400> 98

acactactct ccagcagtat tttttttgag atggagtttc gc 42

<210> 99

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-709, G3_3_F

<400> 99

ttcactagtg attcagcagc ccgttccaca aggatctgtg 40

<210> 100

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-710, G3_3_R

<400> 100

acactactct ccagcagctc cggaatagct gggattac 38

<210> 101

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-711, G3_4_F

<400> 101

ttcactagtg attcagcagt ctccttataa atatctttca cttcc 45

<210> 102

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-712, G3_4_R

<400> 102

acactactct ccagcagaga attaaggggg aaaagttg 38

<210> 103

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-713, G3_5_F

<400> 103

ttcactagtg attcagcagg tggaatctgg aggccag 37

<210> 104

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-714, G3_5_R

<400> 104

acactactct ccagcagttg ttggctctgg tttttctttg 40

<210> 105

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-717, L1_1_F

<400> 105

ttcactagtg attcagcagc ttccttccta ccttcttttt c 41

<210> 106

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-718, L1_1_R

<400> 106

acactactct ccagcagaaa acctgggagt cccaaag 37

<210> 107

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-719, L1_2_F

<400> 107

ttcactagtg attcagcaga ccttcttact tcttaagggg g 41

<210> 108

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-720, L1_2_R

<400> 108

acactactct ccagcagtct gcgagtcctc ctcttctttg 40

<210> 109

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-723, L1_4_F

<400> 109

ttcactagtg attcagcagg caaccagctt ggaaatttct c 41

<210> 110

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-724, L1_4_R

<400> 110

acactactct ccagcagaga cttcgacttc ttcggatg 38

<210> 111

<211> 41

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-727, L1_6_F

<400> 111

ttcactagtg attcagcaga actaacatgg ctgatgcctt g 41

<210> 112

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-728, L1_6_R

<400> 112

acactactct ccagcagtat ttggtttgct tagagtcctc ctctg 45

<210> 113

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-729, EGFP_5p_F

<400> 113

atggtgagca agggcgag 18

<210> 114

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-730, EGFP_3p_R

<400> 114

ttatctagat ccggtggatc 20

<210> 115

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-731, EGFP_GRAMc_gibson_F

<400> 115

gatccaccgg atctagataa gcctctagac tccctcagcg gcgc 44

<210> 116

<211> 42

<212> DNA

<213> 人工序列

<220>

<223> 示例引物序列, NJ-732, EGFP_GRAMc_gibson_R

<400> 116

ctcgcccttg ctcaccattt gtgattcact tgtaagatga cg 42

<210> 117

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP1s-SE.fa

<400> 117

tcactagtga ttcagca 17

<210> 118

<211> 16

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP2s-SE.fa

<400> 118

acactactct ccagca 16

<210> 119

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP3s-SE.fa

<400> 119

actccctcag cggcgcgc 18

<210> 120

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP4s-SE.fa

<400> 120

agtccgacga tccagca 17

<210> 121

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP1sr-SE.fa

<400> 121

ctgctgaatc actagtga 18

<210> 122

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP2sr-SE.fa

<400> 122

ctgctggaga gtagtgt 17

<210> 123

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP3sr-SE.fa

<400> 123

gcgcgccgct gagggagt 18

<210> 124

<211> 16

<212> DNA

<213> 人工序列

<220>

<223> 示例修剪衔接子序列, GRAMcP4sr-SE.fa

<400> 124

tgctggatcg tcggac 16

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号