首页> 中国专利> 用于提高植物的谷物产量的组合物和基因组编辑方法

用于提高植物的谷物产量的组合物和基因组编辑方法

摘要

提供了包含编码BG1多肽的多核苷酸的组合物。还提供了包含这些多核苷酸的重组DNA构建体、植物、植物细胞、种子、谷物,以及在编码BG1多肽的基因组基因座处包含遗传修饰的植物、植物细胞、种子、谷物。另外,本文还提供了在植物中使用这些多核苷酸和遗传修饰的各种方法,诸如用于在植物中增加BG1水平的方法以及用于增加植物产量和/或耐旱性的方法。

著录项

  • 公开/公告号CN114867859A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 先锋国际良种公司;

    申请/专利号CN202080087967.1

  • 发明设计人 沈波;C·西蒙斯;

    申请日2020-12-17

  • 分类号C12N15/82(2006.01);C07K14/415(2006.01);C12N15/29(2006.01);A01H5/00(2018.01);A01H5/10(2018.01);

  • 代理机构中国专利代理(香港)有限公司 72001;中国专利代理(香港)有限公司 72001;

  • 代理人任晓华;李唐

  • 地址 美国依阿华州

  • 入库时间 2023-06-19 16:28:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-06

    实质审查的生效 IPC(主分类):C12N15/82 专利申请号:2020800879671 申请日:20201217

    实质审查的生效

说明书

以电子方式递交的序列表的引用

该序列表的官方副本经由EFS-Web作为ASCII格式的序列表以电子方式递交,文件名为8190_ST25.txt,创建于2019年12月17日,且具有147千字节大小,并与本说明书同时提交。该ASCII格式的文档中包含的序列表是说明书的一部分,并且通过引用以其全文并入本文。

技术领域

本公开涉及用于提高植物产量的组合物和方法。

背景技术

全球对农作物的需求和消费正在迅速增长。据此,需要开发新的组合物和方法以增加植物产量。本发明提供了此类组合物和方法。

发明内容

本文提供了对编码BG1多肽的内源多核苷酸进行基因组修饰的方法和组合物,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列。

还提供了包含可操作地连接到内源基因组基因座的调节元件的重组DNA构建体,该内源基因组基因座包含编码BG1多肽的多核苷酸,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列。在某些实施例中,调节元件是异源启动子。

提供了植物细胞、植物和种子,其包含:在基因组基因座处引入的遗传修饰,该基因组基因座包含编码BG1多肽的多核苷酸;或包含调节元件的重组DNA构建体,该调节元件导致与编码BG1多肽的内源基因组基因座的可操作连接。在某些实施例中,该调节元件是异源启动子。在某些实施例中,该植物和/或种子来自单子叶植物。在某些实施例中,该植物是单子叶植物。在某些实施例中,该单子叶植物是玉蜀黍。

进一步提供了植物细胞、植物和种子,其在编码BG1多肽的基因组基因座处包含靶向遗传修饰,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列,其中该遗传修饰增加所编码的多肽的水平和/或活性。在某些实施例中,该遗传修饰选自由以下组成的组:插入、缺失、单核苷酸多态性(SNP)、和多核苷酸修饰。在某些实施例中,该靶向遗传修饰存在于编码多肽的基因组基因座的(a)编码区;(b)非编码区;(c)调节序列;(d)非翻译区;或(e)(a)-(d)的任何组合,所述多肽包含与选自由SEQ IDNO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列。在某些实施例中,该植物和/或种子来自单子叶植物。在某些实施例中,该植物是单子叶植物。在某些实施例中,该单子叶植物是玉蜀黍。

提供了通过在可再生植物细胞中表达重组DNA构建体并产生植物来增加植物产量的方法,该重组DNA构建体包含可操作地连接到编码BG1多肽的内源多核苷酸的调节元件,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列;其中该植物在其基因组中包含调节内源BG1多肽的表达和/或活性的重组DNA构建体。在某些实施例中,该调节元件是异源启动子。在某些实施例中,该植物是单子叶植物。在某些实施例中,该单子叶植物是玉蜀黍。在某些实施例中,该产量是谷物产量。

进一步提供了通过在可再生植物细胞中在编码BG1多肽的基因组基因座处引入靶向遗传修饰并产生植物来增加植物产量的方法,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列;其中所述植物中所编码的多肽的水平和/或活性增加。在某些实施例中,该遗传修饰使用基因组修饰技术引入,所述基因组修饰技术选自由以下组成的组:多核苷酸指导的内切核酸酶、CRISPR-Cas内切核酸酶、碱基编辑脱氨酶、锌指核酸酶、转录激活子样效应子核酸酶(TALEN)、工程化位点特异性大范围核酸酶、或Argonaute。在某些实施例中,该靶向遗传修饰存在于编码多肽的基因组基因座的(a)编码区;(b)非编码区;(c)调节序列;(d)非翻译区;或(e)(a)-(d)的任何组合,所述多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列。在某些实施例中,该植物细胞来自单子叶植物。在某些实施例中,该单子叶植物是玉蜀黍。在某些实施例中,该产量是谷物产量。

还提供了通过在可再生植物细胞中在编码BG1多肽的基因组基因座处引入靶向遗传修饰并产生植物来增加植物中BG1多肽活性的方法,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列;其中所述植物中所编码的多肽的水平和/或活性增加。在某些实施例中,该遗传修饰使用基因组修饰技术引入,所述基因组修饰技术选自由以下组成的组:多核苷酸指导的内切核酸酶、CRISPR-Cas内切核酸酶、碱基编辑脱氨酶、锌指核酸酶、转录激活子样效应子核酸酶(TALEN)、工程化位点特异性大范围核酸酶、或Argonaute。在某些实施例中,该靶向遗传修饰存在于编码多肽的基因组基因座的(a)编码区;(b)非编码区;(c)调节序列;(d)非翻译区;或(e)(a)-(d)的任何组合,所述多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列。在某些实施例中,该植物细胞来自单子叶植物。在某些实施例中,该单子叶植物是玉蜀黍。

提供了通过在可再生植物细胞中表达重组DNA构建体并产生植物来改善植物的耐旱性的方法,该重组DNA构建体包含可操作地连接到编码BG1多肽的多核苷酸的调节元件,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列;其中该植物在其基因组中包含该重组DNA构建体。在某些实施例中,该调节元件是异源启动子。在某些实施例中,该植物是单子叶植物。在某些实施例中,该单子叶植物是玉蜀黍。

还提供了通过在可再生植物细胞中在编码BG1多肽的基因组基因座处引入靶向遗传修饰并产生植物来改善植物的耐旱性的方法,该BG1多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列;其中所述植物中所编码的多肽的水平和/或活性增加。在某些实施例中,该遗传修饰使用基因组修饰技术引入,所述基因组修饰技术选自由以下组成的组:多核苷酸指导的内切核酸酶、CRISPR-Cas内切核酸酶、碱基编辑脱氨酶、锌指核酸酶、转录激活子样效应子核酸酶(TALEN)、工程化位点特异性大范围核酸酶、或Argonaute。在某些实施例中,该靶向遗传修饰存在于编码多肽的基因组基因座的(a)编码区;(b)非编码区;(c)调节序列;(d)非翻译区;或(e)(a)-(d)的任何组合,所述多肽包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列。在某些实施例中,该植物细胞来自单子叶植物。在某些实施例中,该单子叶植物是玉蜀黍。

附图说明

图1示出了ZM-BG1H1 OE事件相对于空白对照的产量优势。两年测试期间,4个转基因事件中每一个的相对于空白非转基因杂交对照的杂交玉蜀黍产量差异(kg/ha)的箱线图。非转基因杂交对照平均产量值设定为0轴。图中所有四个等位基因的平均产量优势中心虚线为355kg/ha或5.65bu/ac。每个事件的平均值(每个框内的白线),95%置信区间(每个框右侧的黑色垂直段),以及高出或低出的离群值(圆圈)。显著性零假设检验(即4个事件之间没有差异)在α水平为0.05时不被拒绝,由右侧的重叠环图表示。

图2示出了产量范围环境中的相对于对照的产量。对于101个测试中的每一个(包括每个测试年份和位置的4个独立的ZM-BG1H1 OE事件),相对于空白非转基因杂交对照(在Y轴上设定为0)的杂交玉蜀黍产量差异(kg/ha)(Y轴)。每个测试位置的非转基因杂交对照产量平均值(t/ha)(X轴)。低于11.2t/ha的低产出地点为中度胁迫(MS),11.2-14.4t/ha为低胁迫(LS),且高于14.4t/ha为最佳(OPT),这些划分通过垂直虚线和图底部的标记来标注。355kg/ha时的平均产量优势为图中的虚线,1.0t/ha参考线也是如此。BLUP显著性检验带颜色:蓝色,显著正值(p<0.1);橙色,显著负值(p<0.1);中度灰色,正值不显著;浅灰色,负值不显著。图标形状:事件1,菱形;事件2,圆形;事件3,星形;事件4,十字形。

图3说明次级农艺性状与ZM-BG1H1 OE产量优势的相关性。在过表达ZM-BG1H1的玉蜀黍植物中14个次级性状与产量优势的关联。性状定义见方法。次级性状按类别分组带颜色:冠层或绿度(绿色);开花(橙色);植株大小(深灰色),水分(蓝色),产量(栗色)。所有性状值是所有四个事件的平均值,并且每个转化为与性状空平均值的百分比差异(Y轴)。在可用田间位置和年份中,所有性状百分比差异与产量百分比差异呈线性回归关系(每个性状最多可达101次测量)。该相关性的斜率被投影到X轴。回归的R2是图标大小。因此,总产量差异2.4%与其自身相关,斜率为1.0,图标大小单位大小最大为1.0。

图4显示ZM-BG1H1 OE相对于对照的穗粒性状分析结果。将所有性状归一化以与所有四个事件中所有植物与对照平均值的平均百分比差异进行比较。标准误差条衍生自各个单独植物与对照平均值的百分比差异。通过将所有4个事件中所有单个植物与对照平均值的百分比差异组同单个对照植物与对照平均值之间的百分比差异组进行比较来进行t检验显著性。

图5示出了ZM-BG1H1 OE增加籽粒行数。KRN在4个事件和对照之间的直方图分布。绘制了每事件或空白对照的所有植物的百分比。注意所有四个ZM-BG1H1 OE事件的KRN从KRN16相对移动到KRN18,但对照下降。

图6416个自交系中每个ZM-BG1H1等位基因在V6温室生长叶片中的平均叶片表达。通过高分辨率遗传标记分析推断单倍型等位基因组,然后使用选择的自交系ZM-BG1H1基因序列(包括产生参考等位基因序列的五个自交系),将每个单倍型分成五个等位基因。给出了每个单倍型组的平均基因表达水平。(由于不明确的遗传标记分辨率,单倍型A1和A2在此合并)。每个条的标准误差条须。图中的水平线是组合组中所有测量值的全局平均值(实线)和StDev(上下虚线)。这些等位基因单倍型之间的表达没有明显的实质性差异。

图7提供了杂交亲本种子大小(体积、重量和密度)的结果。空白对照和4个事件中平均每一个的200个籽粒体积(m1)、重量(g)和密度(g/ml)。条是具有标准误差须的平均值。图中的水平条是所有4个事件和空白的总体平均值和标准偏差。

图8示出了相同KRN值下的穗粒差异。当KRN值被归一化时的穗粒性状值。因此,对相同的KRN值进行与空白对照的所有比较,然后对所有这些比较的百分比差异取平均值(灰色条),并将所有合计(非标准化)KRN值(黑色条)与所有比较的等同性状百分比差异值并列。

图9示出了五个KRN值的ZM-BG1H1 OE所有事件植物(黑色条)相对于空白对照(灰色条)的平均穗直径。提供SE条。

图10示出了用表达调节元件工程化ZM-BG1H1启动子以增加基因表达。(A).使用各种参考和工程化启动子的报告基因ac-GFP的玉蜀黍叶原生质体表达的几何平均值。在该产量研究中使用的ZM-GOS2PRO和常见的组成型启动子玉蜀黍UB1ZM PRO(泛素)在顶部作为参考,其中ZM-GOS2 PRO水平在条形图上标记为虚线。ZM-BG1H1天然未改变的野生型启动子是呈深灰色阴影的从顶部起的第三条。阴影条中为这些工程化启动子的表达水平。数百个原生质体的两个独立测量值各自包括每个值(误差条须显示对的高值和低值)。表格值显示在最右边。工程化ZM-BG1H1启动子与野生型ZM-BG1H1启动子的比率。所有启动子与ZM-GOS2PRO的比率。Zm-BG1H1启动子被工程化以在TATA框上游包含各种数目和位置的EME元件。

图11示出了玉蜀黍(Zea mays)BG1同源物等位基因1至5,肽序列比对。ZM-BG1H1基因座的五个最普遍的单倍型或等位基因的氨基酸比对(SEQ ID NO:1;SEQ ID NO:3;SEQ IDNO:5;SEQ ID NO:7和SEQ ID NO:9,以od出现的顺序)。虚线表示空位。使用了ClustalW算法。

图12(A-C)示出了玉蜀黍BG1同源物等位基因1至5,示出了近端启动子加5′UTR(“PROMUTR”)核苷酸比对(SEQ ID NO:57;SEQ ID NO:58;SEQ ID NO:59;SEQ ID NO:60;和SEQ ID NO:61,按各自出现的顺序)。近端启动子(ATG上游1000nt),包括起始ATG处可用的5′UTR,ZM-BG1H1基因座的五个最普遍的单倍型或等位基因的核苷酸比对。使用ClustalW算法作为部分AlignX VNTI套件。示出了在所有五个物种(玉蜀黍、水稻(Oryza sativa)、高粱(Sorghum bicolor)、谷子(Setaria italica)和二穗短柄草(Brachypodium distachyon))中保守的和在五个ZM-BG1H1等位基因中保守的基序。

序列表简述

根据形成本申请的一部分的以下详细描述和随附序列表中可以更全面地理解本公开。这些序列描述以及所附序列表遵守如37C.F.R.§§1.821和1.825所列出的管理专利申请中核苷酸和氨基酸序列公开内容的规则。这些序列描述包含如在37C.F.R.§§1.821和1.825中所定义的用于氨基酸的三字母代码,将其通过引用并入本文。

表1:序列表描述(PRT-蛋白质/多肽)

具体实施方式

I.组合物

A.BG1多核苷酸和多肽

本公开提供了编码BG1多肽的多核苷酸。玉蜀黍BG1多肽包含独特的植物特异性基因家族。BG1蛋白家族分析描述了蛋白质基因家族,其具有富含谷氨酸和天冬氨酸重复序列但没有有序结构倾向的N末端区域,和与其他表征的功能结构域没有显著相似性的保守C末端区域。如本文所用,玉蜀黍BG1“多肽”、“蛋白质”等是指具有与其他BG1相关蛋白质相似的结构域结构的蛋白质,由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25的一般结构或与前述序列中的一个具有至少90%-100%同一性的序列表示。

本公开的一个方面提供了编码BG1多肽的多核苷酸,该BG1多肽包含与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55中任一个的氨基酸序列具有至少90%同一性的氨基酸序列。在某些实施例中,编码BG1多肽的多核苷酸包含与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55中任一个的氨基酸序列具有至少95%同一性的氨基酸序列。

如本文所用,关于指定核酸的“编码”(“encoding”、“encoded”等)意指包含用于翻译成指定蛋白质的信息。编码蛋白质的核酸在该核酸的翻译区之内可以包含非翻译序列(例如,内含子)或可能缺乏此类插入的非翻译序列(例如,在cDNA中)。通过密码子使用来详细说明用来编码蛋白质的信息。典型地,氨基酸序列通过使用“通用”遗传密码的核酸来编码。然而,当核酸使用以下这些生物体表达时,可以使用通用密码的变体,诸如存在于一些植物、动物、和真菌线粒体、细菌山羊支原体(Mycoplasma capricolum)(Yamao,等人,(1985)Proc.Natl.Acad.Sci.USA[美国科学院院报]82:2306-9)或纤毛虫大核中的通用密码变体。

当合成地制备或改变核酸时,可以利用要表达核酸的预期宿主的已知密码子偏好性。例如,虽然在单子叶和双子叶植物物种中均可以表达本发明的核酸序列,但是可以修饰序列,以解释单子叶植物或双子叶植物的特定密码子偏好和GC含量偏好,因为这些偏好已经表现出了差异(Murray等人(1989)Nucleic Acids Res.[核酸研究]17:477-98)。

如本文所用,“多核苷酸”包括提及具有天然核糖核苷酸的基本性质的脱氧核糖多核苷酸、核糖多核苷酸、或其类似物,因为在严格的杂交条件下,它们与和天然存在的核苷酸基本上相同的核苷酸序列杂交和/或允许翻译成与一个或多个天然存在的核苷酸相同的一个或多个氨基酸。多核苷酸可以是结构基因或调节基因的全长或子序列。除非另外指明,否则术语包括提及指定序列以及其互补序列。因此,出于稳定性或其他原因而具有经修饰的主链的DNA或RNA是“多核苷酸”,如该术语在本文中所意指的。此外,仅举两个例子,包含稀有碱基(诸如肌苷)或修饰的碱基(诸如三苯甲基化的碱基)的DNA或RNA是多核苷酸,如该术语在本文中所用的。应当理解,已经对DNA和RNA进行了多种修饰,这些修饰具有本领域技术人员已知的许多有用目的。如本文采用的术语多核苷酸涵盖诸如多核苷酸的化学修饰形式、酶修饰形式或代谢修饰形式,以及病毒和细胞(尤其包括简单和复杂细胞)所特有的DNA和RNA的化学形式。

术语“多肽”、“肽”以及“蛋白质”在本文中可互换使用,是指氨基酸残基的聚合物。这些术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物,以及适用于天然存在的氨基酸聚合物。

如本文所用,在两个核酸或多肽序列的背景下的“序列同一性”或“同一性”包括,当在指定比较窗口上比对最大对应性时,提及两个序列中的相同残基。当使用关于蛋白质的序列同一性百分比时,认识到不相同的残基位置通常相差保守氨基酸取代,其中氨基酸残基被具有相似化学性质(例如电荷或疏水性)的其他氨基酸残基取代,并且因此不改变分子的功能性质。当序列在保守取代方面不同时,可以向上调节序列同一性百分比,以校正该取代的保守性质。相差这些保守取代的序列被称为具有“序列相似性”或“相似性”。用于进行此调节的方法是本领域技术人员所熟知的。典型地,这涉及作为部分而不是完全错配对保守取代打分,从而提高百分比序列同一性。因此,例如,当同一的氨基酸得分为1,并且非保守取代的得分为零时,保守取代的得分在零和1之间。例如,根据Meyers和Miller,(1988)Computer Applic.Biol.Sci.[计算机在生物科学中的应用]4:11-17的算法计算保守取代的得分,例如,程序PC/GENE(易达利遗传学公司(Intelligenetics),山景城,加利福尼亚州,美国)中实现的。

如本文所用,“序列同一性百分比”意指在比较窗口上比较两个最佳比对序列所确定的值,其中与参比序列(其不包含添加或缺失)相比,比较窗口中的多核苷酸序列部分可以包含添加或缺失(即空位),以进行这两个序列的最佳比对。通过以下方式计算百分比:确定在两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目,将匹配位置的数目除以比较窗口中的位置的总数目,然后将结果乘以100以产生序列同一性的百分比。

如本文所用,“参比序列”是用作序列比较的基础的所定义的序列。参比序列可以是指定序列的子集或整体;例如,作为全长cDNA或基因序列的区段、或完整的cDNA或基因序列。

如本文所用,“比较窗口”意指包括提及多核苷酸序列的连续且指定的区段,其中该多核苷酸序列可以与参比序列进行比较,并且其中与用于两个序列的最佳比对的参比序列(其不包含添加或缺失)相比,比较窗口中的多核苷酸序列部分可能包含添加或缺失(即空位)。通常,比较窗口的长度为至少20个连续核苷酸,并且任选地可以是30个、40个、50个、100个或更长。本领域技术人员应当理解,由于多核苷酸序列中含有空位,为了避免与参比序列的高相似性,典型地引入空位罚分,并且将其从匹配数中减去。

用于比较的核苷酸序列和氨基酸序列的比对方法是本领域熟知的。Smith和Waterman,(1981)Adv.Appl.Math[应用数学进展]2:482的局部同源性算法(BESTFIT)可以进行序列的最佳比对用于比较;通过Needleman和Wunsch,(1970)J.Mol.Biol.[分子生物学杂志]48:443-53的同源性比对算法(GAP);通过Pearson和Lipman,(1988)Proc.Natl.Acad.Sci.USA[美国科学院院报]85:2444的相似性搜索法(Tfasta和Fasta);通过这些算法的计算机化实现,包括但不限于:加利福尼亚州山景城的易达利遗传学公司的PC/基因程序中的CLUSTAL,Wisconsin Genetics Software

GAP使用上文的Needleman和Wunsch的算法来找到使匹配数目最大化并且使空位数目最小化的两个完整序列的比对。GAP考虑所有可能的比对和空位位置,并且产生具有最大匹配碱基数量和最少空位的比对。它允许以匹配碱基单位提供空位产生罚分和空位延伸罚分。GAP必须为它插入的每个空位获取空位产生罚分匹配数目的收益。如果选择大于零的空位延伸罚分,GAP必须另外地为每个所插入空位获取空位长度乘以空位延伸罚分的收益。在Wisconsin Genetics Software

GAP给出该家族中的具有最佳比对的一个成员。可以存在这个家族的许多成员,但是其他成员没有更好的质量。GAP展示出用于比对的四个优值因素:质量、比率、同一性和相似性。质量是为了将序列进行比对而最大化的度量。比率是质量除以更短区段中的碱基数。同一性百分比是实际匹配的符号的百分比。相似性百分比是相似符号的百分比。将相应于空位的符号忽略。当一对符号的评分矩阵值大于或等于相似性阈值0.50时,相似性得分。Wisconsin Genetics Software

除非另外说明,否则本文提供的序列同一性/相似性值是指使用BLAST 2.0程序包、使用默认参数获得的值(Altschul等人,(1997)Nucleic Acids Res.[核酸研究]25:3389-402)。

如本领域技术人员将理解,BLAST搜索假设蛋白质可被建模为随机序列。然而,许多真实蛋白质包含非随机序列的区域,其可是同聚序列段(homopolymeric tracts)、短周期重复序列、或富含一种或多种氨基酸的区域。即使蛋白质的其他区域完全不同,这种低复杂性的区域也可在不相关蛋白质之间比对。许多低复杂性滤波器程序可用来减少这些低复杂性比对。例如,可单独使用或组合使用SEG(Wooten和Federhen,(1993)Comput.Chem.[计算机化学]17:149-63)和XNU(Claverie和States,(1993)Comput.Chem.[计算机化学]17:191-201)低复杂性滤波器。

据此,在本文所述的任何实施例中,BG1多核苷酸可编码与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55中任一个具有至少80%同一性的BG1多肽。例如,BG1多核苷酸可以编码与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55中任一个的氨基酸序列具有至少81%同一性、至少82%同一性、至少83%同一性、至少84%同一性、至少85%同一性、至少86%同一性、至少87%同一性、至少88%同一性、至少89%同一性、至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性、或至少99%同一性的BG1多肽。

B.重组DNA构建体

还提供了包含本文所述的任何BG1多核苷酸的重组DNA构建体。在某些实施例中,该重组DNA构建体进一步包含至少一种调节元件。在某些实施例中,该重组DNA构建体的至少一种调节元件包含启动子。在某些实施例中,该启动子是异源启动子。

如本文所用,“重组DNA构建体”包含两个或更多个可操作地连接的DNA区段,优选在自然界中不可操作地连接(即,异源)的DNA区段。重组DNA构建体的非限制性实例包括与异源序列(也称为调节元件)可操作地连接的目的多核苷酸,这些异源序列有助于目的序列的表达、自主复制和/或基因组插入。此类调节元件包括例如启动子、终止序列、增强子等,或表达盒的任何组分;质粒、粘粒、病毒、自主复制序列、噬菌体、或线性或环状单链或双链DNA或RNA核苷酸序列;和/或编码异源多肽的序列。

可提供本文所述的BG1多核苷酸用于在目的植物或任何目的生物体中表达。该盒可以包括可操作地连接到BG1多核苷酸的5′和3′调节序列。“可操作地连接”旨在意指两个或更多个元件之间的功能性连接。例如,目的多核苷酸和调节序列(例如,启动子)之间的可操作连接是允许目的多核苷酸表达的功能性连接。可操作地连接的元件可以是连续的或非连续的。当用于指两个蛋白质编码区的连接时,可操作地连接意指这些编码区处于相同的阅读框中。该盒可以另外含有至少一个待共转化到生物体中的另外的基因。可替代地,该一个或多个额外的基因可以在多个表达盒上提供。此类表达盒装备有多个限制性位点和/或重组位点,用于将BG1多核苷酸插入以便处于调节区的转录调节之下。表达盒可另外含有可选择标记基因。

表达盒以5’-3’转录的方向可以包括转录和翻译起始区(例如,启动子)、BG1多核苷酸、和在植物中起作用的转录和翻译终止区(例如,终止区)。调节区(例如,启动子、转录调节区、和翻译终止区)和/或BG1多核苷酸对于宿主细胞而言或彼此之间可以是天然的/类似的。可替代地,调节区和/或BG1多核苷酸对于宿主细胞或彼此之间可以是异源的。

如本文所用,关于序列的“异源性”是指该序列源于外来物种,或者,如果源于相同物种的话,则是通过精心的人为干预从其在组合物和/或基因组基因座中的天然形式进行实质性修饰得到的序列。例如,可操作地连接到异源多核苷酸的启动子来自与从其衍生多核苷酸的物种不同的物种,或者,如果来自相同/类似的物种,那么一方或双方基本上由它们的原来形式和/或基因组基因座修饰得到,或者启动子不是可操作地连接到多核苷酸的天然启动子。

终止区对于转录起始区、对于植物宿主而言可是天然的,或可衍生自对于启动子、BG1多核苷酸、植物宿主、或其任何组合而言的另一种来源(即外源的或异源的)。

表达盒可以另外含有5′前导序列。此类前导序列可以起到增强翻译的作用。翻译前导子在本领域是已知的并且包括病毒翻译前导序列。

在制备表达盒时,可以操作各种DNA片段,以提供处于适当取向以及合适时,处于适当阅读框中的DNA序列。为此,可采用衔接子(adapter)或接头以连接DNA片段,或可以涉及其他操作以提供方便的限制性位点、移除多余的DNA、移除限制性位点等。出于这个目的,可以涉及体外诱变、引物修复、限制性酶切(restriction)、退火、再取代(例如转换和颠换)。

如本文所用的“启动子”指DNA的在转录开始的上游并参与RNA聚合酶以及其他蛋白质的识别和结合以启动转录的区域。“植物启动子”是能够在植物细胞中启动转录的启动子。示例性植物启动子包括但不局限于从植物、植物病毒以及包含在植物细胞中表达的基因的细菌(如农杆菌属(Agrobacterium)或根瘤菌属(Rhizobium))获得的那些启动子。某些启动子类型优先在某些组织(如叶、根、种子、纤维、木质部导管、管胞或厚壁组织)中启动转录。这样的启动子被称为“组织偏好的”。“细胞类型”特异性启动子主要驱动在一个或多个器官中的某些细胞类型(例如,根或叶中的维管细胞)中的表达。“诱导型”或“调节型”启动子是指在环境控制下的启动子。可通过诱导型启动子影响转录的环境条件的实例包括厌氧条件或光照的存在。另一类型的启动子是发育调节启动子,例如在花粉发育期间驱动表达的启动子。组织偏好性启动子、细胞类型特异性启动子、发育调节启动子、和诱导型启动子构成“非组成型”启动子类别。“组成型”启动子是在大多数环境条件下有活性的启动子。组成型启动子包括,例如Rsyn7启动子的核心启动子和其他在WO 99/43838和美国专利号6,072,050中公开的组成型启动子;核心CaMV 35S启动子(Odell等人,(1985)Nature[自然]313:810-812);稻肌动蛋白(McElroy等人,(1990)Plant Cell[植物细胞]2:163-171);泛素(Christensen等人,(1989)Plant Mol.Biol.[植物分子生物学]12:619-632和Christensen等人,(1992)Plant Mol.Biol.[植物分子生物学]18:675-689);pEMU(Last等人(1991)Theor.Appl.Genet.[理论与应用遗传学]81:581-588);MAS(Velten等人,(1984)EMBO J.[欧洲分子生物学学会杂志]3:2723-2730);ALS启动子(美国专利号5,659,026)等。其他组成型启动子包括例如美国专利号5,608,149;5,608,144;5,604,121;5,569,597;5,466,785;5,399,680;5,268,463;5,608,142;和6,177,611。

还考虑了包括一种或多种异源调节元件的组合的合成启动子。

本发明的重组DNA构建体的启动子可以是本领域已知的任何类型或类别的启动子,使得可以使用许多启动子中的任一种来表达本文公开的各种BG1多核苷酸序列,包括目的多核苷酸序列的天然启动子。用于本发明的重组DNA构建体的启动子可以基于所需结果进行选择。

C.植物和植物细胞

提供了包含本文所述的BG1多核苷酸序列或本文所述的重组DNA构建体的植物、植物细胞、植物部分、种子、和谷物,于是植物、植物细胞、植物部分、种子、和/或谷物具有增加的BG1多肽表达。在某些实施例中,植物、植物细胞、植物部分、种子、和/或谷物将本文所述的BG1多核苷酸稳定地掺入其基因组中。在某些实施例中,植物、植物细胞、植物部分、种子、和/或谷物可以包含多个BG1多核苷酸(即,至少1个、2个、3个、4个、5个、6个或更多个)。

在具体实施例中,植物、植物细胞、植物部分、种子、和/或谷物中的BG1多核苷酸可操作地连接到异源调节元件,例如,但不限于组成型启动子、组织偏好性启动子、或用于在植物中表达的合成启动子、或组成型增强子。

本文还提供了在基因组基因座处包含引入的遗传修饰的植物、植物细胞、植物部分、种子、和谷物,该基因组基因座编码包含与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的氨基酸序列具有至少90%同一性的氨基酸序列的BG1多肽。在某些实施例中,遗传修饰增加了BG1蛋白质的活性。在某些实施例中,遗传修饰增加了BG1蛋白质的水平。在某些实施例中,遗传修饰增加了BG1蛋白质的水平和活性两者。

如本文所用,“基因组基因座”通常是指在植物的染色体上的位置,在该位置上发现了基因,诸如编码BG1多肽的多核苷酸。如本文所用,“基因”包括表达功能性分子的核酸片段,诸如但不限于特定蛋白质编码序列和调节元件,诸如在编码序列之前(5′非编码序列)和之后(3′非编码序列)的那些调节元件。

“调节元件”通常是指参与调节核酸分子(例如基因或靶基因)的转录的转录调节元件。调节元件是核酸,并且可以包括启动子、增强子、内含子、5’-非翻译区(5’-UTR,还被称为前导序列)、或3’-UTR或其组合。调节元件能以“顺式”或“反式”起作用,并且通常以“顺式”起作用,即其激活位于调节元件所在的相同核酸分子(例如染色体)上的基因的表达。

“增强子”元件是当功能性连接至启动子时(无论其相对位置如何)都可增加核酸分子的转录的任何核酸分子。

将“阻遏物”(本文中有时也被称为沉默子)定义为当在功能上与启动子连接时(无论相对位置如何)都抑制转录的任何核酸分子。

术语“顺式元件”通常是指影响或调节可操作地连接的可转录的多核苷酸表达的转录调节元件,其中该可转录的多核苷酸存在于相同DNA序列中。顺式元件可以起到结合转录因子的作用,这些转录因子是调节转录的反式作用多肽。

“内含子”是转录成RNA、但是然后在产生成熟mRNA的过程中被切除的基因中的间插序列。该术语也用于切除的RNA序列。“外显子”是经转录的基因的序列的一部分,并且在衍生自基因的成熟信使RNA中被发现,但不一定是编码最终基因产物的序列的一部分。

5′非翻译区(5’UTR)(也称为翻译前导序列或前导RNA)是直接位于起始密码子上游的mRNA的区域。该区域涉及通过病毒、原核生物和真核生物中的不同机制对转录物的翻译的调节。

“3’非编码序列”是指位于编码序列下游的DNA序列,并且包括聚腺苷酸化识别序列和编码能够影响mRNA加工或基因表达的调节信号的其他序列。聚腺苷酸化信号通常表征为影响聚腺苷酸片添加到mRNA前体的3′末端。

“遗传修饰”、“DNA修饰”等是指在植物的特定基因组基因座上改变或变更核苷酸序列的位点特异性修饰。本文所述的组合物和方法的遗传修饰可以是本领域已知的任何修饰,例如像,插入、缺失、单核苷酸多态性(SNP)、和或多核苷酸修饰。另外,基因组基因座上的靶向DNA修饰可位于基因组基因座上的任何位置,例如像,所编码的多肽的编码区(例如,外显子)、非编码区(例如,内含子)、调节元件、或非翻译区。

如本文所用,“靶向”遗传修饰或“靶向”DNA修饰是指对生物体基因的直接操作。靶向修饰可以使用本领域已知的任何技术引入,例如像,植物育种、基因组编辑、或单基因座转化。

BG1多核苷酸的DNA修饰的类型和位置不受特别限制,只要DNA修饰导致由BG1多核苷酸编码的蛋白质的表达和/或活性增加即可。

在某些实施例中,植物、植物细胞、植物部分、种子、和/或谷物包含存在于编码BG1多肽的内源多核苷酸的(a)编码区;(b)非编码区;(c)调节序列;(d)非翻译区,或(e)(a)-(d)的任何组合中的一种或多种核苷酸修饰。

在某些实施例中,DNA修饰是在基因组基因座中插入一个或多个核苷酸(优选是连续的)。例如,插入表达调节元件(EME),诸如通过引用并入本文的PCT/US 2018/025446中描述的EME,其与BG1基因可操作地连接。在某些实施例中,靶向DNA修饰可以是用本领域已知的具有较高表达的另一种启动子替代内源BG1启动子。在某些实施例中,DNA修饰是优化Kozak背景以增加表达的修饰。在某些实施例中,DNA修饰是多核苷酸修饰或在调节所表达的蛋白的稳定性的位点上的SNP。

如本文所用的“增加的”、“增加”等是指与对照组(例如,不包含DNA修饰的野生型植物)相比,实验组(例如,具有本文所述的DNA修饰的植物)中的任何可检测的增加。因此,增加的蛋白质表达包含样品中蛋白质总水平的任何可检测的增加,并且可使用本领域的常规方法来确定,例如,蛋白质印迹法和ELISA。

在某些实施例中,基因组基因座具有超过一个(例如,2个、3个、4个、5个、6个、7个、8个、9个、或10个)DNA修饰。例如,基因组基因座的翻译区和调节元件可各自包含靶向DNA修饰。在某些实施例中,植物的超过一个基因组基因座可包含DNA修饰。

可以使用本领域已知的或本文所述的任何基因组修饰技术来完成基因组基因座的DNA修饰。在某些实施例中,通过基因组修饰技术进行靶向DNA修饰,该基因组修饰技术选自由以下组成的组:多核苷酸指导的内切核酸酶、CRISPR-Cas内切核酸酶、碱基编辑脱氨酶、锌指核酸酶、转录激活子样效应子核酸酶(TALEN)、工程化位点特异性大范围核酸酶、或Argonaute。

在某些实施例中,可以通过在所需改变附近的基因组中的确定位置诱导双链断裂(DSB)或单链断裂来促进基因组修饰。可以使用任何可用的DSB诱导剂诱导DSB,所述诱导剂包括但不限于,TALEN、大范围核酸酶、锌指核酸酶、Cas-gRNA系统(基于细菌性CRISPR-Cas系统)、Cas9、指导的cpf1内切核酸酶系统等。在一些实施例中,可以将DSB的引入与多核苷酸修饰模板的引入组合。

如本文所用,术语植物包括植物原生质体、从中可再生出植物的植物细胞组织培养物、植物愈伤组织、植物块和在植物或植物部分(例如胚、花粉、胚珠、种子、叶、花、枝、果、籽粒、穗、穗轴、壳、茎、根、根尖、花药等)中的完整植物细胞。谷物意指由商业种植者出于栽培或繁殖物种之外的目的所生产的成熟种子。再生的植物的子代、变体和突变体也包括在本公开的范围内,其条件是这些部分包含引入的多核苷酸或一个或多个遗传修饰。

本文公开的多核苷酸或重组DNA构建体可用于任何植物物种(包括但不限于单子叶植物和双子叶植物)的转化。另外,本文所述的遗传修饰可用于修饰任何植物物种(包括但不限于单子叶植物和双子叶植物)。

目的植物物种的实例包括但不限于玉蜀黍、芸苔属物种(例如,欧洲油菜、芜菁、芥菜),特别是可用作种子油来源的那些芸苔属物种、苜蓿(Medicago sativa)、稻(水稻)、黑麦(裸麦(Secale cereale))、高粱(sorghum/Sorghum bicolor、蜀黍(Sorghum vulgare))、粟(例如,御谷(pearl millet)、珍珠粟(Pennisetum glaucum)、糜子(proso millet)(黄米(Panicum miliaceum))、谷子(finger millet/Setaria italica)、龙爪稷(fingermillet/E1eusine coracana))、向日葵(sunflower/Helianthus annuus)、红花(sunflower/Carthamus tinctorius)、小麦(wheat/Triticum aestivum)、大豆(soybean/Glycine max)、烟草(tobacco/Nicotiana tabacum)、马铃薯(potato/Solanumtuberosum)、花生(peanuts/Arachis hypogaea)、棉花(棉花子(Gossypium barbadense)、陆地棉(Gossypium hirsutum))。

蔬菜包括例如番茄(Lycopersicon esculentum)、莴苣(例如,莴苣(Lactucasativa))、青豆(菜豆(Phaseolus vulgaris))、利马豆(lima bean,Phaseolus limensis)、豌豆(香豌豆属(Lathyrus spp.))和黄瓜属的成员诸如黄瓜(cucumber,C.sativus)、香瓜(cantaloupe,C.cantalupensis)和甜瓜(musk melon,C.melo)。观赏植物包括杜鹃(杜鹃花属(Rhododendron)物种)、八仙花(Macrophylla hydrangea)、朱槿(Hibiscusrosasanensis)、玫瑰(蔷薇属(Rosa)物种)、郁金香(郁金香属(Tulipa)物种)、水仙(水仙属(Narcissus)物种)、矮牵牛(Petunia hybrida)、康乃馨(Dianthus caryophyllus)、一品红(Euphorbia pulcherrima)和菊花。

其他目的植物包括例如提供目的种子的谷物类植物、油料种子植物和豆科植物。目的种子包括例如谷物种子,诸如玉米、小麦、大麦、稻、高粱、黑麦等。油料种子植物包括例如棉花、大豆、红花、向日葵、芸苔属植物、玉蜀黍、苜蓿、棕榈、椰子等。豆科植物包括豆类和豌豆。豆类包括瓜耳豆、槐豆、胡芦巴、大豆、四季豆、豇豆、绿豆、利马豆、蚕豆、小扁豆、鹰嘴豆。

例如,在某些实施例中,提供了在其基因组中包含编码BG1多肽的多核苷酸的玉蜀黍植物,该BG1多肽包含与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、和25中的任一个具有至少90%同一性的氨基酸序列。在其他实施例中,提供了在编码BG1多肽的基因组基因座处包含遗传修饰的玉蜀黍植物,该BG1多肽包含与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、和25中任一个的氨基酸序列具有至少90%同一性的氨基酸序列。

D.堆叠其他目的性状

在一些实施例中,本文公开的本发明的BG1多核苷酸被工程化为分子堆叠物。因此,本文公开的各种宿主细胞、植物、植物细胞、植物部分、种子、和/或谷物可进一步包含一种或多种目的性状。在某些实施例中,宿主细胞、植物、植物部分、植物细胞、种子、和/或谷物与目的多核苷酸序列的任何组合堆叠,以产生具有所需性状的组合的植物。如本文所用,术语“堆叠”是指具有存在于同一目的植物或生物体中的多种性状。例如,“堆叠性状”可包含其中序列在物理上彼此相邻的分子堆叠物。如本文所用的性状是指衍生自特定序列或序列组群的表型。在一个实施例中,分子堆叠物包含赋予对草甘膦的耐受性的至少一种多核苷酸。赋予对草甘膦的耐受性的多核苷酸是本领域已知的。

在某些实施例中,分子堆叠物包含赋予对草甘膦的耐受性的至少一种多核苷酸和赋予对第二除草剂的耐受性的至少一种额外的多核苷酸。

在某些实施例中,具有本发明的多核苷酸序列的植物、植物细胞、种子、和/或谷物可与例如赋予对以下的耐受性的一个或多个序列堆叠:ALS抑制剂;HPPD抑制剂;2,4-D;其他苯氧基生长素除草剂;芳氧基苯氧基丙酸除草剂;麦草畏;草铵膦除草剂;靶向原卟啉原氧化酶(也称为“原卟啉原氧化酶抑制剂”)的除草剂。

具有本发明的多核苷酸序列的植物、植物细胞、植物部分、种子、和/或谷物也可与至少一个其他性状组合,以产生进一步包含多种所需性状组合的植物。例如,具有本发明的多核苷酸序列的植物、植物细胞、植物部分、种子、和/或谷物可以与编码具有杀有害生物活性和/或杀昆虫活性的多肽的多核苷酸堆叠,或具有本发明的多核苷酸序列的植物、植物细胞、植物部分、种子、和/或谷物可以与植物抗病性基因组合。

这些堆叠的组合可以通过如下任何方法产生,该方法包括但不限于,通过任何常规的方法学进行植物育种、或遗传转化。如果通过遗传转化植物来堆叠序列,则目的多核苷酸序列可以在任意时间并以任意顺序组合。可以用共转化方案将性状与转化盒的任何组合所提供的目的多核苷酸一起引入。例如,若引入两个序列,则这两个序列可包含在分开的转化盒(反式)或包含在同一个转化盒(顺式)中。序列的表达可以通过相同的启动子或通过不同的启动子驱动。在某些情况下,可能需要引入将抑制目的多核苷酸的表达的转化盒。这可以与其他抑制盒或过度表达盒的任何组合进行组合以在植物中产生所需性状组合。进一步应当认识到,可以使用位点特异性重组系统在所需的基因组位置堆叠多核苷酸序列。参见例如,WO 99/25821、WO 99/25854、WO 99/25840、WO 99/25855、以及WO 99/25853,将其全部通过引用并入本文。

可以使用具有本文公开的本发明的多核苷酸序列的任何植物来制造食品或饲料产品。此类方法包括获得包含多核苷酸序列的植物、外植体、种子、植物细胞、或细胞,并且加工该植物、外植体、种子、植物细胞、或细胞以生产食品或饲料产品。

II.使用方法

A.在植物中增加产量、增加耐旱性和/或增加BG1活性的方法提供了用于增加植物产量、增加植物耐旱性、增加侧根发育和/或增加植物中BG1活性的方法,这些方法包括将重组DNA构建体引入植物、植物细胞、植物部分、种子和/或谷物中,借此使多肽在植物中表达,该重组DNA构建体包含本文所述的任何本发明的多核苷酸。还提供了用于增加植物产量、增加植物耐旱性、和/或增加植物中BG1活性的方法,这些方法包括在植物的基因组基因座处引入遗传修饰,该基因组基因座编码包含与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55中任一个所列出的氨基酸序列具有至少90%同一性的氨基酸序列的BG1多肽。

用于在本发明的方法中使用的植物可以是本文所述的任何植物物种。在某些实施例中,该植物是谷物类植物、油料种子植物和豆科植物。在某些实施例中,该植物是谷物类植物,诸如玉蜀黍。

如本文所用,“产量”是指收获的农业产量/单位土地,并且可包括提及收获时农作物的蒲式耳/英亩,如针对谷物水分进行了调整(例如,玉蜀黍典型地为15%)。在谷物收获时测量谷物水分。确定调整后的谷物测试重量为重量(磅)/蒲式耳,在收获时针对谷物水分水平进行了调整。

如本文所用,“耐旱性”是指植物在干旱条件下长时间存活而不表现出显著的生理或物理退化的性状。

植物的“增加的耐旱性”是指相对于参考或对照植物测量的生理或物理特征(如产量)的任何可测量的改进。通常,当在其基因组中包含重组DNA构建体或DNA修饰的植物相对于参考或对照植物表现出增加的耐旱性时,参考或对照植物在其基因组中不包含重组DNA构建体或DNA修饰。

本领域技术人员熟悉模拟干旱条件并评价植物耐旱性的规程,这些植物已经遭受了模拟的或天然存在的干旱条件。例如,技术人员可以通过给予植物比正常所需更少的水或在一个时段内不提供水来模拟干旱条件,并且技术人员可通过寻找在生理和/或物理条件上的差异来评价耐旱性,包括(但不限于)活力、生长、大小、或根长、或特别是叶片颜色或叶片面积大小。用于评价耐旱性的其他技术包括测量叶绿素荧光、光合作用速率和换气速率。

如本文所用,BG1活性的增加是指与合适的对照相比BG1蛋白质活性的任何可检测的增加。BG1活性可以是任何已知的生物学性质,并且包括例如增加蛋白质复合物的形成和/或生物化学途径的调节。

可以使用各种方法来将目的序列引入植物、植物部分、植物细胞、种子、和/或谷物。“引入”旨在意指以这样一种方式将本发明的多核苷酸或所得多肽提供给植物、植物细胞、种子、和/或谷物,使得序列得以进入植物的细胞内部。本公开的方法不取决于将序列引入植物、植物细胞、种子、和/或谷物的特定方法,只要多核苷酸或多肽进入植物的至少一个细胞的内部即可。

“稳定转化”旨在表示被引入植物中的多核苷酸整合到目的植物的基因组中,并且能够被其子代遗传。“瞬时转化”旨在表示将多核苷酸引入目的植物中并且不整合到所述植物或生物体的基因组中,或者将多肽引入植物或生物体中。

转化方案连同用于将多肽或多核苷酸序列引入植物中的方案可以取决于被靶向转化的植物或植物细胞的类型(即,单子叶植物或双子叶植物)而变化。将多肽和多核苷酸引入植物细胞的适合的方法包括显微注射(Crossway等人(1986)Biotechniques[生物技术]4:320-334)、电穿孔(Riggs等人(1986)Proc.Natl.Acad.Sci.USA[美国科学院院报]83:5602-5606)、农杆菌介导的转化(美国专利号5,563,055和美国专利号5,981,840)、直接基因转移(Paszkowski等人(1984)EMBO J.[欧洲分子生物学学会杂志]3:2717-2722)、和弹道粒子加速法(参见例如美国专利号4,945,050;美国专利号5,879,918;美国专利号5,886,244;和5,932,782;Tomes等人(1995),Plant Cell,Tissue,and Organ Culture:Fundamental Methods[植物细胞、组织和器官培养:基础方法],Gamborg和Phillips编辑(Springer-Verlag,Berlin[柏林施普林格出版公司]);McCabe等人(1988)Biotechnology[生物技术]6:923-926);和Lec1转化法(WO 00/28058)。还参见Weissinger等人,(1988)Ann.Rev.Genet.[遗传学年鉴]22:421-477;Sanford等人,(1987)Particulate Scienceand Technology[微粒科学与技术]5:27-37(洋葱);Christou等人,(1988)Plant Physiol.[植物生理学]87:671-674(大豆);McCabe等人,(1988)Bio/Technology[生物/技术]6:923-926(大豆);Finer和McMullen,(1991)In Vitro Cell Dev.Biol.[体外细胞与发育生物学]27P:175-182(大豆);Singh等人,(1998)Theor.Appl.Genet.[理论与应用遗传学]96:319-324(大豆);Datta等人,(1990)Biotechnology[生物技术]8:736-740(水稻);Klein等人,(1988)Proc.Natl.Acad.Sci.USA[美国科学院院报]85:4305-4309(玉蜀黍);Klein等人,(1988)Biotechnology[生物技术]6:559-563(玉蜀黍);美国专利号5,240,855、5,322,783、和5,324,646;Klein等人,(1988)Plant Physiol.[植物生理学]91:440-444(玉蜀黍);Fromm等人,(1990)Biotechnology[生物技术]8:833-839(玉蜀黍);Hooykaas-VanSlogteren等人,(1984)Nature[自然](伦敦)311:763-764;美国专利号5,736,369(谷类);Bytebier等人,(1987)Proc.Natl.Acad.Sci.USA[美国科学院院报]84:5345-5349(百合科);De Wet等人,(1985)在The Experimental Manipulation of Ovule Tissues[卵巢组织的实验操作]中,Chapman等人编辑(纽约朗文出版社(Longman,New York)),第197-209页(花粉);Kaeppler等人,(1990)Plant Cell Reports[植物细胞报告]9:415-418和Kaeppler等人,(1992)Theor.Appl.Genet.[理论与应用遗传学]84:560-566(晶须介导的转化);D′Halluin等人,(1992)Plant Cell[植物细胞]4:1495-1505(电穿孔);Li等人,(1993)PlantCell Reports[植物细胞报告]12:250-255以及Christou和Ford(1995)Annals of Botany[植物学年鉴]75:407-413(稻);Osjoda等人,(1996)Nature Biotechnology[自然生物技术]14:745-750(经由根癌农杆菌(Agrobacterium tumefaciens)的玉蜀黍),将其全部通过引用并入本文。

在具体实施例中,可以使用各种瞬时转化方法将BG1序列提供给植物。此类瞬时转化方法包括但不限于将BG1蛋白直接引入植物中。此类方法包括例如显微注射或粒子轰击。参见,例如,Crossway等人,(1986)Mol Gen.Genet.[分子遗传学和普通遗传学]202:179-185;Nomura等人,(1986)Plant Sci.[植物科学]44:53-58;Hepler等人(1994)Proc.Natl.Acad.Sci.[美国科学院院报]91:2176-2180以及Hush等人(1994)The Journalof Cell Science[细胞科学杂志]107:775-784,所有这些文献都通过引用并入本文。

在其他实施例中,可以通过使植物与病毒或病毒核酸接触将本文公开的本发明的目的多核苷酸引入植物中。通常,这类方法涉及将本公开的核苷酸构建体并入DNA或RNA分子内。应当认识到,本发明的多核苷酸序列最初可以被合成为病毒多蛋白的一部分,然后可以通过体内或体外蛋白水解而被加工,以产生所需的重组蛋白。此外,应当认识到,本文公开的启动子也涵盖用于通过病毒RNA聚合酶进行转录的启动子。涉及病毒DNA或RNA分子、用于将多核苷酸引入植物中并表达其中所编码的蛋白质的方法是本领域已知的。参见,例如,美国专利号5,889,191、5,889,190、5,866,785、5,589,367、5,316,931,以及Porta等人(1996)Molecular Biotechnology[分子生物技术]5:209-221;通过引用并入本文。

用于在植物基因组的具体位置靶向插入多核苷酸的方法是本领域已知的。在一个实施例中,利用位点特异性重组系统实现多核苷酸在所需的基因组位置处的插入。参见例如,WO 99/25821、WO 99/25854、WO 99/25840、WO 99/25855、以及WO 99/25853,将其全部通过引用并入本文。简言之,本文公开的多核苷酸可以包含在两侧为两个非引起重组的重组位点的转移盒中。将转移盒引入使如下靶位点稳定地并入其基因组中的植物中,该靶位点的侧翼为与该转移盒的这些位点相对应的两个非引起重组的重组位点。提供适当的重组酶,并将转移盒整合到靶位点。由此,目的多核苷酸被整合在植物基因组中的具体染色体位置处。靶向多核苷酸的其他方法在WO 2009/114321(通过引用并入本文)中阐述,其描述了产生以修饰植物基因组(特别是玉蜀黍基因组)的“定制”大范围核酸酶。还参见Gao等人(2010)Plant Journal[植物杂志]1:176-187。

可依据常规方式将已转化的细胞培育成植株。参见例如,McCormick等人,(1986)Plant Cell Reports[植物细胞报告]5:81-84。然后可以培育这些植株,并用相同的经转化的株系或者不同的株系进行授粉,并鉴定出具有所希望的表型特征的组成型表达的所得子代。可以培育两代或两代以上以确保希望的表型特征的表达稳定保持并且遗传,然后收获种子以确保希望的表型特征已经实现表达。以这种方式,本公开提供了具有本文公开的多核苷酸的转化种子(也称为“转基因种子”),该多核苷酸例如作为表达盒的一部分稳定地并入其基因组中。

可以培养通过植物转化技术衍生的转化的植物细胞(包括以上讨论的那些)以再生拥有转化的基因型(即本发明多核苷酸)并且从而拥有所希望的表型(例如产量增加)的完整植物。对于玉蜀黍的转化和再生,参见,Gordon-Kamm等人,The Plant Cell[植物细胞],2:603-618(1990)。从培养的原生质体再生植物描述于Evans等人(1983)ProtoplastsIsolation and Culture,Handbook of Plant Cell Culture[原生质体分离和培养-植物细胞培养手册],第124-176页,Macmillan Publishing Company,New York[纽约麦克米兰出版公司];和Binding(1985)Regeneration of Plants,Plant Protoplasts[植物再生-植物原生质体]第21-73页,CRC Press,Boca Raton[波卡拉顿CRC出版社]。还可以从植物愈伤组织、外植体、器官或其部分中获得再生。此类再生技术通常描述于Klee等人(1987)AnnRev of Plant Phys[植物生理学年鉴]38:467中。

技术人员将认识到,在将含有本发明多核苷酸的表达盒稳定地并入转基因植物中并且确认是有效的之后,其可以通过有性杂交被引入其他植物中。可以使用许多标准育种技术中的任何一种,这取决于待杂交的物种。

在无性繁殖的作物中,成熟的转基因植物可以通过取出插条或通过组织培养技术进行繁殖,以产生多个相同的植物。进行所希望的转基因学的选择,并且获得并且无性繁殖新品种用于商业用途。在种子繁殖的作物中,成熟的转基因植物可以自交以产生纯合的自交系植物。该自交系植物产生含有新引入的异源核酸的种子。这些种子可以生长,以产生植物,这些植物将产生选择的表型。

包括从再生植物获得的部分,例如花、种子、叶、枝、果实等,条件是这些部分包含含有本发明多核苷酸的细胞。还包括再生植物的子代和变体、以及突变体,条件是这些部分包含引入的核酸序列。

在一个实施例中,可通过将含有单个添加的异源核酸的杂合转基因植物有性交配(自交),使产生的种子中的一些发芽,并且针对相对于对照植物(即天然的、非转基因的),改变的细胞分裂,分析产生的所得植物。还考虑了与亲本植物回交和与非转基因植物外交。

因此,在某些实施例中,方法包括:(a)在可再生的植物细胞中表达本文所述的本发明多核苷酸中的任一种,例如包含编码与SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55中任一个的氨基酸序列具有至少90%同一性的氨基酸序列的多核苷酸的重组DNA构建体,和(b)产生植物,其中该植物在其基因组中包含目的重组DNA构建体。

可以使用各种方法来将编码和BG1多肽的基因组基因座上的遗传修饰引入植物、植物部分、植物细胞、种子、和/或谷物。在某些实施例中,通过基因组修饰技术进行靶向DNA修饰,该基因组修饰技术选自由以下组成的组:多核苷酸指导的内切核酸酶、CRISPR-Cas内切核酸酶、碱基编辑脱氨酶、锌指核酸酶、转录激活子样效应子核酸酶(TALEN)、工程化位点特异性大范围核酸酶、或Argonaute。

在一些实施例中,可以通过在所需改变附近的基因组中的确定位置诱导双链断裂(DSB)或单链断裂来促进基因组修饰。可以使用任何可用的DSB诱导剂诱导DSB,该诱导剂包括但不限于,TALEN、大范围核酸酶、锌指核酸酶、Cas9-gRNA系统(基于细菌性CRISPR-Cas系统)、指导的cpf1内切核酸酶系统等。在一些实施例中,可以将DSB的引入与多核苷酸修饰模板的引入组合。

可以通过本领域已知的任何方法将多核苷酸修饰模板引入细胞中,该方法例如但不限于瞬时引入方法、转染、电穿孔、显微注射、颗粒介导的递送、局部施用、晶须介导的递送、经由细胞穿透肽的递送或介孔二氧化硅纳米颗粒(MSN)介导的直接递送。

可以将多核苷酸修饰模板作为单链多核苷酸分子、双链多核苷酸分子或作为环状DNA(载体DNA)的一部分引入细胞中。该多核苷酸修饰模板还可以与指导RNA和/或Cas内切核酸酶进行系链。系链的DNA可以允许共定位靶标和模板DNA,可用于基因组编辑和靶向的基因组调节,并且还可以用于靶向有丝分裂后期细胞,在这些细胞中内源性HR机制的功能预计会大大降低(Mali等人2013 Nature Methods[自然方法]第10卷:957-963)。该多核苷酸修饰模板可以瞬时地存在于细胞中,或可以经由病毒复制子引入。

“经修饰的核苷酸”或“经编辑的核苷酸”是指当与其非修饰的核苷酸序列相比时,包含至少一个改变的目的核苷酸序列。此类“改变”包括,例如:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。

术语“多核苷酸修饰模板”包括,当与待编辑的核苷酸序列相比时,包含至少一个核苷酸修饰的多核苷酸。核苷酸修饰可以是至少一个核苷酸取代、添加或缺失。任选地,多核苷酸修饰模板可以进一步包含位于至少一个核苷酸修饰侧翼的同源核苷酸序列,其中侧翼同源核苷酸序列为待编辑的希望的核苷酸序列提供了充足同源性。

组合DSB和修饰模板来编辑基因组序列的过程通常包括:向宿主细胞提供DSB诱导剂或编码DSB诱导剂的核酸(识别染色体序列中的靶序列并且能够诱导基因组序列中的DSB),和与待编辑的核苷酸序列相比时包含至少一个核苷酸改变的至少一个多核苷酸修饰模板。多核苷酸修饰模板还可以包含侧翼于该至少一个核苷酸变化的核苷酸序列,其中侧翼序列与侧翼于DSB的染色体区域基本同源。

内切核酸酶可以通过本领域已知的任何方法提供给细胞,该方法例如但不限于瞬时引入方法、转染、显微注射、和/或局部施用、或间接经由重组构建体。内切核酸酶可以作为蛋白质或作为指导多核苷酸复合物直接提供给细胞或经由重组构建体间接提供。使用本领域已知的任何方法,可以瞬时地将内切核酸酶引入细胞中,或可以将内切核酸酶并入宿主细胞的基因组中。在CRISPR-Cas系统的情况下,如2016年5月12日公开的WO 2016073433中所述的,可以用细胞穿透肽(CPP)促进内切核酸酶和/或指导多核苷酸摄入进细胞。

除通过双链断裂技术进行修饰之外,无此类双链断裂的一种或多种碱基的修饰使用碱基编辑技术实现,参见例如,Gaudelli等人,(2017)Programmable base editing ofA*T to G*C in genomic DNA without DNA cleavage.[在无DNA切割时基因组DNA中A*T至G*C的可编程碱基编辑]Nature[自然]551(7681):464-471;Komor等人,(2016)Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage[在无双链DNA切割时基因组DNA中靶碱基的可编程编辑],Nature[自然]533(7603):420-4。

这些融合物含有dCas9或Cas9切口酶和合适的脱氨酶,并且它们例如可以将胞嘧啶转化为尿嘧啶而不引起靶DNA的双链断裂。然后尿嘧啶通过DNA复制或修复被转化为胸腺嘧啶。具有目的灵活性和特异性的改善的碱基编辑器被用于编辑内源基因座以产生靶标变异并且提高谷物产量。类似地,腺嘌呤碱基编辑器能使腺嘌呤向肌苷变化,然后通过修复或复制将其转化为鸟嘌呤。因此,使用适当的位点特异性碱基编辑器在一个多个位置上进行靶向性碱基改变,即,C·G至T·A转化和A·T至G·C转化。

在一个实施例中,碱基编辑是基因组编辑方法,其可在靶基因组基因座上将一个碱基对直接转化为另一个碱基对,而无需双链DNA断裂(DSB)、同源定向修复(HDR)过程、或外部供体DNA模板。在一个实施例中,碱基编辑器包括(i)催化受损的CRISPR-Cas9突变体,其是突变的,这样使得其核酸酶结构域中的一个无法产生DSB;(ii)单链特异性胞苷/腺嘌呤脱氨酶,其可在通过Cas9产生的单链DNA气泡中的适当核苷酸窗口内将C转化成U或将A转化成G;(iii)尿嘧啶糖基化酶抑制剂(UGI),其阻止尿嘧啶切除以及降低碱基编辑效率和产物纯度的下游过程;以及(iv)切口酶活性以切割未编辑的DNA链,然后细胞DNA修复过程以替代含G的DNA链。

如本文所用,“基因组区域”是存在于靶位点任一侧上的细胞的基因组中的染色体的区段,或者可替代地,还包含靶位点的一部分。基因组区域可以包含至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800。5-2900、5-3000、5-3100或更多个碱基,这样使得基因组区域具有足够的同源性以与相应的同源区域进行同源重组。

TAL效应子核酸酶(TALEN)是一类序列特异性核酸酶,其可以被用于在植物或其他生物体的基因组中特异性靶序列处造成双链断裂。(Miller等人(2011)NatureBiotechnology[自然生物技术]29:143-148)。

内切核酸酶是在多核苷酸链内切割磷酸二酯键的酶。内切核酸酶包括限制性内切核酸酶,其在特异性位点处切割DNA而不损坏碱基;并且包括大范围核酸酶,也称为归巢内切核酸酶(HE酶),其相似于限制性内切核酸酶,在特异性识别位点处结合并且切割,然而对于大范围核酸酶,识别位点典型地更长,约18bp或更长(于2012年3月22日提交的专利申请PCT/US 12/30061)。基于保守的序列基序将大范围核酸酶分类为四个家族,这些家族是LAGLIDADG、GIY-YIG、H-N-H、和His-Cys box家族。这些基序参与金属离子的配位和磷酸二酯键的水解。HE酶的显著之处在于它们的长识别位点,并且还在于耐受其DNA底物中的一些序列多态性。对于大范围核酸酶的命名约定相似于对其他限制性内切核酸酶的约定。大范围核酸酶还分别表征为针对由独立的ORF、内含子、和内含肽编码的酶的前缀F-、I-、或PI-。在重组过程中的一个步骤涉及在识别位点处或在该识别位点附近的多核苷酸切割。可以将切割活性用于产生双链断裂。对于位点特异性重组酶和它们的识别位点的综述,参见,Sauer(1994)Curr Op Biotechnol[生物技术新见]5:521-7;以及Sadowski(1993)FASEB[美国实验生物学学会联合会杂志]7:760-7。在一些实例中,重组酶来自整合酶(Integrase)或解离酶(Resolvase)家族。

锌指核酸酶(ZFN)是由锌指DNA结合结构域和双链-断裂-诱导剂结构域组成的工程化双链断裂诱导剂。识别位点特异性由锌指结构域赋予,该锌指结构域典型地包含两个、三个、或四个锌指,例如具有C2H2结构,然而其他锌指结构是已知的并且已经被工程化。锌指结构域适于设计特异性结合所选择的多核苷酸识别序列的多肽。ZFN包括连接至非特异性内切核酸酶结构域(例如来自IIs型内切核酸酶例如FokI的核酸酶结构域)的工程化DNA结合锌指结构域。额外的功能性可以融合到锌指结合结构域中,这些额外的功能性包括转录激活子结构域、转录阻遏物结构域、和甲基化酶。在一些实例中,核酸酶结构域的二聚化是切割活性所需的。每个锌指在靶DNA中识别三个连续的碱基对。例如,3指结构域识别9个连续核苷酸的序列,由于核酸酶的二聚化需要,因此两组锌指三联体用于结合18个核苷酸的识别序列。

例如在2015年3月19日公开的美国专利申请US 2015-0082478A1、2015年2月26日公开的WO 2015/026886A1、2016年1月14日公开的WO 2016007347、以及2016年2月18日公开的WO 201625131(将其全部通过引用并入本文)中已经描述了使用DSB诱导剂(例如Cas9-gRNA复合物)进行的基因组编辑。

本文中术语“Cas基因”是指在细菌系统中通常与侧翼CRISPR基因座偶联、缔合或接近或在邻近处的基因。术语“Cas基因”,“CRISPR相关的(Cas)基因”在本文中可互换地使用。本文的术语“Cas内切核酸酶”是指由Cas基因编码的蛋白质。当与适合的多核苷酸组分复合时,本文的Cas内切核酸酶能够识别、结合特异性DNA靶序列的全部或部分、并任选地使特异性DNA靶序列的全部或部分产生切口或切割特异性DNA靶序列的全部或部分。本文描述的Cas内切核酸酶包含一个或多个核酸酶结构域。本公开的Cas内切核酸酶包括具有HNH或HNH-样核酸酶结构域和/或RuvC或RuvC-样核酸酶结构域的那些。本公开的Cas内切核酸酶包括Cas9蛋白、Cpf1蛋白、C2c1蛋白、C2c2蛋白、C2c3蛋白、Cas3、Cas5、Cas7、Cas8、Cas10或这些的复合物。

如本文所用,术语“指导多核苷酸/Cas内切核酸酶复合物”、“指导多核苷酸/Cas内切核酸酶系统”、“指导多核苷酸/Cas复合物”、“指导多核苷酸/Cas系统”、“指导性Cas系统”在本文中可互换地使用,并且是指能够形成复合物的至少一种指导多核苷酸和至少一种Cas内切核酸酶,其中所述指导多核苷酸/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点,使Cas内切核酸酶能够识别、结合到、并任选地使DNA靶位点产生切口或切割(引入单链或双链断裂)DNA靶位点。本文中指导多核苷酸/Cas内切核酸酶复合物可以包含四种已知的CRISPR系统(Horvath和Barrangou,2010,Science[科学]327:167-170)(诸如I型、II型或III型CRISPR系统)中任一种的一种或多种Cas蛋白和一种或多种合适的多核苷酸组分。Cas内切核酸酶在靶序列处解开DNA双链体并任选地切割至少一条DNA链,如通过由与Cas蛋白复合的多核苷酸(例如但不限于crRNA或指导RNA)识别靶序列所介导的。如果正确的前间隔序列邻近基序(PAM)位于或相邻于DNA靶序列的3′末端,则通过Cas内切核酸酶对靶序列进行的此类识别和切割典型地会发生。可替代地,本文中的Cas蛋白可能缺乏DNA切割或切口活性,但是当与合适的RNA组分复合时,仍然可以特异性结合DNA靶序列。(还参见于2015年3月19日公开的美国专利申请US 2015-0082478 A1和于2015年2月26日公开的US 2015-0059010 A1,两者均通过引用以其全文特此并入)。

指导多核苷酸/Cas内切核酸酶复合物可以切割DNA靶序列的一条或两条链。可以切割DNA靶序列的两条链的指导多核苷酸/Cas内切核酸酶复合物典型地包含具有处于功能状态的所有其内切核酸酶结构域的Cas蛋白(例如野生型内切核酸酶结构域或其变体在每个内切核酸酶结构域中保留一些或全部活性)。适用于本文使用的Cas9切口酶的非限制性实例公开于美国专利申请公开号2014/0189896中,将其通过引用并入本文。

其他Cas内切核酸酶系统已经在2016年5月12日提交的PCT专利申请PCT/US 16/32073和2016年5月12日提交的PCT/US 16/32028中描述,将这两个申请通过引用并入本文中。

本文中的“Cas9”(以前称为Cas5、Csnl、或Csx12)是指与cr核苷酸和tracr核苷酸或与单指导多核苷酸形成复合物的II型CRISPR系统的Cas内切核酸酶,其用于特异性识别和切割DNA靶序列的全部或部分。Cas9蛋白包含RuvC核酸酶结构域和HNH(H-N-H)核酸酶结构域,它们各自可以在靶序列处切割单个DNA链(两个结构域的协同作用导致DNA双链切割,而一个结构域的活性导致一个切口)。通常,RuvC结构域包含亚结构域I、II和III,其中结构域I位于Cas9的N末端附近,并且亚结构域II和III位于蛋白的中间,即位于HNH结构域的侧翼(Hsu等人,Cell[细胞],157:1262-1278)。II型CRISPR系统包括利用与至少一种多核苷酸组分复合的Cas9内切核酸酶的DNA切割系统。例如,Cas9可以与CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)复合。在另一个实例中,Cas9可以与单一指导RNA复合。

任何指导的内切核酸酶可以用于本文公开的方法中。此类内切核酸酶包括但不限于,Cas9和Cpf1内切核酸酶。迄今为止,已经描述了许多可以识别特定PAM序列(参见例如-Jinek等人(2012)Science[科学]337p 816-821,2016年5月12日提交的PCT专利申请PCT/US16/32073和2016年5月12日提交的PCT/US 16/32028,以及Zetsche B等人2015.Cell[细胞]163,1013)并在特定位置切割靶DNA的内切核酸酶。应当理解的是,基于本文所述的使用指导的Cas系统的方法和实施例,现在人们可以定制这些方法这样使得它们可以利用任何指导的内切核酸酶系统。

指导多核苷酸也可以是包含连接至tracr核苷酸序列的cr核苷酸序列的单分子(也称为单指导多核苷酸)。单指导多核苷酸包含可以与靶DNA中的核苷酸序列杂交的第一核苷酸序列结构域(被称为可变靶向结构域或VT结构域)和与Cas内切核酸酶多肽相互作用的Cas内切核酸酶识别结构域(CER结构域)。“结构域”意指可以为RNA、DNA和/或RNA-DNA组合序列的核苷酸的连续延伸。单指导多核苷酸的VT结构域和/或CER结构域可以包含RNA序列、DNA序列或RNA-DNA组合序列。由来自cr核苷酸和tracr核苷酸的序列构成的单指导多核苷酸可以被称为“单指导RNA”(当由RNA核苷酸的连续延伸构成时)或“单指导DNA”(当由DNA核苷酸的连续延伸构成时)或“单指导RNA-DNA”(当由RNA和DNA核苷酸的组合构成时)。单指导多核苷酸可以与Cas内切核酸酶形成复合物,其中所述指导多核苷酸/Cas内切核酸酶复合物(还称为指导多核苷酸/Cas内切核酸酶系统)可以将Cas内切核酸酶引导至基因组靶位点,使该Cas内切核酸酶能够识别、结合靶位点、并任选地使靶位点产生切口或切割靶位点(引入单链或双链断裂)。(还参见于2015年3月19日公开的美国专利申请US 2015-0082478A1和于2015年2月26日公开的US 2015-0059010 A1,两者均通过引用以其全文特此并入)。

术语“可变靶向结构域”或“VT结构域”在本文中可互换使用,并且包括可以与双链DNA靶位点的一条链(核苷酸序列)杂交(互补)的核苷酸序列。在一些实施例中,可变靶向结构域包含12至30个核苷酸的连续延伸。可变靶向结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列或其任何组合构成。

术语“单指导RNA”和“sgRNA”在本文中可互换使用,并涉及两个RNA分子的合成融合,其中包含可变靶向结构域(与tracrRNA杂交的tracr配对序列连接)的crRNA(CRISPRRNA)与tracrRNA(反式激活CRISPR RNA)融合。单指导RNA可以包含可与II型Cas内切核酸酶形成复合物的II型CRISPR/Cas系统的crRNA或crRNA片段和tracrRNA或tracrRNA片段,其中所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点,使得Cas内切核酸酶能够识别、结合DNA靶位点、并任选地使DNA靶位点产生切口或切割(引入单链或双链断裂)DNA靶位点。

术语“指导RNA/Cas内切核酸酶复合物”、“指导RNA/Cas内切核酸酶系统”、“指导RNA/Cas复合物”、“指导RNA/Cas系统”、“gRNA/Cas复合物”、“gRNA/Cas系统”、“RNA-指导的内切核酸酶”,“RGEN”在本文中可互换地使用并且意指至少一种RNA组分和至少一种能够形成复合物的Cas内切核酸酶,其中所述指导RNA/Cas内切核酸酶复合物可以将Cas内切核酸酶引导至DNA靶位点,使Cas内切核酸酶能够识别、结合DNA靶位点并任选地使DNA靶位点产生切口或切割(引入单链或双链断裂)DNA靶位点。本文中的指导RNA/Cas内切核酸酶复合物可以包含四种已知的CRISPR系统(Horvath和Barrangou,2010,Science[科学]327:167-170)(诸如I型、II型或III型CRISPR系统)中任一种的一种或多种Cas蛋白和一种或多种合适的RNA组分。指导RNA/Cas内切核酸酶复合物可以包括II型Cas9内切核酸酶和至少一种RNA组分(例如,crRNA和tracrRNA、或gRNA)。(还参见于2015年3月19日公开的美国专利申请US 2015-0082478 A1和于2015年2月26日公开的US 2015-0059010 A1,两者均通过引用以其全文特此并入)。

本文所述的方法和组合物的指导多核苷酸可以是靶向植物细胞的基因组基因座的任何多核苷酸序列,该基因组基因座包含编码氨基酸序列的多核苷酸,该氨基酸序列与选自由SEQ ID NO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、41、43、45、47、49、51、53、和55组成的组的序列具有至少90%(例如,91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%)同一性。在某些实施例中,指导多核苷酸是指导RNA。指导多核苷酸也可以存在于重组DNA构建体中。

使用在本领域已知的任何方法(例如,但不限于,粒子轰击、农杆菌转化或局部施用),可以将作为单链多核苷酸或双链多核苷酸的指导多核苷酸瞬时地引入细胞。指导多核苷酸还可以通过引入(通过,诸如但不限于粒子轰击或农杆菌转化等方法)包含编码指导多核苷酸的异源核酸片段的重组DNA分子被间接引入细胞,该重组DNA分子可操作地连接到能够在所述细胞转录指导RNA的特异性启动子。特异性启动子可以是但不限于RNA聚合酶III启动子,其允许具有精确定义的未修饰的5′末端和3′末端的RNA转录(DiCarlo等人,Nucleic Acids Res.[核酸研究]41:4336-4343;Ma等人,Mol.Ther.Nucleic Acids[分子治疗-核酸]3:e161),如在2016年2月18日公开的WO 2016025131中所述,其通过引用以其全文并入本文。

术语“靶位点”、“靶序列”、“靶位点序列”、“靶DNA”、“靶基因座”、“基因组靶位点”、“基因组靶序列”、“基因组靶基因座”和“前间隔序列”在本文中可互换地使用,并且意指多核苷酸序列,例如,但不限于,在细胞的染色体、附加体,或基因组中的任何其他DNA分子(包括染色体DNA、叶绿体DNA、线粒体DNA、质粒DNA)上的核苷酸序列,在所述序列处指导多核苷酸/Cas内切核酸酶复合物可以进行识别、结合并任选地产生切口或进行切割。靶位点可以是细胞的基因组中的内源位点,或者可替代地,靶位点对于该细胞可以是异源的并且从而不是天然存在于细胞的基因组中,或者与在自然界发生的位置相比,可以在异质基因组位置中找到靶位点。如本文所用,术语“内源靶序列”和“天然靶序列”在本文中可互换使用,是指对细胞基因组来说是内源的或天然的、并且位于细胞的基因组中该靶序列的内源或天然位置处的靶序列。细胞包括但不限于人、非人、动物、细菌、真菌、昆虫、酵母、非常规酵母和植物细胞,以及通过本文所述的方法产生的植物和种子。“人工靶位点”或“人工靶序列”在本文中可互换使用,并且是指已经引入细胞的基因组中的靶序列。这种人工靶序列可以在序列上与细胞的基因组中的内源或天然靶序列相同,但是位于细胞的基因组中的不同位置(即,非内源的或非天然的位置)处。

“改变的靶位点”、“改变的靶序列”、“修饰的靶位点”、“修饰的靶序列”在本文中可互换使用,并且是指如本文公开的靶序列,当与非改变的靶序列相比时,该靶序列包含至少一个改变。此类“改变”包括,例如:(i)至少一个核苷酸的替代、(ii)至少一个核苷酸的缺失、(iii)至少一个核苷酸的插入、或(iv)(i)-(iii)的任何组合。

用于“修饰靶位点”和“改变靶位点”的方法在本文中可互换使用,并且是指用于产生改变的靶位点的方法。

靶DNA序列(靶位点)的长度可以变化,并且包括例如为至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个核苷酸长度的靶位点。还有可能靶位点可以是回文的,即,一条链上的序列与在互补链上以相反方向的读取相同。切口/切割位点可以在靶序列内,或者切口/切割位点可以在靶序列之外。在另一种变异中,切割可以发生在彼此正好相对的核苷酸位置处,以产生平端切割,或者在其他情况下,切口可以交错以产生单链突出端,也称为“粘性端”,其可以是5′突出端抑或3′突出端。还可以使用基因组靶位点的活性变体。此类活性变体可以包含与给定靶位点至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性,其中这些活性变体保留生物活性,因此能够被Cas内切核酸酶识别和切割。测量由内切核酸酶引起的靶位点的单链或双链断裂的测定是本领域已知的,并且通常测量试剂在含有识别位点的DNA底物上的总体活性和特异性。

本文中的“前间隔序列邻近基序”(PAM)指与由本文所述的指导多核苷酸/Cas内切核酸酶系统识别的(靶向的)靶序列(前间隔序列)邻近的短核苷酸序列。如果靶DNA序列后面不是PAM序列,则Cas内切核酸酶可能无法成功识别该靶DNA序列。本文中的PAM的序列和长度可以取决于所使用的Cas蛋白或Cas蛋白复合物而不同。PAM序列可以是任何长度,但典型地是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。

术语“靶向”、“基因靶向”和“DNA靶向”在本文中可互换地使用。本文中的DNA靶向可能是在特异性的DNA序列(例如细胞的染色体或质粒)中特异性引入敲除、编辑、或敲入。通常,本文中可以通过在具有与合适的多核苷酸组分缔合的内切核酸酶的细胞中的特异性DNA序列处切割一条或两条链来进行DNA靶向。这种DNA切割,如果是双链断裂(DSB),可以促进NHEJ或HDR过程,这可能导致靶位点处的修饰。

本文的靶向方法能以例如在该方法中靶向两个或更多个DNA靶位点的这样的方式进行。这种方法可以任选地被表征为多重方法。在某些实施例中,可以同时靶向两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个靶位点。多重方法典型地通过本文的靶向方法进行,其中提供了多个不同的RNA组分,每一个被设计成将指导多核苷酸/Cas内切核酸酶复合物引导到唯一的DNA靶位点。

术语“敲除”、“基因敲除”和“基因敲除”在本文中可互换使用。敲除表示已经通过用Cas蛋白进行靶向使得细胞的DNA序列部分或完全无效;例如,这种DNA序列在敲除之前可能已编码氨基酸序列,或可能已具有调节功能(例如启动子)。可以通过插入缺失(通过NHEJ在靶DNA序列中插入或缺失核苷酸碱基),或通过特异性去除在靶向位点处或其附近处降低或完全破坏序列功能的序列来产生敲除。

指导多核苷酸/Cas内切核酸酶系统可以与共同递送的多核苷酸修饰模板组合使用以允许编辑(修饰)目的基因组核苷酸序列。(还参见于2015年3月19日公开的美国专利申请US 2015-0082478 A1和2015年2月26日公开的WO 2015/026886 A1,两者均通过引用以其全文特此并入)。

术语“敲入”、“基因敲入”、“基因插入”和“基因敲入”在本文中可互换使用。敲入代表通过用Cas蛋白靶向在细胞中的特异性DNA序列处进行的DNA序列的替换或插入(通过HR,其中还使用合适的供体DNA多核苷酸)。敲入的实例是异源氨基酸编码序列在基因的编码区中的特异性插入,或转录调节元件在遗传基因座中的特异性插入。

可以采用不同方法和组合物来获得细胞或生物体,该细胞或生物体具有插入针对Cas内切核酸酶的靶位点中的目的多核苷酸。此类方法可以采用同源重组以提供目的多核苷酸在靶位点处的整合。在提供的一种方法中,在供体DNA构建体中将目的多核苷酸提供至生物细胞。如本文所用,“供体DNA”是包含待插入到Cas内切核酸酶的靶位点的目的多核苷酸的DNA构建体。供体DNA构建体进一步包含位于目的多核苷酸侧翼的同源的第一区域和第二区域。供体DNA的同源的第一区域和第二区域分别与存在于细胞或生物基因组的靶位点中或位于该靶位点侧翼的第一和第二基因组区域具有同源性。“同源”意指DNA序列是相似的。例如,在供体DNA上发现的“与基因组区域同源的区域”是与细胞或生物体基因组中给定的“基因组序列”具有类似序列的DNA的区域。同源的区域可以具有足以促进在切割的靶位点处的同源重组的任何长度。例如,同源的区域的长度可以包括至少5-10、5-15、5-20、5-25、5-30、5-35、5-40、5-45、5-50、5-55、5-60、5-65、5-70、5-75、5-80、5-85、5-90、5-95、5-100、5-200、5-300、5-400、5-500、5-600、5-700、5-800、5-900、5-1000、5-1100、5-1200、5-1300、5-1400、5-1500、5-1600、5-1700、5-1800、5-1900、5-2000、5-2100、5-2200、5-2300、5-2400、5-2500、5-2600、5-2700、5-2800、5-2900、5-3000、5-3100或更多个碱基,这样使得同源的区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”表示两个多核苷酸序列具有足够的结构相似性以充当同源重组反应的底物。结构相似性包括每个多核苷酸片段的总长度以及多核苷酸的序列相似性。序列相似性可以通过在序列的整个长度上的百分比序列同一性和/或通过包含局部相似性(例如具有100%序列同一性的连续核苷酸)的保守区域以及在序列长度的一部分上的百分比序列同一性来描述。

靶标和供体多核苷酸具有的序列同一性的量可以变化,并且包括总长度和/或在约1-20bp、20-50bp、50-100bp、75-150bp、100-250bp、150-300bp、200-400bp、250-500bp、300-600bp、350-750bp、400-800bp、450-900bp、500-1000bp、600-1250bp、700-1500bp、800-1750bp、900-2000bp、1-2.5kb、1.5-3kb、2-4kb、2.5-5kb、3-6kb、3.5-7kb、4-8kb、5-10kb,或多达并包括靶位点的总长度的范围内具有单位整数值的区域。这些范围包括范围内的每个整数,例如1-20bp的范围包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20bp。同源性的量也可以通过在两个多核苷酸的完整比对长度上的百分比序列同一性来描述,其包括约至少50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的百分比序列同一性。足够的同源性包括多核苷酸长度、总体百分比序列同一性,和任选地连续核苷酸的保守区域或局部百分比序列同一性的任何组合,例如,足够的同源性可以被描述为与靶基因座的区域具有至少80%序列同一性的75-150bp的区域。还可以通过用来在高严格条件下特异性杂交的两个多核苷酸的预测能力来描述足够的同源性,参见例如Sambrook等人,(1989)Molecular Cloning:ALaboratory Manual[分子克隆:实验室手册](Cold Spring Harbor Laboratory Press,NY[纽约冷泉港实验室出版社]);Current Protocols in Molecular Biology[分子生物学现代方案],Ausubel等人,编辑(1994)Current Protocols[实验室指南](Greene PublishingAssociates,Inc.[格林出版合伙公司]和John Wiley&Sons,Inc.[约翰威利父子公司]);以及Tijssen(1993)Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes[生物化学和分子生物学中的实验室技术-与核酸探针杂交](Elsevier,New York[纽约爱思唯尔出版社])。

在给定的基因组区域和在供体DNA上发现的相应的同源的区域之间的结构相似性可以是允许同源重组发生的任何程度的序列同一性。例如,由供体DNA的“同源的区域”和生物体基因组的“基因组区域”共享的同源性或序列同一性的量可以是至少50%、55%、60%、65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性,这样使得序列进行同源重组

供体DNA上的同源的区域可以与靶位点侧翼的任何序列具有同源性。虽然在一些实施例中,同源的区域与紧邻靶位点侧翼的基因组序列共享显著的序列同源性,但是应当认识到同源的区域可以被设计为与可能更靠近靶位点的5′或3′的区域具有足够的同源性。在又其他实施例中,同源的区域还可以与靶位点的片段以及下游基因组区域具有同源性。在一个实施例中,第一同源的区域进一步包含靶位点中的第一片段,并且第二同源的区域包含靶位点中的第二片段,其中第一片段和第二片段不同。

如本文所用,“同源重组”包括在同源的位点处的两个DNA分子之间的DNA片段的交换。

指导RNA/Cas内切核酸酶系统的另外的用途已进行了描述(参见2015年3月19日公开的美国专利申请US 2015-0082478 A1、2015年2月26日公开的WO 2015/026886 A1、2015年2月26日公开的US 2015-0059010 A1、2014年7月07日提交的美国申请62/023246,和2014年8月13日提交的美国申请62/036,652,将其全部通过引用并入本文),并包括,但不限于修饰或取代目的核苷酸序列(如调节元件)、目的多核苷酸插入、基因敲除、基因敲入、剪接位点的修饰和/或引入交替剪接位点、编码目的蛋白的核苷酸序列的修饰、氨基酸和/或蛋白质融合物、以及通过在目的基因中表达反向重复序列引起的基因沉默。

已经公开了主要通过使用根癌农杆菌(Agrobacterium tumefaciens)来转化双子叶植物并获得转基因植物的方法,尤其是对于棉花(美国专利号5,004,863、美国专利号5,159,135);大豆(美国专利号5,569,834、美国专利号5,416,011);芸苔属(美国专利号5,463,174);花生(Cheng等人,Plant Cell Rep.[植物细胞报告]15:653-657(1996),McKently等人,Plant Cell Rep.[植物细胞报告]14:699-703(1995));木瓜(Ling等人,Bio/technology[生物/技术]9:752-758(1991));和豌豆(Grant等人,Plant Cell Rep.[植物细胞报告]15:254-258(1995))。对于其他常用的植物转化方法的综述参见如下文献:Newell,C.A.,Mol.Biotechnol.[分子生物技术]16:53 65(2000)。这些转化方法之一使用发根土壤杆菌(Agrobacterium rhizogenes)(Tepfler,M.和Casse-Delbart,F.,Microbiol.Sci.[微生物科学]4:24 28(1987))。已经公开了采用如下手段使用DNA的直接递送进行的大豆转化:PEG融合(PCT公开号WO 92/17598)、电穿孔(Chowrira等人,Mol.Biotechnol.[分子生物技术]3:17 23(1995);Christou等人,Proc.Natl.Acad.Sci.U.S.A.[美国科学院院报]84:3962 3966(1987))、显微注射或粒子轰击(McCabe等人,Biotechnology[生物技术]6:923-926(1988);Christou等人,PlantPhysiol.[植物生理学]87:671 674(1988))。

有各种各样的方法用于从植物组织再生植物。特定的再生方法将取决于起始植物组织和待再生的特定植物种类。来自单一植物原生质体转化体或来自各种转化的外植体的植物的再生、发育和培养是本领域所熟知的(Weissbach和Weissbach编辑;Methods forPlant Molecular Biology[植物分子生物学方法];Academic Press,Inc.[学术出版社有限公司]:San Diego,CA[加利福尼亚州圣地亚哥],1988)。这种再生和生长过程典型地包括如下步骤:选择转化的细胞,通过胚性发育的通常阶段或通过生根苗阶段培养那些个体化细胞。以同样的方式再生转基因胚和种子。然后将所得的转基因生根芽苗种植在合适的植物生长培养基(如土壤)中。优选地,再生植物自花授粉以提供纯合的转基因植物。或者,将得自再生植物的花粉与农学上重要的品系的产生种子的植物进行杂交。相反地,将来自这些重要品系的植物的花粉用于给再生植物授粉。使用本领域技术人员熟知的方法培养含有所需多肽的本公开的转基因植物。

2019年12月18日提交的优先权申请美国序列号62/949,574的全部内容和公开内容通过引用以其全文特此并入。

以下是本发明一些方面的具体实施例的实例。提供这些实例仅出于说明目的而无意以任何方式限制本发明的范围。

实例1

BG1基因家族鉴定和表征

检索玉蜀黍基因组和转录组并鉴定了10个候选玉蜀黍家族成员。玉蜀黍中BG1相关基因家族的8个成员与OS-BG1具有超过20%的氨基酸同一性(AAID)(表2)。基因组草图RefGen2上的一个基因GRMZM2G027519与染色体7号上的GRMZM5G843781相同,且只有染色体7号基因座保留在较新的AGPv4基因组草图中。

表2.BG1和BG1样家族成员

基因名称、公共基因座名称、肽长度(氨基酸)、染色体位置和与稻OS-BG1的全局氨基酸同一性(AAID)和相似性(AASIM)。通过蛋白质关系与OS-BG1最接近的同源物(65.1%同一性)是基因座GRMZM2G178852,其被命名为玉蜀黍BIG GRAIN1同源物1(ZM-BG1H1)。与OS-BG1第二接近的同源物(56.3%-57.6%同一性)是染色体9号上的单个或重复基因基因座。在B73基因组装配RefGen2.0或AGPv4.0中,该区域由两个非常紧密相关(97.8%AAID)和紧密间隔的基因座GRMZM2G007134(ZM-BG1H2)和GRMZM2G438606(ZM-BG1H3)表示。在公共基因组草图RefGen2和AGPv4中,这两个基因之间的区域由50kb N-间隔区填补空位。不同硬茎系的专有基因组草图表明,这两个基因是以指示直接区域串联重复的排列连接的间隔31.5kb的ATG-ATG,其中变体GRMZM2G438606是这两个基因的最远端(端粒)。然而,在一些专有的非硬茎系基因组草图中,该区域表现为基因座GRMZM2G438606的单拷贝,表明该基因座可能已经被复制(或优先保留)以仅在玉蜀黍品系的子集中呈现GRMZM2G007134。该复合基因座对的基因表达和遗传单倍型分析(下文)可能使这两个基因座相混淆,因为它们在ORF中是99.3%nt同一的并且间隔非常紧密,因此通常将它们一起称为ZM-BG1H2(3)。ZM-BG1H1基因与ZM-BG1H2(3)基因对具有约65%AAID。

两个其他更远相关的基因ZM-BG1LH1(GRMZM2G110473)和ZM-BG1LH2(GRMZM2G110473)(对于玉蜀黍BG1样同源物1和2)与OS-BG1具有41.1%和39.3%AAID,但与OS-BG1样基因基因座(LOC_Os10g25810.1)具有稍微更高的氨基酸相似性,分别为54.4%和49.6%。BG1家族分为BG1同源物和BG1样同源物的主要进化枝。这两个基因被分类为BG1样。这两个玉蜀黍基因是73.8%AATD,表明它们最近被复制。其他三个BG1样基因ZM-BG1LH3、ZM-BG1LH4和ZM-BG1LH5与OS-BG1具有非常低的(小于26%)氨基酸相似性。ZM-BG1LH3和ZM-BG1LH4对享有74.9%AAID,而ZM-BG1H5是最不同的,与所有其他家族成员享有不到23%ID(表2)。

ZM-BG1H1和ZM-BG1H2(3)对被鉴定为候选OS-BG1直系同源物。染色体1和9号共享基因组内共线性的大区域。ZM-BG1H1周围的局部染色体1号区域与ZM-BG1H2(3)周围的染色体9号区域中的基因共享多个基因同源物。正如ZM-BG1H1和ZM-BG1H2(3)在它们各自的染色体上的方向相反,分别为反向和正向,在它们的局部共线同源基因近邻中的相对基因顺序也是颠倒的。高粱只有一个OS-BG1同源物,虽然它与ZM-BG1H1的同一性(77.5%)高于与ZM-BG1H2(3)的同一性(69.6%),但该序列介于二者之间。这表明玉蜀黍-高粱的最后一个共同祖先(约11.9m.y.a)可能具有单个BGl同源基因,并且在约>4.8m.y.a.的基因组复制事件产生了染色体1号和9号上的玉蜀黍基因座,但也可能出现玉蜀黍-高粱前祖先以来的其他基因丢失/保留情况。

实例2

基因表达分析

使用产生的一组755个B73 RNAseq样品分析了ZM-BG1家族的基因表达。OS-BG1在茎尖分生组织和发育中的花序中显示最高水平的表达,但在发育中的种子中表达水平较低,在叶和根中还要更低(参见bar.utoronto.ca的Rice eFP浏览器,查询别名LOC_0s03g07920)。在分为五个主要组织类别的755个不同的组织处理mRNA分析样品中观察了玉蜀黍基因家族表达模式。ZM-BG1基因家族mRNA表达在来自基于B73的基因表达图谱的五个主要玉蜀黍组织类别(根、绿色组织、分生组织、穗和雄穗)中进行。对于每个组织类别,以平均pptm(每千万的份数)测量表达值。所有样品中的最高平均表达是ZM-BG1H1。Zm-BG1H2(3)表达模式没有区别,因为它们是99.3%nt同一的,但总体上它们的表达水平似乎低于ZM-BG1H1,尽管公共eFP浏览器显示,ZM-BG1H2(3)在一些组织中具有更高的表达。其余的家族成员具有甚至更低的表达水平。

表3.内源ZM-BG1H1基因和转基因ZM-BG1H1基因表达水平比较

在所有四个事件和空白对照中测量了内源天然ZM-BG1H1 mRNA表达,表明天然基因表达在事件和空白之间存在差异。另外,对转基因ZM-BG1H1(MOD1)相对于天然内源ZM-BG1H1表达的表达进行了估算。天然ZM-BG1H1与转基因ZM-BG1H1(MOD1)的PCR引物和测定是不同的,这区分了它们的表达。在每个测定中,通过与共同内部组成型对照比较对ZM-BG1H1(MOD1)转基因相对于内源ZM-BG1H1天然基因的相对倍数增加的表达进行了估算。

通过更精细的组织模式分辨率关注ZM-BG1H1与ZM-BG1H2(3),观察到Zm-BG1H1在茎、幼穗、穗丝和雄穗中具有最高表达,而ZM-BG1H2(3)在壳和幼穗中具有最高表达。

更详细地比较了ZM-BG1H1基因与一个或多个ZM-BG1H2(3)基因表达。19个组织类别中的基因表达来自基于B73的基因表达图谱。进行了ZM-BG1H1基因与一个或多个ZM-BG1H2(3)基因之间的叶昼夜基因表达。ZM-BG1H1具有显著的昼夜(白天-晚上)表达,在ZT14或傍晚达到峰值。ZM-BG1H1表达超过ZM-BG1H2(3)白天或晚上的合并水平。ZM-BG1H1、ZM-BG1H2(3)。在除壳、穗叶鞘和果皮外的所有组织中,Zm-BG1H1具有较高的表达。玉蜀黍eFP浏览器比较显示,ZM-BG1H1在杆和茎尖分生组织、穗轴、雄穗和穗丝中具有最高表达,而对于ZM-BG1H2(3),在穗轴、胚乳、籽粒和壳中具有最高表达。在eFP叶梯度表达模式中,两个基因都显示叶表达集中在叶的基部那半,部分在叶的最尖端表达,特别是对于ZM-BG1H2(3)。这些组织表达模式不能完全分辨哪个基因在天然表达模式中与OS-BG1最相似,但是ZM-BG1H1在分生组织和发育中的花序中具有特别高的表达,这与OS-BG1的表达模式相匹配。ZM-BG1H1和BG1家族的其他成员未显示高的叶或绿色组织表达。这可能部分是由于大部分样品是在白天采集的。绘制了ZM-BG1H1和ZM-BG1H2(3)的昼夜表达模式图。ZM-BG1H1揭示了在深夜中具有最高表达的独特的昼夜模式。

使用了755个RNA-seq转录物样品集来通过使用0.7的皮尔逊相关性(r值)和在两个或更多个样品中至少5pptm的最小表达水平确定与ZM-BG1H1和ZM-BG1H2(3)基因表达相关的基因。对于ZM-BG1H1,一组136个转录物是相关的,并且在这些相关的转录物中,最丰富的15个基因本体论术语包括核小体、核仁、细胞核和DNA结合、以及类囊体和叶绿体、胞间连丝、液泡膜和质膜、以及细胞分裂和细胞周期。相比之下,ZM-BG1H2(3)具有101个相关的转录物,其中细胞核和转录名列前茅,但是这些GO术语富集值远不如ZMBG1H1富集的GO术语显著。

实例3

转基因事件评估和田间产量测试

在玉蜀黍中使用ZM-GOS2 PRO选择玉蜀黍基因ZM-BG1H1基因的转基因OE,使用B73参考等位基因ZM-BG1H1-A1(SS品系中最常见的),尽管具有所述的两个氨基酸和ORF nt改变,因此为ZM-BG1H1(MOD1)。ZM-GOS2 PRO赋予适度的组成型表达。使用优良种质非硬茎自交系PH184C进行转化,其具有NSS品系中共有的ZM-BG1H1A3等位基因。使用捕获测序(Southern-by-Sequencing)评价四个事件的唯一性位置。事件1、3和4映射到染色体2号,但位于不同的位置,分别位于B73基因组草图RefGen2的位置Chr2:120.4Mbp、Chr2:1.3Mbp、和Chr2:164.7Mbp。事件2被分配到B73基因组中不存在但与转化系PH184C基因组匹配的不同区域。将T1代植物与PHW3G系顶交,该PHW3G系是具有ZM-BG1H1-A1/2等位基因的硬茎品种。

首先在T0代通过qRT-PCR测定转基因表达用于事件选择,随后再次作为杂交种子用于产量测试。在生长室杂交V3-V4幼苗叶中比较内源ZM-BG1H1基因相对于ZM-BG1H1(MOD1)转基因的相对表达,并再次在田间生长的R1成熟穗叶中进行比较。两者均表明,转基因事件具有显著可检测的ZM-BG1H1(MOD1)表达,通过与qRT-PCR内部组成型对照GRMZM5G877316_T02相比于其在基因表达图谱中的基准表达估计为约1000-2000pptm。在生长室植物中,相对于ZM-BG1H1天然基因座,ZM-BG1H1(MOD1)的表达在所有四个事件中估计平均提高了>57倍,而在田间生长的植物中提高了>32倍(表2)。这是推断的相对倍数变化,因为ZM-BG1H1天然基因和ZM-BG1H1 MOD1转基因涉及不同的qRT-PCR测定。通过将它们各自与共同内部基因PCR对照(广泛表达的基因转录物GRMZM5G877316_T02)进行比较来估计它们的相对表达。因为天然基因以非常低的水平表达,所以即使在天然基因测定中适度的背景qRT-PCR信号也可能导致转基因的相对倍数变化推导的低估。尽管转基因使用ZM-GOS2 PRO的特异性分离的DNA片段,但当使用468个RNASeq B73样品比较ZM-GOS2(GRMZM2G073535)和ZM-BG1H1之间的相对内源天然基因表达水平时,ZM-GOS2基因表达平均比ZM-BG1H1高375倍。当按11种主要组织类型分解时,叶/芽苗和胚乳中的比率分别高出553倍和541倍,雄穗和杆/茎中的比率分别高出21倍和18倍。ZM-GOS2的平均叶组织表达是6500pptm,比上述RT-PCR转基因估值高3至6倍。这些结果还表明,天然ZM-GOS2不仅表达高于ZM-BG1H1的表达,而且相对于天然ZM-BG1H1,它还具有独特的组织-空间-时间模式。

在两年的测试中,在多个田间位置和环境中,相较于非转基因空白对照,对ZM-BG1H1 OE事件(E1-E4)进行了田间产量测试。这些产量测试在总共26个地点进行,这在两年间产生一系列田间环境,对照产量范围为9.4至17.4t/ha。通常选择这些地点以提供环境和胁迫变化,其中水可用性胁迫是这些地点之间产量差异的共同驱动因素。低于11.2t/ha的最低产出环境被分类为中度胁迫,11.2-14.4t/ha为轻度胁迫,且所有高于14.4t/ha的那些被分类为最佳生长条件。所有四个事件在两年间相对于对照的每单位面积产量均增加,总测试平均值为355kg/ha(5.65bu/ac)(图1)。事件性能对于事件E2为204.7kg/ha,对于事件E1、E4和E3分别为399.1、406.7和415.4kg/ha。事件间差异较小,在α0.05显著性检验中未拒绝时无差异。事件2滞后,但事件E1、E3和E4在α0.05时不可区分,平均407kg/ha(6.5bu/ac)优势。所有101个事件-位置-年测试的产量差异如图2所示。83%的测试为标称正值,其中29个在BLUP P值0.1时具有统计学显著性,只有两个产出负值在BLUP P值0.1时具有统计学显著性。其中七个测试产出了超过1吨/公顷的优势。四个事件分布在性能谱上,所有四个事件都具有在10%产量差异值之上或之下的代表。ZM-BG1H1 OE测试在包括轻度胁迫至最佳条件的宽范围环境中显示出产量优势。在中度胁迫下几乎没有或没有优势,但这仅基于一个位置。相对于对照产量的产量优势的线性回归分析仅为r2=0.05,表明几乎没有共同关联。这表明ZM-BG1H1 OE在宽范围的环境、测试位置和胁迫水平中赋予产量优势(图2)。

对于与玉蜀黍育种相关的一组农艺性状,通过田间测试中空中和地面观察的组合评估了ZM-BG1H1 OE事件与对照的差异。这些性状包括涵盖开花、冠层和植物绿度、植株大小和结构以及谷物水分在内的性状。将包括产量的所有这些性状转化为与对照的百分比差异以实现性状之间的比较。计算每个性状的线性回归分析以在每一个中产生优势ZM-BG1H1(所有事件相结合)。这些性状中每一个的与对照的百分比差异,以及产量差异相关性斜率和回归相关性一起绘制在图3中。作为参考性状的产量优势具有1的斜率并且与自身相关。四个冠层绿度性状总体上显示与对照几乎没有差异,与产量相关的处理斜率或相关性也很小。四个开花时间测量值与对照相比呈略微正值趋势(差异范围为0.3%至0.6%),但它们实际上不显示正斜率或与产量优势的相关性。株高和穗高均高于对照,分别为2.6%和1.5%,但两者也几乎没有或没有显示出正斜率或与产量优势的相关性。谷物水分(MST)略高于对照(1.4%),并显示出轻微的正斜率和与产量的共同关联性(r2=0.19)。当将水分与产量相结合时(YLDMST,或产量/水分),如预期的,与产量的相关性的正值更强且更具显著性(斜率0.7和r2=0.8)。谷物密度(TSTWT)平均下降0.5%(斜率0.01,r2=0.31)。

开花时间:在第3年(Yr3-Obs)将四个事件和对照重新种植在专门观察地块中,以证实或扩展在产量试验中进行的表型观察。当植物在1.8m高度时,通过V11没有观察到与对照在发芽、幼苗立根数、冠层郁闭度、叶大小形状或颜色、分蘖和株高方面的差异。开花测量在种植后62天(1353GDU生长热量单位)开始,每天进行直到第68天(1488GDU)。对照和每个事件的开花图用于插入花粉脱落和吐丝达到50%的点(表4)。相对于对照,所有四个事件在花粉脱落方面延迟10-40GDU,顺序为空白<E1<E3<E2<E4,或综合所有4个事件中,花粉脱落平均延迟25GDU。相对于对照,所有四个事件在吐丝方面延迟2-38GDU,顺序为空白<E1<E3<E2<E4,或综合所有4个事件中,吐丝平均延迟21GDU。ASI几乎没有变化,对照为31GDU,4个事件范围为23-34GDU,所有4个事件的平均值为27GDU。

表4.ZM-BG1H1 OE植物的开花时间差异

种植后的小时数(Hr)或累积热量生长单位(GDU)数,其中50%植物表现出可见的穗丝出现或雄穗小花挤出。通过从观察地块中累积吐丝或花粉脱落植物的线图内插来估计50%植物的值。计算每个事件相对于空白对照的小时数或GDU差异。E-所有值是针对所有四个事件。空白和每个事件的以小时和GDU计的开花到吐丝(ASI)间隔显示在右侧。

植物和穗高:分别在第74天和第75天(此时所有植物均开花)测量每株植物从地面到第一雄穗分枝或穗节的株高和穗高。所有4个事件的平均第一雄穗分枝高度比对照高4.1、3、5、7、9、11、13、15、17、19、21、23、和25.1cm,相对顺序为E4>E2>E2>E3>空白,其中所有四个事件平均高出8.0em(3.2%,t检验p<1x10-4)。4个事件中有3个的平均穗节高度高于对照,范围为-1.3至+7.5em,相对顺序为E4>E2>E1>空白>E3,并且所有四个事件平均高出2.8cm(2.1%,t检验p=0.0272)。但是,第一雄穗分枝高度与穗节高度的比率相似,对照为1.94,事件范围为1.92-1.99,平均为1.96,表明株高相对于穗高几乎无变化。然而,对于该比率,事件顺序E3>E1>E2>空白>E4与株高或穗高的事件顺序相反,表明在最高事件中穗节高度相对雄穗高度可能轻微升高。

实例4

穗粒形态

通过直接种子体积和重量测量组合,对用于种植第1年产量试验的相同F1杂交种子来源的种子大小和密度进行评价。在对照和四个转基因ZM-BG1H1 OE转基因事件品系之间比较种子体积、重量和密度(图7)。在三次重复中测量的所有四个事件中,籽粒体积平均比对照低2.5%,且平均籽粒重量低1.5%,籽粒密度低1.4%(图7)。然而,对于这些度量中的每一个,零假设(无差异)在α0.05时不被拒绝。与稻中Os BG1的观察结果相反,四个ZM-BG1H1过表达事件均未显示相对于对照增加的种子大小。这也表明,ZM-BG1H1 OE事件杂交产量试验在种植比对照种子更大的种子时没有受益。

观察地块穗粒数据分析如图4所示。在所有四个事件中,每穗总籽粒数增加6.0%,总籽粒体积增加3.6%,且总籽粒重量增加2.0%。因为每株植物只有一个穗,所以籽粒重量的这种增加反映了每株植物的产量增加。与此相关的是穗长度增加2.6%,穗填充长度增加2.3%,和穗直径增加2.4%。然而,每穗上的每籽粒重量平均减少4.2%,每籽粒体积也减少2.4%,导致每籽粒密度轻微下降1.4%(图4)。四个事件中每一个的ZM-BG1H1 OE植物穗显示出增加的平均籽粒行数(KRN),总体而言在所有事件中为17.86KRN(ZM-BG1H1),而在对照中为17.31KRN,增加半行或3.1%,t检验p值为0.02。在所有四个事件中都观察到这种向上的KRN移动,并且差异在16和18KRN之间最显著(图5)。具有最大KRN增加的事件E3也具有最大的田间产量增加。因此,考虑到ZM-BG1H1 OE产量平均增加2.4%可能主要是由半籽粒行增加3.1%驱动的,并且平均ZM-BG1H1 OE籽粒体积的减少可能与对其具有成比例增加数量的较高KRN穗的空间约束有关,再次比较穗粒性状,但对每个离散的KRN值进行归一化(图8)。结果显示,当将相同KRN或所有KRN的穗一起比较时,图4中观察到的所有观察到的穗或籽粒性状的增加或减少模式以大致相同的模式和幅度持续,无统计学上显著的百分比差异(t检验P值>0.1)。然而,对KRN的控制确实在名义上减少了穗直径和总籽粒数的差异,如可以预期的,因为这两个性状应该随着KRN而增加。对于ZM-BG1H1 OE和对照两者,穗直径确实随着KRN而增加,然而在该样品中在每个KRN值时,空白落后于ZM-BG1H1 OE(图9)。

实例5

天然ZM-BG1H1同源物之间的启动子分析

OS-BG1和BG1同源物启动子具有生长素反应相关基序。对于5个物种中的每个BG1同源物:来自高粱、短柄草属和狗尾草属的ZM-BG1H1、OS-BG1和BG1同源物,从头搜索在近端启动子(ATG上游的前1000个nt)中发现的保守基序。在ATG-TATA之间和它们共享的TATA框上游的区域中搜索保守基序以控制影响保守基序相对偏移位置的5-UTR长度变化。在所有紧邻可用5′UTR上游的基因中都存在明确定义的TATA框上下文CTATATCTT。在额外的5’UTR序列保守性中,5’-UTR中也有保守基序GCATTG。鉴定了TATA框上游的五个其他基序:CGCCAC、CCCGT、CACCC、GAAAT、和GGACG。所有这七个元件总体上是按相对顺序保守的,并且它们在距ZM-BG1H1-A1的TATA框的360个nt内。存在其他保守基序,但一些具有多个拷贝和/或相对于这7个保守元件处于不同的位置,降低了对它们相关性的信心。除了TATA框,6个其他基序的功能是未知的。然而,这些基序中的5个与富集的LDSS七聚体重叠,2个与PLACE数据库中的调节元件有匹配。然而,已知这些都不与生长素相关。此外,5个生长素反应基序不在这7个保守基序当中或不与其中任一个重叠:ACTTTA、TGACG、CATATG仅在一些启动子中发现;在多个位置发现TGTGNN和NNGACA,表明非特异性;根本未发现CACGCAAT和KGTCCCAT。

表5:该表显示了所有五个物种和五个玉蜀黍等位基因的共享基序,以及它们在ZM-BG1H2(3)和ZM-BG1H1等位基因A1-A5中的存在(Y,是)

亚细胞定位:对ZM-BG1H1蛋白的亚细胞定位进行研究以解决以下两个问题:(1)ZM-BG1H1蛋白是否如OS-BG1报道的那样定位于质膜(PM);和(2)ZM-BG1H1蛋白是否通过ZM-GOS2 PRO异位表达定位于PM。玉蜀黍原生质体用两种颜色标记转染,RFP用于照射细胞核并使表达水平归一化,GFP与ZM-BG1H1蛋白融合或不融合,以探测ZM-BG1H1细胞位置。控制GFP的广泛细胞定位,并且当RFP被NLS(核定位信号)核靶向时对核进行划分。用各种启动子::GFP报告基因融合物转染的原生质体的显微图像如图底部标记。大多数原生质体直径范围为20-30微米。绿色来自GFP报告基因,红色来自RFP报告基因。GFP优先位于原生质体质膜。GFP与ZM-BG1H1的N末端融合,并通过ZM-GOS2 PRO异位表达。结果表明,GFP主要定位于与PM一致的细胞表面。进行相关实验,只是融合的是ZM-BG1H1编码区,而不是GFP的N末端。结果相似,表明ZM-BG1H1蛋白本身能够将GFP蛋白导向PM,而不管其N末端或C末端是否被融合的GFP蛋白占据。天然ZM-BG1H1 PRO具有非常低的表达,并且在该原生质体实验中,它也以低水平表达,至少低一个数量级,这需要更长时间的暴露以揭示非靶向GFP表达的扩散定位。驱动GFP::ZM-BG1H1融合表达的天然ZM-BG1H1启动子产生的表达太低以至于不能清楚地看到任何PM定位。

实例6

ZM-BG1H1等位基因变异

使用少量完整的高质量公共和专有基因组草图的组合在育种种质中研究了ZM-BG1H1基因座的结构性等位基因多样性,并且研究了582个自交系的一些较低质量基因组和转录组组装,47%SS和53%NSS分布。等位基因序列比较限于1000bp启动子/5UTR/ORF/3UTR的核心基因区域,因为基因周围较大的区域可能包括更多的重组事件,这些重组事件因此可以细分为更多的单倍型,但是不太可能代表功能上不同的ZM-BG1H1基因等位基因。对于同源物ZM-BG1H1,观察到至少5个主要序列变体,可能总共有8-13个次要序列变体。前五个变体称为等位基因,由高质量基因区域序列表示。其他更具推测性的序列变体基于较低质量的共有序列,并且在任一个自交系中没有完全测序,因此在此不详细阐述。所给出的这五个等位基因序列占所研究种质系的93%。等位基因A1和A2几乎仅在SS(硬茎,通常在杂交生产中为雌性)中发现,并且共同占所研究种质的约44%。等位基因A3、A4和A5占所研究基因组的49%,并且几乎完全是NSS(非硬茎,在杂交生产中通常是雄性)(表6)。其他推测的较低质量变体占其余部分。在该基因座没有任何存在-不存在变异(PAV)的迹象。对416个种质系的单独早期分析(与582个品系研究集共享63%)也没有发现任何PAV。

表6.ZM-BG1H1基因座处的玉蜀黍等位基因多样性和杂种优势群关系

五个最常见玉蜀黍等位基因ZM-BG1H1变体中的每一个与稻BG1或高粱BG1同源物的全局氨基酸同一性(AAID)(通过ClustalW算法比对确定)。具有五个玉蜀黍等位基因中的每一个的参考近交名称,以及用每个等位基因单倍型评估的所有品系的百分比,以及被认为是硬茎或非硬茎的那些品系的百分比。

所给出的五个等位基因包括完整的可读框,没有过早截短或明显有缺陷的不完整蛋白质。CDS中的核苷酸同一性范围为94.8%-99.3%。所编码的蛋白都是不同的,它们之间的AAID范围为95.4%-99.4%,并且与OS-BG1具有(65.1%-66.9%AAID)且与高粱SB-BG1(XP_021314015.1)具有(77.5%-80.3%AAID)(表6)。等位基因之间存在7个肽区域差异。与高粱SB-BG1相比,在7个位置中的3个,ZM-BG1H1A2(3)中损失“MQSHQDL”中组氨酸,和ZM-BG1H1A1中损失“APAP”和“YGHG”,这些变异似乎是玉蜀黍谱系特异性的。CDS比较指示另外的同义密码子变异,并且ZM-BG1H1A1的“APAP”变异可能是SSR。将7个变体肽区域中的每一个与禾本科(Poaceae)BG1同源物代表进行比较。所有7个位置在种间交叉禾本科BG1肽中也是区域可变的,表明这些变体不可能破坏关键的保守蛋白功能。五个玉蜀黍等位基因的七个区域之间的变异模式表明多个基因内/等位基因间重组事件的历史。五个ZM-BG1H1等位基因也在近端1000nt启动子加5′UTR区域中进行比较。5′UTR和启动子区域都显示出许多变异,包括插入缺失和点突变。然而,所有五个等位基因都具有多物种保守的TATA框,并且在以上发现的在来自多个物种的BG1同源物中共享的6个其他基序中,所有也在所有这五个等位基因中都是保守的,表明这些变异不可能破坏评估中观察到的保守启动子功能。

等位基因功能差异可表现为基因表达差异。研究一组416个自交系在早上10-12AM之间收获的V6叶组织表达。标记和谱系分析能够推断可能的IBD单倍型。每个IBD单倍型中的关键品系通常可以与此处给出的五个等位基因的等位基因IIS序列匹配,但是通过遗传单倍型推断的一个这样的身份通常包含A1和A2等位基因,表明单独的侧翼遗传标记可能不能准确区分这两个等位基因。对所有等位基因的叶表达进行检测,但如上所述,叶的日间表达低,在此范围为21.0至25.5pptm,但在单倍型之间几乎没有观察到变化(图6)。使用田间生长的样品对含有ZM-BG1H1-A3等位基因的自交系PH184C和本实验中用于转基因转化的同一品系进行RNA图谱分析。在V10、VT/R1和R4阶段,以及在干旱和充分浇水的条件,对植物的11个组织进行取样。每个组织的平均表达如图S11所示。该实验没有直接比较其他品系或单倍型,但是它揭示ZM-BG1H1-A3(NSS,PH184C)等位基因在所有组织中表达,并且其组织-空间模式与对ZM-BG1H1-A1(SS,B73)进行的更广泛的组织研究一致;例如幼穗表达相对较高,但在叶中表达较低。

评估ZM-BG1Hl和ZM-BG1H2(3)基因座是否与各种遗传表型区间(QTL、GWAS、育种值等)相关。搜索了超过3000个玉蜀黍公开和内部遗传区间,涉及分类为产量、籽粒、发育、结构、根、能育性和开花类别中的性状。一组涉及1860个公开和策划区域,另一组涉及1180多个内部计算的QTL和GWAS关联。与ZM-BG1H1或ZM-BG1H2(3)基因座相关的区域非常少。ZM-BG1H1和ZM-BG1H2(3)的产量株高和成熟区域偶尔重叠,然而总体上,在任一基因座上没有任何性状的区域集中,而在这两个基因座上存在明显的相对缺陷。鉴于所涉及的异质汇总信息,难以确定该结论的统计意义。

实例7

通过启动子工程化调节ZmBG1和同源物的内源基因表达的基因组编辑

进行ZM-BG1H1基因编辑设计,其中ZM-GOS2启动子位于天然ZM-BG1H1基因座。对天然ZM-BG1H1基因座进行编辑以含有ZM-GOS2启动子和内含子。在该实施例中,ZM-BG1H1启动子保留但已通过插入ZM-GOS2 PRO而被置换,以占据驱动ZM-BG1H1转录物和肽表达的近端功能启动子。

在另一个实施例中,用玉蜀黍GOS2调节序列交换染色体一号中的内部BG1启动子序列。获得编辑呈阳性的T1植物并进一步评估。

实例8

具有表达调节元件的基因组编辑设计

本实例证明通过使用靶向基因组修饰系统对内源玉蜀黍BG1基因组基因座进行编辑。在基因编辑实验中使用示例性CRISPR指导RNA并获得具有阳性分子特征的T0植物。ZM-GW3-1-CR1是样品指导多核苷酸,并且(单个)指导的序列如SEQ ID NO:62所示。将表达调节元件(例如)ZM-AS2(2X)EME插入ZM-BG1H1基因组基因座的-20和-46。通过同源重组(在CRISPR-Cas切割之后)整合EME寡核苷酸以产生基于同源性的修复,该修复将期望的EME的两个拷贝放置在此处的位置-20和-46。将优良玉蜀黍自交背景用于基因组编辑实验。

在一个实施例中,预期2x ZM-AS2 EME元件的基因编辑设计插入在TATA框的-20和-46处。在一个实施例中,预期2x ZM-AS2 EME元件的基因编辑设计插入在ZM-BG1H1基因座的TATA框的-46和-72处。

对ZM-BG1H1启动子进行修饰以包括1、2或3个拷贝的EME(表达调节元件)(插入表达调节元件(EME),如PCT/US 2018/025446中描述的EME,与BG1基因可操作地连接,其通过引用并入本文),已显示当置于近端启动子中时增加各种基因的净转录表达。使用相对于TATA框-20、-46和-72nt的三个独立位置。用这些构建体转染来自自交系PH1V69(SS,ZM-BG1H1-A2)的原生质体,并对报告基因表达进行定量分析。相对于天然ZM-BG1H1启动子,EME位于各种单个或多个位置组合中均增加了表达,平均范围为32-104倍。用(-20和-46)的2XEME观察到最高表达,因此将该“2X EME”构建体用于其他实验如亚细胞定位研究。注意到,大多数含EME的构建体的表达水平比田间产量研究中使用的ZM-GOS2 PRO的表达高出多达3倍,并且一些构建体也高于玉蜀黍泛素启动子对照(图10)。

开发了工程化启动子基序的基因编辑设计图。对ZM-BG1H1启动子区域设计基因编辑实验以放置两个“EME”(表达调节元件)基序,相对于TATA框,一个在-20nt,另一个在-46nt。制备具有PAM位置和核酸酶切割位点加上较长的侧翼寡核苷酸以促进HDR(同源依赖性重组)的CRISPR-Cas9寡核苷酸。

除非另有指定,否则权利要求书和说明书中使用的术语如下文阐述定义。必须注意,除非上下文另外清楚地指明,否则如本说明书及所附权利要求书中所用,单数形式“一个/一种(a/an)”和“该/所述(the)”包括复数指示物。

本说明书中的所有出版物和专利申请都指示了本发明所属领域的普通技术人员的水平。将所有出版物和专利申请通过引用并入本文,其程度就像明确且单独指出通过引用每个单独出版物或专利申请一样。

除非另外定义,否则本文所用的全部技术术语和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同意义。除非另外提及,否则本文采用或考虑的技术是本领域普通技术人员熟知的标准方法。材料、方法和实例仅为说明性的并且不是限制性的。

借助前面的描述和随附的附图中给出的教导,本发明所属领域的技术人员将会想到本文阐述的发明的许多修改形式和其他实施例。因此,应当理解,本发明不限于所公开的特定实施例,并且修改形式和其他实施例旨在包括在所附权利要求书的范围内。尽管本文中采用了特定术语,但这些术语仅在一般性和描述性意义上使用而并非用于限制目的。

单位、前缀和符号可以按它们SI接受的形式来表示。除非另外指明,否则核酸从左向右以5′至3′方向书写;氨基酸序列都从左向右以氨基到羧基方向书写。数值范围包括限定范围的数值在内。本文氨基酸可以通过它们普遍已知的三字母符号或通过IUPAC-IUB生物化学术语委员会推荐的单字母符号来表示。同样,核苷酸可以通过它们普遍接受的单个字母代码来表示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号