首页> 中文学位 >基于整合组学策略的人类基因组功能元件的识别与注释
【6h】

基于整合组学策略的人类基因组功能元件的识别与注释

代理获取

目录

声明

缩略词表

摘要

第一章 前言

1.1 论文研究背景

1.1.1 研究意义

1.1.2 国内外研究现状

1.1.3 课题的独创性

1.2 技术路线

1.3 论文组织结构

第二章 CTCF的识别与注释

2.1 研究背景

2.2 全基因组识别CTCF结合位点

2.2.1 CTCF结合位点的分类

2.2.2 CTCF结合位点的饱和性分析

2.2.3 CTCF结合位点与基因密度

2.2.4 CTCF结合位点的位置分布

2.2.5 CTCF结合位点呈簇出现

2.3 CTCF结合位点的进化和功能

2.3.1 CTCF结合位点的保守性分析

2.3.2 CTCF结合位点GC含量分析

2.3.3 CTCF结合位点与基因表达的相关性

2.3.4 CTCF结合位点的GO功能富集分析

2.3.5 CTCF结合位点模体分析

2.4 CTCF结合位点的染色质特征

2.4.1 CTCF结合位点周围核小体信号

2.4.2 CTCF结合位点周围的染色质开放区

2.4.3 CTCF结合位点周围的组蛋白修饰情况

2.4.4 CTCF结合位点DNA甲基化水平

2.4.5 共定位分析

2.5 CTCF分割染色质域的功能

2.5.1 识别染色质域

2.5.2 CTCF在染色质边界富集

2.5.3 边界CTCF是细胞系特异的

2.5.4 染色质域在CTCF环中间

2.6 CTCF在DNA复制中行使功能

2.6.1 识别复制时间域

2.6.2 CTCF在复制域中富集情况

2.6.3 CTCF与复制时间的相关性

2.6.4 复制域中的CTCF结合位点具有细胞特异性

2.7 总结与讨论

2.7.1 CTCF结合位点独特的分布在人类基因组上

2.7.2 CTCF是一个多能的转录调控因子

2.7.3 染色质特性决定了基因的细胞特异性表达

2.7.4 CTCF构建染色质结构

2.7.5 CTCF参与DNA复制过程

第三章 DHSs的识别与注释

3.1 研究背景

3.2 DHSs的全基因组性质

3.2.1 DHSs的分类

3.2.2 DHSs的基因组覆盖率

3.2.3 DHSs的基因组定位分析

3.2.4 DHSs与基因密度、TFBS数量的关联

3.3 DHSs与组蛋白修饰的全基因组关联分析

3.3.1 DHSs周围组蛋白修饰情况

3.3.2 DHSs与组蛋白修饰的相关性

3.4 DHSs与基因表达的全基因组关联分析

3.4.1 DHSs靠近TSS区

3.4.2 DHSs与基因表达

3.5 染色质域的四种不同模式

3.5.1 DHSs与组蛋白修饰和基因表达均相关

3.5.2 染色质结构的四种不同功能

3.6 基于测序数据整合的TFBS识别

3.7 总结与讨论

3.7.1 DHSs的全基因组性质

3.7.2 DHSs、组蛋白修饰、基因表达之间的相关性

3.7.3 通过数据整合方法来识别功能元件

第四章 模式序列识别算法

4.1 研究背景

4.1.1 什么是模式序列?

4.1.2 模式序列识别主流算法

4.2 iFORM方法

4.2.1 iFORM算法流程

4.2.2 Pvalue合并方法

4.2.3 算法的运行环境

4.3 算法评估

4.3.1 能找到新的可靠结合位点

4.3.2 ROC曲线比较

4.4 总结与讨论

第五章 聚集区间的整合分析

5.1 研究背景

5.2 聚集区间的识别

5.2.1是否存在聚集区间?

5.2.2 如何识别聚集区间?

5.2.3 人类基因组上有多少聚集区间?

5.3 聚集区间的基本特征

5.3.1 聚集区间的分类

5.3.2 不同类别聚集区间差异显著

5.4 聚集区间的表观特征

5.4.1 聚集区间的转录因子特性

5.4.2 RNA聚合酶Ⅱ在聚集区间的性质

5.4.3 聚集区间的组蛋白结合特性

5.4.4 聚集区间的甲基化特性

5.4.5 聚集区间附近的染色质结构

5.5 聚集区间应用实例

5.5.1 聚集区间展现谱系进化规律

5.5.2 聚类稳健性分析

5.5.3 聚类敏感性分析

5.5.4 谱系间进化保守性

5.6 总结与讨论

第六章 转录因子调控网络

6.1 识别转录因子结合位点

6.1.1 TFBS全基因组分布情况

6.1.2 TFBS保守性分析

6.1.3 TFBS与染色质状态

6.2 网络构建方法

6.3 网络结构分析

6.3.1 网络结构模式

6.3.2 网络结构与进化

6.3.3 谱系特异的网络结构模式实例

6.4 总结与讨论

第七章 全文总结与展望

7.1 全文总结

7.2 研究课题展望

参考文献

综述 转录因子结合位点的识别与注释

代表性论著

个人简历

致谢

展开▼

摘要

随着2003年人类基因组计划的完成,我们获得了人类基因组序列这本天书,但依然有许多问题没有解决。一个重要的科学问题困扰着大家:机体中复杂的调控网络是如何编码在一维的基因组上的?识别基因组上所有的功能元件是理解转录调控背后的分子机制的必要前提,因而解决这个问题的关键是精确识别与注释人类基因组上的重要功能元件。然而传统的实验手段如识别特殊的转录因子结合位置(ChIP,染色质免疫沉淀)在大量功能元件的识别与注释上有诸多限制,如仅适用于与已知的反式作用因子、依赖于分离相应转录因子的高质量ChIP级的抗体、价格昂贵等。
  近几年国际上开展的大型科学计划,包括ENCODE计划、modENCODE计划、表观路线图计划等,提供了近700T功能元件识别与注释相关的各组学公共数据;加上新一代测序的蓬勃发展,结合生物信息学分析技术的进步,为全面解析人类基因组中的功能元件提供了可能。基于这些大数据资源,作者展开了人类基因组功能元件的识别和注释研究。
  首先,研究从单个有代表性的功能元件入手。染色质上的隔离子是调控基因表达水平的DNA功能元件,他有两种方式来行使功能:一种是通过维持异染色质边界来阻止基因沉默,另一种是阻止增强子和启动子的作用关系来阻止基因转录的激活。CCCTC结合因子(CTCF)是一个广泛表达的11-锌指DNA结合蛋白,是脊椎动物中唯一的一个与隔离子相关的蛋白。虽然CTCF与众多调控功能相关,但他只在人类基因组少量细胞系中被研究,因此,并不确定所识别的细胞特异性差异的CTCF结合位点是否在功能上有显著差异。我们识别了ENCODE计划产生的人类基因组38个细胞系的CTCF结合位点,并将他们分为细胞特异的结合位点和普遍存在的结合位点。这些细胞特异的和普遍存在的CTCF结合位点展示了独特的多样转录功能和独具特色的染色质特征。另外,我们确认了CTCF行使着隔离子的功能,并且首次发现CTCF参与DNA的复制过程。这些结果表明我们对CTCF全面系统的理解迈出了重要的一步。
  接下来,从整体上研究基因组上的开放区域DHSs。DHSs是基因组上功能元件的候选区域,全基因组DHSs图谱为转录调控区域的研究提供了重要线索。我们系统识别和注释了人类基因组29个不同细胞系中的DHSs,试图找到DHSs与组蛋白修饰、基因表达之间的关系。通过研究,我们发现了不同细胞系中DHSs、基因表达、活性和抑制组蛋白修饰数量之间的特殊关联。这些关联揭示了染色质域四个截然不同的结构状态:抑制态(repressive)、活性态(active)、原始态(primed)、二价态(bivalent),不同的状态对应不一样的功能。更进一步,通过这些数据的整合分析,我们找到了CCCTC-结合因子CTCF。我们的研究结果揭示了包括DNA酶Ⅰ超敏位点和组蛋白修饰的复杂调控过程,并且表明这些动态元素可能负责维持染色体的结构和染色体的完整性。同时,在该研究中,我们基于不同技术平台的多组学大数据,运用整合组学方法,提出了对转录调控机理更有意义的见解,这是是多平台多组学大数据整合的一个值得参考的实例。
  第三,扩展到大量功能元件的识别。要准确识别大量功能元件、获取众多转录因子结合位点信息十分困难,传统的实验手段几乎不可能完成所有转录因子结合位点的定位。幸运的是,转录因子在基因组上的结合位点具有一定的特异性,可以根据这一特异性来识别转录因子结合位点。TRANSFAC、JASPAR、TRRD、TRED、PAZAR等转录因子数据库提供了大量转录因子的模体信息,基于这些资源,作者开发了一套模式序列识别算法iFORM,在基因组上的开放区域(DHSs)识别转录因子结合位点。与国际上主流的模式序列算法FIMO、CONSENSUS、HOMER、RSAT、STORM相比,iFORM不但能识别其他算法找到的可靠区间,也能识别其他算法无法找到的可靠区间,并且从ROC曲线中也能看出,iFORM明显优于其他算法。iFORM算法为全面解析人类基因组上的功能元件奠定了坚实的基础。
  第四,多细胞系大量功能元件的整合分析。DNA酶Ⅰ超敏感位点定义了基因组中可访问的染色质全景图,使得多物种基因组中顺式调控元件的识别有了革命性的进展。我们基于iFORM方法识别的人类基因组133个细胞系和组织的转录因子结合位点,运用高斯核函数方法,首次得到了人类基因组上转录因子结合位点聚集区间(TFBS-clustered regions,简称聚集区间)全面图谱。我们总共找到了近160万个聚集区间,涵盖了基因组上27.7%的碱基,并且依据每个聚集区间中转录因子结合的数量赋予其转录因子复杂度。转录因子复杂度与聚集区间的基因组位置、细胞特异性、进化保守性、序列特征以及功能作用均显著相关。采用ENCODE数据对聚集区间整合分析发现:转录因子结合、转录活性、组蛋白修饰、DNA甲基化以及染色质结构均随着转录因子复杂度的改变而有规律的变化。更进一步,我们发现,对不同终端细胞系的聚集区间进行聚类,能够重现细胞系的谱系进化规律。基于我们的研究结果,提出了基因组上的不同复杂度的转录调控模型。
  最后是转录因子调控网路研究。转录因子在基因上游调控基因表达,基因表达产物为转录因子,又可以调控基因,这就构成了转录因子调控网络。利用iFORM算法,我们得到了133个细胞系中542种转录因子的结合位点信息,加上GENECODE数据提供了542个转录因子对应的基因的位置信息,作者分别为133个细胞系分别构建了转录调控网络。进一步,对不同细胞系之间网络进行比较发现,不同细胞系的调控网络都保持着一致的网络结构模式。并且找出了各谱系代表性的网络结构实例,其中,POU5F1、SOX2、NANOG构成的FFL回路是胚胎干细胞中所特有的网络结构实例。

著录项

  • 作者

    陈河兵;

  • 作者单位

    解放军军事医学科学院;

    中国人民解放军军事医学科学院;

  • 授予单位 解放军军事医学科学院;中国人民解放军军事医学科学院;
  • 学科 生物化学与分子生物学
  • 授予学位 博士
  • 导师姓名 伯晓晨,郑晓飞,舒文杰;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 人体组织学;
  • 关键词

    人类基因组; 功能元件; 转录调控机理; 数据整合;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号