首页> 中文学位 >基于GenBank和RefGene数据集的人类成熟mRNA的5'UTR翻译调控序列研究
【6h】

基于GenBank和RefGene数据集的人类成熟mRNA的5'UTR翻译调控序列研究

代理获取

目录

摘要

第1章 引言

1.1 真核生物成熟mRNA的形成与结构

1.1.1 真核生物的转录过程

1.1.2 真核生物的mRNA序列特征及翻译

1.2 mRNA的5’UTR对翻译的调控

第2章 实验材料

2.1 实验仪器及分析软件

2.2 使用的数据集及其细节

2.2.1 公共数据集RefGene

2.2.2 人类RNA的Genbank格式数据hmnan.rna.gbff.gz

2.2.3 人类疾病相关变异数据集Clin Var

2.2.4 肿瘤相关变异数据集1:TCGA

2.2.5 肿瘤相关变异数据集2:COSMIC

2.2.6 基因本体Gene ontology数据集1

2.2.7 数据集Full ontology

第3章 实验方法与结果

3.1 技术路线图

3.2 数据处理与分析

3.2.1 文件human.rna.gbff的数据过滤

3.2.2 利用RefGene数据集将36591个mRNA在基因组上进行hg19坐标定位

3.2.3 过滤并保留唯一的5’UTR

3.2.4 含有uORF的基因定位以及它们的基本统计量

3.2.5 GO功能富集分析

3.2.6 寻找motif及Kozak信号强度分析

3.2.7 疾病数据库与uORF的关联

3.2.8 实验验证

第4章 分析与讨论

参考文献

致谢

声明

展开▼

摘要

背景与目的: 根据中心法则,转录是以基因组上的DNA序列为模板,合成为RNA序列的过程。其中产生的信使RNA(messenger RNA,mRNA)携带遗传信息,翻译出相应的蛋白质,作为生命活动的承担者。 与原核生物不同的是,真核生物的转录过程,经历了以下步骤:1.以基因组DNA为模板复制出一段mRNA前体,即pre-mRNA。2.在pre-mRNA的5'端加上经过甲基化修饰的鸟嘌呤(5' capping)。5'端帽结构对mRNA的翻译起始具有重要的作用,它参与核糖体复合物(ribosome)对mRNA的识别,介导核糖体复合物与mRNA的结合,使核糖体复合物浏览mRNA序列并选择识别AUG起始密码子而开始相应肽链的合成,这个过程被称为“依赖于帽结构的翻译起始”(cap-dependent translation initiation)。另外,5'帽结构亦增强了mRNA的稳定性,避免新合成的mRNA因核酸外切酶所降解。3.mRNA剪接(mRNA splicing),即pre-mRNA去除内含子保留外显子的过程。同一段pre-mRNA可具有不同的剪接方式,从而最后呈现为序列各异的成熟mRNA,即选择性剪接。4.多聚腺苷酸化(polyadenylation),即通过polyA聚合酶,在pre-mRNA的3'端加上一段腺苷酸(数目各异,通常为几百个),即polyA序列。这段序列会被多聚腺苷酸结合蛋白结合并产生保护作用。 从序列特征而言,一个典型的编码蛋白的人类成熟mRNA可以分成以下几个部分(从5'端到3'端):5'端帽结构;5'端非翻译区序列,即5'UTR(5' untranslated region);编码蛋白质的序列(CDS,coding sequence,以起始密码子开头,以终止密码子结束),也叫开放阅读框(ORF,open reading frame);3'端非翻译区序列,即3'UTR(3' untranslated region);以及PolyA尾。 成熟mRNA的5'UTR序列,包含着调控元件,影响着下游主要开放阅读框的翻译。不同的mRNA其5'UTR序列长度各异,从几十到数千个碱基不等。 5'UTR序列含有多种影响下游主要开放阅读框翻译的调控元件,包括uAUG(upstream AUG), uORF(upstream open reading frame), IRES(internalribosome entry site)以及hairpin结构。一条mRNA链翻译的开始,是核糖体40S亚基首先识别mRNA的5'帽结构并结合在mRNA分子上,然后从5'端至3'端方向浏览mRNA,寻找合适的AUG起始密码子并开始翻译[7]。于是,在真正的翻译起始密码子与5'帽结构之间,还可能会存在AUG,我们将这些AUG称为uAUG,当uAUG与其后的序列形成一个开放阅读框(AUG开头,终止密码子结尾,并且总的碱基数为3的倍数)时,则称这个开放阅读框为uORF,它是相对于下游主要开放阅读框(main open reading frame)而言的[8]。 过去对包括人类的哺乳动物的成熟mRNA的5'UTR研究发现,5'UTR中存在uAUG和uORF并非罕见的现象,存在uAUG或uORF的5'UTR占已研究对象总数的12%~50%[13]。其中uORF的存在对下游主要开放阅读框的翻译效率起着重要调控作用,它主要是通过引发mRNA的降解(mRNA decay)或调节翻译来控制基因的表达水平。有研究表明,当一个mRNA存在uORF调控的机制时,那么uORF结构的破坏,会导致许多人类疾病的发生,包括肿瘤,代谢或神经系统疾病等[10]。如HR和TPO基因,这两个基因的转录本5'UTR上均含有uORF结构,但当它们的结构被破坏(前者是uORF的起始密码子突变,后者是uORF序列产生了一个新的终止密码子),分别导致了MUHH遗传性稀发症和血小板增多[4]。 与之相对的,当一个基因的5'UTR序列在野生型状态下没有uORF结构但是突变产生了uORF序列,同样会显著影响下游主要开放阅读框的生理性表达,而导致疾病。截至2013年,共报道14例这样的突变,其中包括HBB,POMC等基因,由于它们突变后产生了新的uORF,而分别导致了β地中海贫血(β-thalassemia)和阿黑皮素原缺陷症(Proopiomelanocortin deficiency)[4]。 在现有的数据库中,人类基因组有多少含有uORF的基因?含有uORF的基因是否富集于某个功能亚类中?uORF的起始密码子两侧序列文本是否与真正的翻译起始密码子序列文本有明显的差异?最后,目前主流的疾病和肿瘤数据库中,所报道的基因组的variation,还有哪些是和uORF的产生或消失相关?并且实验验证,这些突变是否确实通过该调控机制而影响主要开放阅读框的翻译,最后导致疾病的发生。本课题将对以上问题进行探讨。 材料与方法: 本研究主要分为三个板块:公共数据集的获取,数据挖掘和统计分析,实验验证 公共数据集的获取: 该研究主要涉及的数据集枚举如下: 1.RefGene数据集, 网址:http://hgdownbad.cse.ucsc.edu/goldenp ath/hg19/database/ 2.人类RNA的Genbank格式数据human.rna.gbff.gz 网址:ftp://ftp.ncbi.nlm.nih.go v/refseq/H_sap ie ns/mRNA_Prot/ 3.人类疾病相关变异数据集ClinVar 网址:ftpq/ftp.ncbi.nln.nih.gov/pub/clinvar/ 4.肿瘤相关变异数据集1:TCGA 网址:https://tcga-data.nci.nih.gov/tcga/tcgaDownload.jsp 5.肿瘤相关变异数据集2:COSMIC 网址:http://cancer.sanger.ac.uk/cancergenome/projects/cosmic/download 6.Gene ontology数据集 7.Animal transcription factor数据集 数据的第一步过滤:以上数据集下载完成后,进行数据过滤,方法是提取出含有完成的NM accession number并且有完整的CDS信息的记录,因为赋予NM开头的记录都是编码蛋白的mRNA链,文件human.rna.gbff.gz里面的记录均为Genbank格式,也就是说,每条mRNA链含有完整的序列信息,序列信息加上CDS的起点和终点记录,我们就可以得到每一个mRNA的5'UTR序列的起点和终点及其序列细节。数据过滤及后续基本统计分析所使用的程序均用perl语言编写,使用的Perl版本号为perl5.16.3 5'UTR序列在hg19上的位置注释:然后将生成的过滤文件与Re fGe ne数据集相联系。RefGene数据集中记录的是每一个基因,以及被实验验证过的转录本在hg19中的坐标位置,这些位置包括转录起始位点的坐标,翻译起始位点的坐标,该转录本每一个外显子的起点和终点坐标。将这些信息附加于过滤文件的目的,是为方便后续对所有基因的5'UTR区域疾病或肿瘤突变进行位置上的统一注释。 数据的第二步过滤:由于一个基因可能存在若干个转录本,而这些转录本之间的差异部分是由于其中的外显子使用差异引起的,它们之间可能具有相同的5'UTR序列,所以,为了避免后续对uORF比例统计的计数冗余,我们将这部分具有相同hg19起点和终点坐标的5'UTR去除冗余,最后得到26902条位置唯一的5'UTR序列。以这26902条5'UTR为基础数据集进行后续uAUG和uORF的定位和分析。 利用上述过滤方法产生的26902条5'UTR序列,分别统计出含有uAUG和uORF的5'UTR序列的个数,统计如下信息:每个5'UTR的uORF的个数分布;uORF的起始密码子距离转录起始位点的距离分布;uORF的终止密码子距离翻译起始位点的距离分布;uORF本身的长度分布; 下载的gene ontology文件,有每个基因所对应的GO关键词,GO关键词可归为3类:生物过程(biological process),分子功能(molecular function),以及细胞组件(cellular component)。因此每个基因所对应的GO关键词可能有多个,通过对含有uORF的基因做GO关键词的注释,判断其基因集是否在某个功能子集中富集。在功能富集的探索中,同时使用了在线基因功能聚类软件DAVID:http://david.abcc.nci fcrf.gov/ ClinVar,TCGA,COSMIC三个疾病数据库的整合:上述三个数据库的原始数据均可下载,其分析的疾病或肿瘤样本突变数据,均以GRCh37/hg19坐标进行注释。因此,将这些数据进行筛查与归类,将出现在26902个5'UTR序列内,且导致uORF的产生或消失的突变进行收集,以期发现未知的突变新靶点,这些靶点通过影响uORF的翻译调控而引起或与其他因素共同引起疾病的发生。 根据Kozak法则,评价主要开放阅读框的起始密码子文本状态和uORF的起始密码子文本状态:Kozak法则,是指在真核生物mRNA中,选择称为翻译起始位点的AUG,它周围的几个碱基一般具有较保守的文本,称为kozak一致性序列(Kozak consensus sequence)[1],其中最优的称为翻译起始位点的文本为GCC[A/G]CCaugG[not U],一般的强文本为[A/G]NNaugG[not U]其中-3位为碱基A时比碱基G具有更强的翻译起始信号。除以上的几种序列模式以外,其他序列模式均被认为是一种弱的翻译起始信号。由此,我们就可以横向比较每一条含有uORF的5'UTR中,它们uORF的AUG文本和真正的翻译起始位点的AUG文本的强弱。同时,取出翻译起始密码子两侧15bp序列统计各个碱基的出现频率,以从另一方面验证Kozak序列。最后,利用在线Motif discovery软件,预测uORF的起始密码子两侧,以及真正翻译起始密码子两侧是否存在共同的motif 预测存在uORF调控机制的阳性位点,然后进行实验验证,所采用的方法是,将靶基因的5'UTR序列插入到pGL3载体,构建野生型和突变型载体,突变型载体是指5'UTR中的uORF的起始密码子ATG突变为ACG,即对uORF一级序列的破坏。然后比较野生型和突变型载体荧光素酶报告基因的表达活性。同时通过qPCR比较野生型和突变型载体的mRNA水平。 结果与讨论: 经过过滤以后的26902个5'UTR序列,经过统计分析,含有uAUG的序列共有15815个,含有uORF的5'UTR序列个数为13618(由于一个基因存在多个转录本,所以这13618个5'UTR序列对应的是9066个非冗余的基因),占总数的50.62%。在正文中对每个含有uORF的基因它们的uORF个数分布和距离TIS,TSS的分布做详细的描述。对于Gene-onto logy的处理,下载的full ontology文件OBOv1.2共有40620个terms,文件gene_association.goa_human中共提取出18986个唯一基因,平均每个基因对应21.3个GO关键词。 利用Full ontology file中对每个term的从属关系的描述,计算每个term的节点深度,定义三个根节点分子功能(molecular function),生物过程(biologicalprocess),细胞组分(cell

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号