首页> 中文学位 >蛋白质组质谱数据分析平台的建立及其在大规模数据分析中的应用
【6h】

蛋白质组质谱数据分析平台的建立及其在大规模数据分析中的应用

代理获取

目录

声明

英文缩写词汇表

前言

1 数据库搜索策略分析串联质谱数据

2 论文主要工作

参考文献

第一章 蛋白质组质谱数据鉴定流程的优化及自动化分析平台的建立

1 概述

2 材料和方法

3 结果

4 讨论

参考文献

第二章 染色体蛋白质组项目的质谱数据分析

1 概述

2 材料和方法

3 结果

4讨论

参考文献

第三章 大规模人类肝脏蛋白质组数据的整合分析及鉴定中假阴性问题的探讨

1 概述

2 材料和方法

3 结果

4 讨论

参考文献

第四章 基于人类蛋白质组质谱数据鉴定新可变剪接体和新蛋白质

1 概述

2 材料和方法

3 结果

4讨论

参考文献

全文总结

附录

在读期间发表论文

致谢

个人简历

展开▼

摘要

蛋白质组学是后基因组时代生命科学研究的热点之一,它研究生物体细胞、器官乃至组织的蛋白质表达规律,并阐明其生物学意义。蛋白质组学研究的重要技术之一是生物质谱技术,对着生物质谱技术的发展,促进了大规模蛋白质组研究的开展,实现高通量、高灵敏度和高分辨率的蛋白质组学研究分析平台。
  鸟枪法蛋白质组鉴定是蛋白质组研究最重要的研究策略:通过实验产出串联质谱数据,通过搜索蛋白质序列数据库获得可靠鉴定肽段结果,并进一步通过蛋白质的推导获得鉴定蛋白质结果。由于质谱数据的特性,生物样品多样、实验过程复杂、现有搜索算法和质量控制方法局限,尽管数据库搜索策略可以提高生物质谱数据的解析效率,但仍不能完全解决蛋白质鉴定问题。如何保证鉴定结果的正确性和完整性,是数据库搜索策略的主要问题。
  随着质谱仪不断发展,海量高精度质谱数据不断产出,大规模蛋白质组质谱数据研究的分析方法明显滞后。质谱数据分析的瓶颈,已经不再是实验数据的产出,而是数据的有效分析。因此建立质谱数据分析平台,实现大规模质谱数据分析自动化实现十分必要。
  另一方面,高精度串联质谱(MS/MS)数据所蕴含的肽段信息可为基因组解析注入新的思路,从高精度MS/MS数据出发,利用基因组数据库搜索,可进一步提高质谱数据解析率。蛋白质组基因组学的研究理念是整合串联质谱数据注释基因组蛋白质编码基因。
  本课题致力于基于数据库搜索策略的质谱数据分析流程的改善、平台构建及其在人类肝脏蛋白质组等大规模数据分析中的应用。首先比较谱图、肽段、蛋白质水平质量控制方法的严格性,并开发了针对Mascot搜索引擎的质量控制和蛋白质装配程序ProDistiller;然后探索了常用蛋白质序列数据库的区别及其对对鉴定结果的影响,并依据我们实验室长期的数据分析经验,整合质谱数据分析软件、构建质谱数据分析平台Mass Spectrum Data Processing Pipeline(MSPP)。基于研究发展的质控方法和数据分析平台,我们对人类染色体蛋白质组计划产出以及收集的人类肝脏蛋白质组的海量数据集展开了系统的分析。最后我们建立了基于基因组数据库和预测蛋白质组数据库挖掘新蛋白的数据分析流程,实现了海量人类蛋白质组质谱数据的深度解析。具体内容包括:
  蛋白质水平质控方法是较谱图水平、肽段水平质控更为严格的质量控制方法。尤其对于复杂样本数据集,整合实验数据多,蛋白质水平累积的假阳性鉴定也多。我们开发基于PepDistiller结果进行蛋白质水平质量控制和蛋白质装配的ProDistiller程序,设置图谱打分F-value,对同一个样本的图谱结果进行排序逐个组装蛋白,在蛋白水平FDR达到1%时停止组装获得卡值,蛋白质装配基于简单原则法。ProDistiller使用Perl语言编写,可以在多种平台下运行,结果中保留肽段鉴定的属性,如电荷,漏切位点数,母离子和子离子质量误差等。
  目前常用蛋白质组序列数据库有NCBI nr、UniProt、RefSeq、Ensembl等,这几个数据库在理论肽段构成上基本相似,差别在于存着不同可变剪接形式的蛋白质。注释较好的Uniprot和SwissProt数据库所得到的鉴定结果要比其它数据库多。另一方面Uniprot和SwissProt数据库大小远小于Ensembl数据库、RefSeq数据库和NCBI nr数据库,对计算所需硬件和时间需求较小。因此我们建议在常规的蛋白质组质谱鉴定的数据库搜索中,数据质量高、冗余度低的Uniprot和Swiss-Prot数据库是最佳选择,以基因为中心的研究可采用Swiss-Prot为搜索数据库。
  质谱数据分析平台(MSPP)有效整合并实现了多种搜索引擎搜索、多水平质控和整合、有标/无标定量等多个功能模块,并考虑了多节点调度和任务分配,能够满足海量数据处理的需求。该平台已成功地应用于中国人类蛋白质组计划、人类染色体蛋白质组计划和人类肝脏蛋白质组数据集的数据分析中,至今已累积处理超过4亿张谱图。随着蛋白质组质谱技术的高速发展,数据规模逐渐增大,大规模高通量自动化分析,高性能计算平台需要进一步优化任务调度、数据分发和结果收集,建立高通量、自动化的串联质谱数据的新蛋白质鉴定平台。
  MSPP成功应用于人类染色体蛋白质组计划中复杂样本的数据分析。我们对三组具有不同转移潜能人类肝癌细胞系样本Hep3B,HCC97H和HCCLM3进行转录组、翻译组和蛋白质组的深度测序分析,蛋白质组学鉴定9064个基因,是翻译组基因总数的50.2%。其中通过转录因子富集策略,鉴定到31个低丰度蛋白质,证明富集策略对低丰度蛋白鉴定的有效性。通过样本特异性数据库搜索,我们发现SAP只占总鉴定肽段数目的0.4%,这表明单一氨基酸多态性对蛋白质鉴定影响很小。
  为获得最完整的人类肝脏蛋白质组数据集,我们系统收集尽可能完整肝脏相关的质谱数据,记录样品状态,获得最完整的肝脏质谱数据第一版。实验数据按照样本类型分为成人肝、胎肝和肝癌细胞系三种。使用MSPP用于肝脏质谱数据重分析,构建最新版高可信的人类肝脏蛋白质组数据集,共鉴定9901个基因,鉴定结果远远高过PeptideAtlas中的现有人类肝脏数据集的数据量(4,408个蛋白质)。与SwissProt和ProteinAtlas中的肝脏组织特异性表达谱数据比较,发现仍有大量漏检蛋白质。分析其鉴定谱图的打分情况发现,很多鉴定图谱并不是打分值低被过滤,而是具有较好打分,导致鉴定结果存在大量的假阴性。
  我们建立了基于基因组数据库的数据分析流程,初步实现了海量人类蛋白质组质谱数据的深度解析。使用高精度质谱数据搜索基因组数据库(理论外显子连接体数据库)和预测蛋白质AceView数据库,我们发现了一些图谱高可信的候选结果,包括5条可能是新AS的肽段和3条新蛋白肽段。虽然结果仍需要进一步实验验证,但此次试验证明了基于质谱数据注释基因组的可行性,确定了分析方法。

著录项

  • 作者

    李丽伟;

  • 作者单位

    解放军军事医学科学院;

    中国人民解放军军事医学科学院;

  • 授予单位 解放军军事医学科学院;中国人民解放军军事医学科学院;
  • 学科 生物化学与分子生物学
  • 授予学位 博士
  • 导师姓名 徐平,朱云平;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 蛋白质;
  • 关键词

    肝脏蛋白质组; 质谱数据分析平台; 基因组数据库; 质量控制;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号