首页> 中文期刊> 《物理化学学报》 >基于序列特征筛选与支持向量回归预测蛋白质折叠速率

基于序列特征筛选与支持向量回归预测蛋白质折叠速率

         

摘要

折叠速率预测对阐明蛋白质折叠机理意义重大.本文收集了115条目前已知折叠速率的蛋白质样本(包括二态、多态和混态蛋白),为了较全面地表征蛋白质分子的一级结构信息,提取序列长度、氨基酸残基多尺度组分、成对残基k-space特征与基于残基物理化学性质的地统计学关联总共9357维特征.经改进的二元矩阵重排过滤器和多轮末尾淘汰非线性筛选,获得23个物理化学意义明确的保留特征,建立的非线性支持向量回归模型Jackknife交叉验证的相关系数R=0.95,优于文献报道及其他参比特征选择方法.支持向量回归解释体系表明折叠速率与保留描述符的非线性回归极显著,分析了各保留描述符对折叠速率的影响,结果表明蛋白质折叠速率与序列长度、中短程关联特征、三联体残基组份特征等密切相关.%Folding rate prediction plays an important role in clarifying the protein folding mechanism. In this work, we col ected 115 protein samples with known folding rates including two-, multi-, and mixed-state proteins. To characterize the primary structure information of the protein molecules more comprehensively, we considered sequence length, residue components with different scales, k-space features for pair residues, and geostatistics association features among different locations of the residues substituted with corresponding physical-chemical properties. Each protein sequence was represented by a numeric vector containing 9357 numbers. We selected 23 features with a clear meaning from the above-mentioned high-dimensional features for each sample, after conducting an improved binary matrix shuffling filter and a worst descriptor elimination multi-round method. We constructed a nonlinear support vector regression (SVR) model based on the folding rate and the 23 retained features. The correlation coefficient of the Jackknife cross validation was 0.95. Our prediction accuracy was superior to other results from the literature and other reference feature selection methods. Final y, we established an interpretability system for SVR, and our data showed that the nonlinear regression relationship between the folding rates and the reserved features was highly significant. By further analyzing the effects of each retained descriptor on protein folding rates, the results showed that the protein folding rate might be closely related to the sequence length, the features associated with the medium-and short-range, the triplet residues component features, etc.

著录项

  • 来源
    《物理化学学报》 |2014年第6期|1091-1098|共8页
  • 作者单位

    湖南农业大学;

    湖南省作物种质创新与资源利用重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省植物病虫害生物学及防控重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省作物种质创新与资源利用重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省植物病虫害生物学及防控重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省作物种质创新与资源利用重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省植物病虫害生物学及防控重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省作物种质创新与资源利用重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省植物病虫害生物学及防控重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省作物种质创新与资源利用重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省植物病虫害生物学及防控重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省作物种质创新与资源利用重点实验室;

    长沙410128;

    湖南农业大学;

    湖南省植物病虫害生物学及防控重点实验室;

    长沙410128;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 结构化学;
  • 关键词

    蛋白质折叠; 折叠速率预测; 高维特征; 特征筛选; 支持向量回归;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号