首页> 中文期刊> 《计算机技术与发展》 >基于散列辞典的蛋白质二级结构预测方法

基于散列辞典的蛋白质二级结构预测方法

         

摘要

This paper proposes a kind of easy to modify protein secondary structure prediction algorithm. Using PDB files from Protein Data Bank as a data source, extract all the protein amino acid sequences and build up a database, then for a-helix, [3-sheet, use different improved methods based on hash dictionary to implements the fragments prediction of protein' s secondary structure. During the forecasting process, taking 68 421 samples as part of the protein in the test set. For unknown sequence according to the established the fragments of hash dictionary use positive maximal matching points for segmentation lexical contrast. The results shows the prediction of segment reached 83.9% accuracy,but also to better reflect the sequence of amino acids connection.%提出一种易于修改的蛋白质二级结构预测算法.以蛋白质数据银行中PDB文本数据作为数据源,提取所有蛋白质氨基酸序列并以此建立样本数据库,然后针对α-螺旋、β-折叠分别利用基于散列辞典的不同改进方法编程实现蛋白质二级结构序列片段预测,在预测过程中,随机抽取68 421个蛋白质中部分样本作为测试集,对未知序列根据建立的散列辞典中的片段使用正向最大匹配分词法进行切分对比.从实验结果来看,对未知序列片段预测的准确度达到了83.9%,而且能够较好地体现片段之间的连接顺序.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号