我有文档网-共享优质文档

汇聚行业资料
共享价值文档

[72页]基于多特征的蛋白质磷酸化预测算法研究.pdf

 

下载须知

【文章简介】摘要作为重要的翻译后修饰活动之一,可逆的蛋白质磷酸化在多种细胞生命活动中起着调控作用 。它被形象地描述为细胞生命活动的分子开关 ,儿乎调节着生命活动的所有过程 ,如细胞屯长 、发育、凋亡等 。因此 ,深入研究磷酸化的机理以及对蛋白功能的影响 ,是现代生物学研究中值得探索的研究方向之 -。 识别蛋白质的磷酸化位点主要有基于实验和预测的方法。常用的实验检测蛋白质磷酸化的方法主要有 32P 放射性标记 、质谱分析法等 。采用实验方法鉴定磷酸化位点耗时耗力,且对蛋白质组学的所有序列进行检测的可行性较低,这就推动了生物信息学预测技术在近年来的快速发展 。实验技术为生物信息学的发展提供了大量的实验数据基础,从己有的磷酸化数据中挖掘修饰规律并对未知的磷酸化位点进行推测的方法也被相继提出 。作为一种有效的信息学手段 ,蛋白质磷酸化位点预测方法可以对实验方法起着指导作用。 本文采用机器学习方法对蛋白质磷酸化位点进行预测,提供了一种具冇系统的和层级特异性的磷酸化位点预测研究方法。首先根据 M a n n in g 提出的方法将蛋白激酶按照同源性等信息划分为包含组、家族 、子家族和激酶四个层面的层级结构 ,然后从 P hospho.E LM 中提取已有的蛋白质磷酸化序列信息 , 并将 Phospho.ELM 数据库中蛋白激酶映射到y 级结构上 ,构成包含多个层面的蛋白激酶数据集 。然后 ,从基因本体论和 S T R IN G 数据库里分别提取基因本体论和蛋白 -蛋白相互作用特征 ,构建用于磷酸化位点预测研究的特征集 。 由于基因本体论和蛋白-蛋白相互作用特征维数较髙 ,我们提出了基于 m R M R 的 “两步序列前向选择 ”方法进行特征选择 ,对每组蛋白激酶数据分别选出最优的特征子集。并在此基础上 ,使用随机森林方法构建分类模型进行预测,进而推断未经实验验证的蛋白质序列位点能否被磷酸化。通过 1 0 折交叉验证法和独立测试方法对分类模型进行性能评估 ,发现在各个层面上该分类模型预测性能明显优于其它蛋白质磷酸化位点预测工具 ,尤其是假阳性率分别控制在 1 % 和 5 % 水平下 ,该分类模型仍然可以对阳性数据达到较高的预测准确率。最后 ,为了方便同行使用该磷酸化位点预测方法 ,我们提供了相关的预测工具包,以期为相关领域研究提供指导和帮助。 关键字:磷酸化蛋白激酶功能特征特征选择随机森林位点预测 T摘要II

上传第一篇文档,开启网赚之旅!

点击上传