蛋白质网络中的关键蛋白质识别算法研究

蛋白质网络中的关键蛋白质识别算法研究

论文摘要

众所周知,蛋白质对生物体非常重要,是细胞生理代谢途径的重要组成部分。蛋白质参与各种生物过程,几乎所有的细胞功能都是通过与其他蛋白质或DNA相互作用而实现的。随着后基因组时代蛋白质组学的发展,预测蛋白质结构和功能、识别关键蛋白质或蛋白复合物和蛋白质功能模块等已经成为许多研究者的主要课题。值得注意的是,细胞中的每个蛋白质不是单独存在的而是通过与其他蛋白质进行相互作用来完成某些功能的,并且其中一些蛋白质的缺失会导致生命体发生突变或死亡,称这些蛋白质为关键蛋白质。此外,最近的研究表明,关键蛋白质与人类疾病基因相关,在预测药物靶点方面发挥重要作用。因此,识别关键蛋白质是很必要的,这将有助于我们理解细胞生命活动的最低要求,并为治疗疾病找到新的方法。然而传统的生物学识别关键蛋白质的方法效率低且价格昂贵,虽然现在也有一些计算的方法来识别关键蛋白质但识别精度和效率有待提高,所以本文致力于进一步提高关键蛋白质的识别精度和效率。本文的主要研究工作如下:(1)通过多数据融合的方法识别关键蛋白质,该方法结合基因表达数据、亚细胞定位数据和蛋白质相互作用网络数据对蛋白质进行打分并排序获得最终的关键蛋白质候选集,将其命名为GSP。考虑到蛋白质的关键性仅仅依赖于蛋白质相互作用网络的拓扑特征是远远不够的,因此将生物数据与网络拓扑特性相结合。实验结果表明该方法显著提高了关键蛋白质的识别精度。(2)将识别关键蛋白质的过程与果蝇优化算法寻优的过程进行对应,提出了基于果蝇优化算法在动态蛋白质网络中识别关键蛋白质的模型,该方法命名为EPFOA。首先将静态蛋白质网络与基因表达数据相结合构建了动态蛋白质网络模型;然后基于基因本体数据和代表网络拓扑特性的边聚集系数在动态蛋白质网络中提出了一种新的拓扑中心性方法,同时我们在动态蛋白质网络中用局部连通性来评价蛋白质网络的模块化特性;根据大量的研究表明亚细胞定位数据对识别关键蛋白质至关重要,提出了一种评价策略得到亚细胞定位得分;最后采用果蝇优化算法在动态蛋白质网络中识别关键蛋白质,基于果蝇优化算法构建了识别关键蛋白质模型。实验结果表明,该方法不仅提高了关键蛋白质的识别效率也提高了识别关键蛋白质的准确性。(3)采用HITS算法在生物特性和网络拓扑特性加权的蛋白质网络上进行迭代,最后采用了一种综合不同加权参数下的排序的方法来获得最终的关键蛋白质候选集,该方法命名为HSEP。首先将原始的无向的蛋白质相互作用网络转化为有向双向蛋白质网络,并且结合生物特性和网络拓扑特性对蛋白质网络进行加权,然后用HITS算法在加权的蛋白质网络上进行迭代。最后,考虑到生物特性和网络拓扑特性在识别关键蛋白质过程中的作用,将生物特性与拓扑特性相结合,并且设置参数来分析两者对识别关键蛋白质的影响。为了将提出的方法应用到更多的数据集中,采用了一种综合不同加权参数下的排序的方法来获得最终的关键蛋白质候选集。实验结果在酵母数据集和果蝇数据集上都优于其他的方法。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 研究背景及意义
  •   1.2 国内外研究现状
  •   1.3 本文的研究内容
  •   1.4 论文的组织结构
  • 第2章 基础知识介绍
  •   2.1 蛋白质相互作用网络介绍
  •   2.2 群智能优化算法介绍
  •     2.2.1 群智能优化算法概述
  •     2.2.2 粒子群优化算法
  •     2.2.3 果蝇优化算法
  •   2.3 HITS算法简介
  •   2.4 识别关键蛋白质的基本计算方法
  •     2.4.1 经典的网络拓扑中心性方法
  •     2.4.2 基于网络拓扑的其他方法
  •   2.5 评价算法有效性的方法
  •   2.6 小结
  • 第3章 基于基因表达数据、亚细胞定位信息和PPI数据识别关键蛋白质
  •   3.1 概述
  •   3.2 算法介绍
  •     3.2.1 网络拓扑特性
  •     3.2.2 生物信息特性
  •     3.2.3 算法的打分机制
  •   3.3 仿真实验及分析
  •     3.3.1 使用数据介绍
  •     3.3.2 分析参数对实验结果的影响
  •     3.3.3 与其它识别关键蛋白质方法进行对比
  •     3.3.4 使用精确率-召回率曲线进行对比
  •     3.3.5 使用刀切法曲线进行对比
  •   3.4 小结
  • 第4章 采用果蝇优化算法在动态蛋白质网络中识别关键蛋白质
  •   4.1 概述
  •   4.2 动态蛋白质网络模型的构建
  •   4.3 加权蛋白质相互作用网络
  •     4.3.1 加权蛋白质网络模型构建
  •     4.3.2 动态网络拓扑信息以及生物信息
  •   4.4 采用果蝇优化算法的关键蛋白质识别方法
  •     4.4.1 初始化果蝇的位置以及设置位置更新规则
  •     4.4.2 EPFOA算法的解空间设计
  •   4.5 仿真实验及分析
  •     4.5.1 实验数据
  •     4.5.2 分析参数对实验结果的影响
  •     4.5.3 与其他识别关键蛋白质方法进行对比
  •     4.5.4 统计指标分析
  •     4.5.5 使用精确率-召回率曲线进行对比
  •     4.5.6 使用刀切法曲线进行对比
  •     4.5.7 对识别出的关键蛋白质的模块化分析
  •   4.6 小结
  • 第5章 基于改进的HITS算法在加权网络中识别关键蛋白质
  •   5.1 概述
  •   5.2 构建加权的蛋白质相互作用网络
  •   5.3 基于HSEP识别关键蛋白质
  •   5.4 仿真实验及分析
  •     5.4.1 实验数据
  •     5.4.2 与其它识别关键蛋白质方法进行对比
  •     5.4.3 使用统计策略进行分析
  •     5.4.4 使用准确率-召回率曲线对参数α进行分析
  •     5.4.5 分析识别出的关键蛋白质
  •   5.5 小结
  • 第6章 总结与展望
  •   6.1 本文工作总结
  •   6.2 研究展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间研究成果
  • 文章来源

    类型: 硕士论文

    作者: 王思果

    导师: 雷秀娟

    关键词: 蛋白质相互作用网络,关键蛋白质,生物数据

    来源: 陕西师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 陕西师范大学

    分类号: TP18;Q51

    DOI: 10.27292/d.cnki.gsxfu.2019.001370

    总页数: 76

    文件大小: 5410K

    下载量: 29

    相关论文文献

    标签:;  ;  ;  

    蛋白质网络中的关键蛋白质识别算法研究
    下载Doc文档

    猜你喜欢