基于蛋白质相互作用网络的聚类算法研究与应用

基于蛋白质相互作用网络的聚类算法研究与应用

论文摘要

依托基因组学、蛋白质组学、代谢组学、调控网络等分析并收录的多类别多层次系统生物学基础数据,发展模型全方位系统性的模拟分析生物个体内部的所有组成成分包括蛋白质、基因、mRNA等发展变化的动力学过程,进而为每个患者提供个性化的精准医疗方案是未来的生物信息学发展趋势。其中,基于蛋白质相互作用网络的聚类算法研究与应用是当前计算生物学领域的基础研究问题。本课题研究主线是基于蛋白质相互网络设计聚类算法进行通用蛋白质复合物的识别以及疾病关联模块的挖掘等应用研究,此外蛋白质复合物和疾病功能模块都与蛋白质的亚细胞位置信息密切关联,而当前该类数据存在着覆盖度低和较高比例的假阳性,因而本文对蛋白质亚细胞定位预测这个问题也开展了研究。总之,本课题的主要研究内容如下:(1)基于融合多视窗特征的蛋白质亚细胞定位研究。针对当前的如氨基酸组成、伪氨基酸组成等蛋白质序列表示方法难以充分挖掘残基与残基之间的交互信息和各残基的位置分布信息等缺陷,本文首先提出两种序列特征提取方法:一种是基于改进的混沌游戏模型提取的2维特征,侧重挖掘主序列的频率和全局位置分布信息;另一种则是基于统计信息理论表示的新3维特征,主要反映的是残基的局部位置信息。然后,设计一个基于新提出特征和酉距离的分类模型,它优势在于不需要时间复杂度高的分类系统如SVM等,就能快速预测亚细胞位置,并且准确率超过部分基于SVM的经典分类模型。为进一步提高系统的预测准确率和可用性,模型融合两类新特征、伪氨基酸组成和二肽特征并采用SVM作为分类系统,实验结果表明该多视窗模型预测效果显著超过几乎所有经典算法,这也间接地反应了新特征可以作为当前经典特征表示方法的有效补充。最后,部分蛋白质的亚细胞位置预测虽然被判定为假阳性,但使用文本挖掘技术从权威期刊杂志可以证实它们只是当前暂未被公开数据集收录而已。(2)基于核心-附属结构的蛋白质复合物聚类算法研究。蛋白质复合物是生物内执行细胞功能的主要载体,被证明绝大部分存在着核心-附属结构。针对蛋白质相互作用网络聚类算法存在的难以识别重叠模块、预测复合物的生物可解释性差等问题,本文提出一种挖掘核心-附属结构的蛋白质复合物的模型CFOCM,其先融合基因本体注释等定义一个新的亲和聚合函数,这能确保复合物核心既能有着内部稠密外部连通相对稀疏的拓扑结构且整体倾向于有着至少一个相同的生物功能,然后根据设定的亲近策略往复合物核心选择性添加外围蛋白质组装成最终的复合物。该聚类模型在相对稀疏、稠密、整合多数据集等不同特点的网络数据上F-mesure、预测数量等度量的表现都优于现有的算法(ClusterONE,MCL,CORE,COACH等),证实了算法的有效性和高适应性,此外对比实验也表明借助基因本体注释等保证核心拥有着至少同一共享功能这一假设有效地提高了算法的表现。(3)基于多目标进化计算框架的聚类算法挖掘疾病关联模块研究。挖掘疾病关联的功能模块,有助于筛选新药物靶标,揭秘复杂疾病的产生发展机制。当前针对该方面研究成果相对较少,本文探索性的提出了一种基于多目标进化计算框架的疾病关联模块预测模型MPSOPC,多目标优化框架的优势在于能够同时平衡优化各个簇内部的稠密度、簇与簇间的连通性和模块内各蛋白质与某种疾病的紧密度等多个目标,给出一个最优解集,此外该模型还能充分挖掘网络的全局拓扑特性。实验结果证实,MPSOPC能有效识别簇内部稠密连通、簇与簇间连通相对稀疏的拓扑结构复合物,并且识别的部分复合物和某种类型复杂疾病高度关联。此外,MPSOPC还具备运行效率高、鲁棒性强的特点,因而可以成为帮助识别发现潜在特定疾病致病基因集和新药物靶标的一个有效工具。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 选题背景及意义
  •   1.2 国内外研究现状
  •     1.2.1 蛋白质亚细胞定位预测算法研究
  •     1.2.2 蛋白质相互作用网络聚类算法研究
  •     1.2.3 疾病关联模块挖掘算法研究
  •   1.3 本文主要工作与贡献
  •   1.4 论文的组织结构
  • 第2章 基于蛋白质相互作用网络的聚类算法研究概述
  •   2.1 基础概念和功能注释
  •     2.1.1 蛋白质
  •     2.1.2 蛋白质相互作用
  •     2.1.3 蛋白质复合物
  •     2.1.4 基因本体功能注释
  •   2.2 蛋白质相互作用网络相关理论知识
  •     2.2.1 蛋白质相互作用网络数据
  •     2.2.2 蛋白质相互作用网络的拓扑特征属性
  •     2.2.3 网络的拓扑特征指标和聚类指标
  •   2.3 蛋白质复合物预测算法评价指标
  •     2.3.1 统计度量指标
  •     2.3.2 生物意义评估指标
  •   2.4 小结
  • 第3章 基于多视窗特征的蛋白质亚细胞定位算法
  •   3.1 问题描述
  •   3.2 基于多视窗序列特征蛋白质亚细胞定位模型的框架结构
  •   3.3 基于序列的蛋白质亚细胞预测模型
  •     3.3.1 基于混沌游戏模型图形表示的特征表示方法GCGR
  •     3.3.2 基于统计信息理论的特征表示方法NSI
  •     3.3.3 酉距离
  •   3.4 实验及结果分析
  •     3.4.1 数据集及预处理
  •     3.4.2 评估度量指标与参数优化
  •     3.4.3 快速模型预测效果
  •     3.4.4 多视窗特征模型对比实验
  •   3.5 小结
  • 第4章 基于核心-附属结构的蛋白质复合物挖掘算法
  •   4.1 问题描述
  •   4.2 基于核心-附属结构复合物挖掘模型的框架结构
  •   4.3 基于核心-附属结构的复合物识别方法CFOCM
  •     4.3.1 基本术语和新聚类亲和函数
  •     4.3.2 蛋白质复合物核心挖掘算法
  •     4.3.3 相似复合物核心的合并策略
  •     4.3.4 附属蛋白质的筛选算法
  •     4.3.5 CFOCM的优势
  •   4.4 实验及结果分析
  •     4.4.1 数据集
  •     4.4.2 性能评估
  •     4.4.3 参数的优化
  •     4.4.4 与其他的预测算法进行实验比较
  •     4.4.5 功能注释的有效性验证
  •     4.4.6 功能富集分析和预测复合物实例
  •   4.5 小结
  • 第5章 基于多目标进化计算的疾病关联模型挖掘算法
  •   5.1 问题描述
  •   5.2 基于多目标进化计算的聚类模型的框架结构
  •   5.3 基于多目标进化计算的疾病关联模型挖掘方法MPSOPC
  •     5.3.1 疾病关联复合物的目标函数和建模
  •     5.3.2 多目标离散粒子群优化算法
  •     5.3.3 非疾病关联通用复合物识别算法GMPSOPC
  •   5.4 实验及结果分析
  •     5.4.1 数据集及预处理
  •     5.4.2 性能评估
  •     5.4.3 通用复合物检测模型GMPSOPC对比实验分析
  •     5.4.4 假阳性复合物分析
  •     5.4.5 帕累托解集对不同目标函数值的统计量
  •     5.4.6 复合物的疾病类别关联分析
  •   5.5 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文
  • 附录B 攻读学位期间主要参与的课题
  • 文章来源

    类型: 博士论文

    作者: 李波

    导师: 蔡立军

    关键词: 特征提取,混沌游戏模型,核心附属结构,蛋白质复合物,疾病功能模块,多目标进化计算

    来源: 湖南大学

    年度: 2019

    分类: 基础科学

    专业: 数学,生物学

    单位: 湖南大学

    分类号: O157.5;Q811.4

    DOI: 10.27135/d.cnki.ghudu.2019.000235

    总页数: 129

    文件大小: 5819K

    下载量: 32

    相关论文文献

    • [1].皂苷-蛋白质相互作用的研究进展[J]. 中国食品学报 2020(04)
    • [2].蛋白质相互作用数据库[J]. 中国生物化学与分子生物学报 2017(08)
    • [3].基于多特征融合预测蛋白质相互作用界面[J]. 中南民族大学学报(自然科学版) 2017(03)
    • [4].基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J]. 中国中医药信息杂志 2016(02)
    • [5].基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J]. 生物物理学报 2015(02)
    • [6].蛋白质相互作用的研究方法及进展分析[J]. 文理导航(中旬) 2018(01)
    • [7].大规模蛋白质相互作用组实验技术及其应用[J]. 生命的化学 2013(05)
    • [8].茶多酚-蛋白质相互作用的研究进展[J]. 食品工业科技 2019(08)
    • [9].蛋白质相互作用时序网络模型及动态性质分析[J]. 湖南理工学院学报(自然科学版) 2018(01)
    • [10].水稻组织特异性蛋白质相互作用网络构建方法[J]. 哈尔滨工业大学学报 2018(11)
    • [11].基于空间映射的蛋白质相互作用网络链接预测算法[J]. 计算机科学 2016(S1)
    • [12].动态加权蛋白质相互作用网络构建及其应用研究[J]. 自动化学报 2015(11)
    • [13].双分子荧光互补在蛋白质相互作用中的应用[J]. 湖北医药学院学报 2014(02)
    • [14].蛋白质相互作用网络演化模型研究进展[J]. 计算机应用 2013(03)
    • [15].通过液质联用鉴定蛋白质相互作用方法的建立[J]. 首都医科大学学报 2013(03)
    • [16].基于组合特征集成的蛋白质相互作用位点预测[J]. 济南大学学报(自然科学版) 2012(01)
    • [17].蛋白质相互作用网络分析的图聚类方法研究进展[J]. 计算机工程与科学 2012(01)
    • [18].荧光共振能量转移动态检测蛋白质相互作用的研究进展[J]. 济宁医学院学报 2012(01)
    • [19].糖-蛋白质相互作用在酶固定及蛋白质识别与分离中的应用[J]. 中国生物工程杂志 2012(04)
    • [20].蛋白质相互作用网络研究的引文分析[J]. 中华医学图书情报杂志 2012(04)
    • [21].蛋白质相互作用预测方法研究进展[J]. 计算机光盘软件与应用 2012(18)
    • [22].蛋白质相互作用研究进展[J]. 生物学通报 2012(11)
    • [23].基于图聚类的蛋白质相互作用网络功能模块探测[J]. 食品与生物技术学报 2011(01)
    • [24].随机抽样对蛋白质相互作用网络度分布的影响[J]. 生物信息学 2011(03)
    • [25].蛋白质相互作用网络的相似子网搜索问题研究[J]. 计算机工程与应用 2010(03)
    • [26].一类蛋白质相互作用网络比对的线性规划算法[J]. 生物物理学报 2010(01)
    • [27].基于多窗口不同特征的蛋白质相互作用位点预测[J]. 安徽大学学报(自然科学版) 2010(05)
    • [28].数据来源对蛋白质相互作用网络度分布的影响[J]. 生物数学学报 2010(04)
    • [29].蛋白质相互作用网络进化分析研究进展[J]. 生物化学与生物物理进展 2009(01)
    • [30].蛋白质相互作用网络的几种聚类方法综述[J]. 国防科技大学学报 2009(04)

    标签:;  ;  ;  ;  ;  ;  

    基于蛋白质相互作用网络的聚类算法研究与应用
    下载Doc文档

    猜你喜欢