基于集成学习模型下的蛋白质交互作用预测方法研究

基于集成学习模型下的蛋白质交互作用预测方法研究

论文摘要

随着后基因组发展,蛋白质组的研究正在如火如荼地进行.蛋白质相互作用的研究不仅有助于揭示生命活动的本质,而且还有助于理解疾病活动的机制和有效药物的开发.机器学习的快速发展为理解蛋白质相互作用的机制提供了新的机遇和挑战.它在蛋白质组学研究领域发挥着重要作用.近年来,已经开发了越来越多的用于预测蛋白质相互作用的计算方法.本文的模型是基于集成学习的思想,结合随机森林和支持向量机算法来预测蛋白质间相互作用.本文的主要工作包含以下几点:(1)蛋白质-蛋白质相互作用在各种生物过程中起关键作用.已经开发了许多方法来预测蛋白质-蛋白质相互作用.然而,许多现有的应用是有局限的,因为它们依赖于大量的同源蛋白和相互作用标记.在本文中,我们提出了一种新的集成学习方法(RF-Ada-DF),和基于氨基酸序列的特征提取方法,用于识别蛋白质-蛋白质相互作用.我们的方法首先通过多元互信息和归一化Moreau-Broto自相关描述符技术构建基于蛋白质序列的特征向量来表示每对蛋白质.然后,我们将提取的638维特征输入到用于判断交互对和非交互对的集成学习模型中.此外,该集成模型在AdaBoost框架中嵌入随机森林,并将弱分类器转换为单个强分类器.同时,我们还采用双误度量故障检测,以抑制训练过程中的过度适应.为了评估新方法的性能,我们对蛋白质间相互作用预测进行了几项综合测试,同时与现有的最优方法的性能进行了比较.在Heli.pylori数据集上,我们的方法实现了88.16%的准确率和87.68%的灵敏度,我们的方法的准确率提高了0.57%.在S.cerevisiae数据集上,我们的方法实现了95.77%的准确率和93.36%的灵敏度,我们的方法的准确率提高了0.76%.在Human数据集上,我们的方法准确率达到98.16%,灵敏度达到96.80%,我们的方法准确率提高了0.6%.实验表明,我们提出的方法可以很有效地提取蛋白质的相互作用信息.(2)配体-受体相互作用在细胞分化,增殖和免疫应答过程所需的信号转导中起重要作用.配体-受体相互作用的分析有助于更深入地了解细胞增殖/分化和其他细胞过程.计算技术将用于促进未来蛋白质组学研究中的配体-受体相互作用研究.在本文中,我们通过定向梯度直方图和离散余弦变换从配体和受体蛋白质序列中提取特征向量.然后我们提出了一种新的计算方法,通过机器学习方法从氨基酸序列预测配体-受体相互作用.我们在配体-受体数据集(不平衡数据集)上提出了两种模型.Neighborhood Fuzzy模型是使用模糊C均值聚类算法将正负类数据集分成若干个子平衡数据集并使用支持向量机算法得到若干个子分类器,然后使用相似性度量(距离度量)选择最优子分类器进行预测.Ensemble Fuzzy模型是使用模糊C均值聚类和bootstrap的方法将数据集平均分为若干个子数据集,然后训练若干个子分类器,最终结果由这些子分类器投票表决的方式得到.为了验证两种模型的性能,我们对配体-受体相互作用数据集进行了五折交叉验证,准确度达到80.08%,灵敏度达到82.98%,特异性达到80.02%.相比于使用单一的支持向量机分类器(灵敏度值是46.28%),模型的灵敏度提高了36.7%.然后,我们在两个蛋白质-蛋白质相互作用数据集上测试我们提取的特征提取方法,并分别达到93.79%和87.46%的准确率.我们提出的方法是鉴定配体-受体相互作用的有用工具.

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景
  •   1.2 蛋白质-蛋白质相互作用预测方法研究现状
  •     1.2.1 基于进化信息的方法
  •     1.2.2 基于自然语言处理的预测方法
  •     1.2.3 基于氨基酸序列的预测方法
  •   1.3 机器学习算法在蛋白质交互中的研究现状
  •   1.4 内容安排
  • 第二章 RF-Ada-DF:识别蛋白质-蛋白质相互作用的综合预测因子
  •   2.1 引言
  •   2.2 蛋白质-蛋白质相互作用预测方法介绍
  •     2.2.1 计算多元互信息
  •     2.2.2 规范化Moreau-Broto自相关
  •   2.3 集成学习模型
  •     2.3.1 随机森林
  •     2.3.2 AdaBoost框架
  •     2.3.3 双误度量故障检测
  •     2.3.4 RF-Ada-DF
  •   2.4 数据集和评价方法
  •     2.4.1 PPIs数据集.
  •     2.4.2 实验设置
  •     2.4.3 评价指标
  •   2.5 实验结果
  •     2.5.1 分析MMI和 NMBAC的特征表现.
  •     2.5.2 将RF-Ada-DF与现有分类器进行比较
  •     2.5.3 在Heli.pylori数据集上的性能
  •     2.5.4 在S.cerevisiae数据集的性能
  •     2.5.5 在Human数据集上的性能
  •     2.5.6 跨物种数据集的PPIs识别
  •     2.5.7 两个特殊的PPIs数据集
  •   2.6 讨论
  •   2.7 本章小节
  • 第三章 通过综合计算方法识别配体-受体相互作用
  •   3.1 引言
  •   3.2 配体-受体相互作用预测方法
  •     3.2.1 定向梯度直方图
  •     3.2.2 氨基酸接触矩阵
  •     3.2.3 分解矩阵和计算直方图
  •     3.2.4 离散余弦变换
  •     3.2.5 模糊C均值聚类
  •     3.2.6 支持向量机
  •   3.3 Neighborhood Fuzzy和 Ensemble Fuzzy模型
  •     3.3.1 相似性度量
  •     3.3.2 Neighborhood Fuzzy模型
  •     3.3.3 Ensemble Fuzzy模型
  •   3.4 数据集与评价指标
  •     3.4.1 数据集
  •     3.4.2 评价指标
  •   3.5 实验结果
  •     3.5.1 实验设置
  •     3.5.2 不平衡数据集
  •     3.5.3 平衡数据集
  •     3.5.4 PPIs预测的性能
  •   3.6 讨论
  •   3.7 结论
  • 第四章 总结与展望
  •   4.1 总结
  •   4.2 展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的其他研究成果
  • 文章来源

    类型: 硕士论文

    作者: 徐昌

    导师: 周文

    关键词: 蛋白质蛋白质相互作用,配体受体相互作用,双误度量检测,特征提取,机器学习,生物信息学

    来源: 安徽师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 安徽师范大学

    分类号: TP181;Q51

    总页数: 69

    文件大小: 3227K

    下载量: 73

    相关论文文献

    • [1].皂苷-蛋白质相互作用的研究进展[J]. 中国食品学报 2020(04)
    • [2].蛋白质相互作用数据库[J]. 中国生物化学与分子生物学报 2017(08)
    • [3].基于多特征融合预测蛋白质相互作用界面[J]. 中南民族大学学报(自然科学版) 2017(03)
    • [4].基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J]. 中国中医药信息杂志 2016(02)
    • [5].基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J]. 生物物理学报 2015(02)
    • [6].蛋白质相互作用的研究方法及进展分析[J]. 文理导航(中旬) 2018(01)
    • [7].大规模蛋白质相互作用组实验技术及其应用[J]. 生命的化学 2013(05)
    • [8].茶多酚-蛋白质相互作用的研究进展[J]. 食品工业科技 2019(08)
    • [9].蛋白质相互作用时序网络模型及动态性质分析[J]. 湖南理工学院学报(自然科学版) 2018(01)
    • [10].水稻组织特异性蛋白质相互作用网络构建方法[J]. 哈尔滨工业大学学报 2018(11)
    • [11].基于空间映射的蛋白质相互作用网络链接预测算法[J]. 计算机科学 2016(S1)
    • [12].动态加权蛋白质相互作用网络构建及其应用研究[J]. 自动化学报 2015(11)
    • [13].双分子荧光互补在蛋白质相互作用中的应用[J]. 湖北医药学院学报 2014(02)
    • [14].蛋白质相互作用网络演化模型研究进展[J]. 计算机应用 2013(03)
    • [15].通过液质联用鉴定蛋白质相互作用方法的建立[J]. 首都医科大学学报 2013(03)
    • [16].基于组合特征集成的蛋白质相互作用位点预测[J]. 济南大学学报(自然科学版) 2012(01)
    • [17].蛋白质相互作用网络分析的图聚类方法研究进展[J]. 计算机工程与科学 2012(01)
    • [18].荧光共振能量转移动态检测蛋白质相互作用的研究进展[J]. 济宁医学院学报 2012(01)
    • [19].糖-蛋白质相互作用在酶固定及蛋白质识别与分离中的应用[J]. 中国生物工程杂志 2012(04)
    • [20].蛋白质相互作用网络研究的引文分析[J]. 中华医学图书情报杂志 2012(04)
    • [21].蛋白质相互作用预测方法研究进展[J]. 计算机光盘软件与应用 2012(18)
    • [22].蛋白质相互作用研究进展[J]. 生物学通报 2012(11)
    • [23].基于图聚类的蛋白质相互作用网络功能模块探测[J]. 食品与生物技术学报 2011(01)
    • [24].随机抽样对蛋白质相互作用网络度分布的影响[J]. 生物信息学 2011(03)
    • [25].蛋白质相互作用网络的相似子网搜索问题研究[J]. 计算机工程与应用 2010(03)
    • [26].一类蛋白质相互作用网络比对的线性规划算法[J]. 生物物理学报 2010(01)
    • [27].基于多窗口不同特征的蛋白质相互作用位点预测[J]. 安徽大学学报(自然科学版) 2010(05)
    • [28].数据来源对蛋白质相互作用网络度分布的影响[J]. 生物数学学报 2010(04)
    • [29].蛋白质相互作用网络进化分析研究进展[J]. 生物化学与生物物理进展 2009(01)
    • [30].蛋白质相互作用网络的几种聚类方法综述[J]. 国防科技大学学报 2009(04)

    标签:;  ;  ;  ;  ;  ;  

    基于集成学习模型下的蛋白质交互作用预测方法研究
    下载Doc文档

    猜你喜欢