基于集成支持向量机与随机森林的蛋白交互预测研究

基于集成支持向量机与随机森林的蛋白交互预测研究

论文摘要

蛋白质作为生命体的重要组成成分,参与维持生命活动的正常进行。作为细胞功能的执行者,大多数蛋白质通过与其他蛋白质发生相互作用,结合形成复合物对生命活动进行调控。研究蛋白质间相互作用,对疾病诊疗,药物筛选等方面的研究都有着积极的意义。目前通过生物实验方法中广泛使用的高通量生物技术可以对蛋白质相互作用进行测定,但由于其过高的时间成本和经济成本,无法实现大规模的应用。因此,通过计算方法对蛋白质间相互作用进行预测具有广阔的现实意义。预测蛋白质相互作用一直是在计算生物学领域中研究的一个热点方向。本文从蛋白质的序列信息出发进行对蛋白质相互作用的预测研究,选取了序列信息的进化保守性特征,协同进化性特征与溶剂可及性特征,并对其中的进化保守性特征进行离散余弦变换,以降低冗余数据对预测准确度的影响。继而将提取的三类特征进行整合处理,构建特征矩阵。基于集成学习算法结合支持向量机和随机森林构建分类器,其中对支持向量机和随机森林进行参数调优和阈值选取。将特征矩阵输入到分类器中,完成对蛋白质相互作用的预测过程。本文所提出的预测方法丰富了序列信息,结合了提取的多种信息特征,并确定了基于集成学习算法来建立分类器模型。为了验证模型具有优秀的泛化性,在其他蛋白质数据集同样有着良好的预测性能,在测试集上对数据进行分类预测,其结果也反映了本文提出的预测方法相较于其他研究蛋白质相互作用预测方法可以达到更加优异的预测效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景
  •   1.2 国内外研究现状
  •   1.3 研究意义
  •   1.4 本文研究内容
  • 第二章 蛋白交互相关知识简介
  •   2.1 蛋白质相互作用相关数据库介绍
  •     2.1.1 DIP数据库
  •     2.1.2 Swiss-Prot数据库
  •     2.1.3 String数据库
  •     2.1.4 HPRD数据库
  •   2.2 蛋白质相互作用预测分类器简介
  •     2.2.1 支持向量机简介
  •     2.2.2 随机森林简介
  • 第三章 基于集成SVM与 RF的蛋白交互预测方法
  •   3.1 本文实验算法流程
  •   3.2 本文数据集的构建
  •     3.2.1 训练集和验证集的选取及预处理
  •     3.2.2 测试集的选取及预处理
  •   3.3 特征选择与特征矩阵的构建
  •     3.3.1 进化保守性特征
  •     3.3.2 协同进化性特征
  •     3.3.3 溶剂可及性特征
  •     3.3.4 本节小结
  •   3.4 集成学习算法分类器的选取与应用
  •     3.4.0 分类器的选取
  •     3.4.1 支持向量机
  •     3.4.2 随机森林
  •     3.4.3 集成学习
  • 第四章 实验结果的分析与讨论
  •   4.1 实验结果评价指标
  •   4.2 支持向量机参数调优与阈值选择
  •     4.2.1 基于交叉验证和网格搜索的参数调优
  •     4.2.2 判别阈值选取
  •   4.3 随机森林参数调优
  •   4.4 集成学习分类器与单一分类器的性能比较
  •   4.5 特征有效性分析
  •   4.6 独立测试集中本文预测结果与其他分类方法比较
  •   4.7 本章小结
  • 第五章 总结与展望
  •   5.1 本文工作总结
  •   5.2 未来工作展望
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 刘天宇

    导师: 孙平平

    关键词: 蛋白质相互作用,序列信息特征,集成学习算法,支持向量机,随机森林

    来源: 东北师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 东北师范大学

    分类号: Q51;TP18

    总页数: 45

    文件大小: 2589K

    下载量: 110

    相关论文文献

    • [1].基于迭代随机森林算法的糖尿病预测[J]. 长春工业大学学报 2019(06)
    • [2].基于改进随机森林的城市河流水生态健康评价研究[J]. 海河水利 2019(06)
    • [3].基于随机森林癫痫患者脑电数据的分析研究[J]. 中国数字医学 2020(01)
    • [4].基于局部均值分解和迭代随机森林的脑电分类[J]. 吉林大学学报(信息科学版) 2020(01)
    • [5].网贷平台数据的随机森林预测模型实证分析[J]. 宜宾学院学报 2019(12)
    • [6].采用单类随机森林的异常检测方法及应用[J]. 西安交通大学学报 2020(02)
    • [7].随机森林数据情感挖掘方法分析[J]. 通讯世界 2020(01)
    • [8].运用最大熵模型和随机森林模型对东北红松分布的模拟[J]. 东北林业大学学报 2020(03)
    • [9].基于随机森林算法的城区土地覆盖分类研究[J]. 河北省科学院学报 2020(01)
    • [10].运用随机森林模型对北京市林分蓄积生长量的预测[J]. 东北林业大学学报 2020(05)
    • [11].融合人工鱼群和随机森林算法的膝关节接触力预测[J]. 中国医学物理学杂志 2020(04)
    • [12].结合特征选择和优化随机森林的无线网络数据丢失重建[J]. 上海电力大学学报 2020(03)
    • [13].基于随机森林算法的耕地质量定级指标体系研究[J]. 华南农业大学学报 2020(04)
    • [14].一种基于随机森林的组合分类算法设计与应用[J]. 电子设计工程 2020(16)
    • [15].基于随机森林算法的日光温室内气温预测模型研究[J]. 中国农学通报 2020(25)
    • [16].基于因子分析和迭代随机森林方法的学生成绩综合评价——以都匀市某高中为例[J]. 黔南民族师范学院学报 2020(04)
    • [17].基于随机森林模拟的辽宁省降水量空间分布研究[J]. 陕西水利 2020(09)
    • [18].随机森林模型在膝关节炎患者结构特征与症状定量分析中的应用(英文)[J]. 磁共振成像 2020(10)
    • [19].基于特征选择的极限随机森林算法研究[J]. 计算机应用研究 2020(09)
    • [20].随机森林回归分析方法在代谢组学批次效应移除中的应用[J]. 中国卫生统计 2020(05)
    • [21].一种面向非均衡分类的随机森林算法[J]. 计算机与现代化 2018(12)
    • [22].随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J]. 中国卫生统计 2019(02)
    • [23].基于随机森林的债券违约分析[J]. 当代经济 2018(03)
    • [24].基于改进网格搜索算法的随机森林参数优化[J]. 计算机工程与应用 2018(10)
    • [25].随机森林在城市不透水面提取中的应用研究[J]. 云南师范大学学报(自然科学版) 2017(03)
    • [26].一种顺序响应的随机森林:变量预测和选择[J]. 小型微型计算机系统 2017(08)
    • [27].基于随机森林回归的军械器材需求预测[J]. 自动化应用 2017(09)
    • [28].流式大数据下随机森林方法及应用[J]. 西北工业大学学报 2015(06)
    • [29].面向高维数据的随机森林算法优化探讨[J]. 商 2016(04)
    • [30].深度随机森林在离网预测中的应用[J]. 计算机科学 2016(06)

    标签:;  ;  ;  ;  ;  

    基于集成支持向量机与随机森林的蛋白交互预测研究
    下载Doc文档

    猜你喜欢