基于决策森林的蛋白质二级结构预测算法研究

基于决策森林的蛋白质二级结构预测算法研究

论文摘要

蛋白质是人类机体的重要组成并且机体内几乎所有的活动都需要具有特定功能的蛋白质参与。蛋白质的空间结构决定其主要功能。因此对于蛋白质结构的研究有助于更好的了解它的功能。但并不能直接通过模拟蛋白质的折叠过程来了解它的空间结构。然而蛋白质是由氨基酸序列组成的,因此,通过氨基酸序列来预测蛋白质的二级结构进而了解它的三维构象便成为了一种常用的方法。在大数据、云计算和人工智能快速发展的时代背景下,采用机器学习的方法对蛋白质的二级结构进行预测已经成为生物信息学中的一个研究热点。基于决策树森林模型及机器学习技术,本文深入研究了蛋白质的八类二级结构预测,主要研究内容如下:针对蛋白质的八类二级结构预测问题,提出了一种基于梯度提升的决策森林预测算法。该算法基于氨基酸序列的PSSM谱特征采用交叉熵损失函数的二阶泰勒近似作为优化目标,以决策树确定的映射函数作为优化参数,通过贪婪地在特征值上选取最佳分裂点来构造决策树。此外,为了防止过拟合,进一步在目标函数中引入了2L正则化项,以便控制模型的复杂度。在标准的CB513蛋白质二级结构评估数据集上,本文提出的算法达到了64.89%的8Q准确率。针对梯度提升决策森林算法运行速度慢的缺点,本文基于直方图思想提出了一种快速梯度提升的预测模型。该模型通过直方图的方法将样本特征离散化,对于大量的样本数据采用单边梯度技术对数据进行采样,并采用特征绑定技术对多维特征进行降维,实现了样本数量和特征两个维度的并行。通过大量的实验对影响模型性能的指标进行分析,实验结果表明,基于本文所提出的快速梯度提升算法对蛋白质的二级结构进行预测,在测试集上的8Q准确率达到了66.35%。另外,在同样的数据集上,相对于其他算法来比较,本文所提出的算法运行速度非常快,时间复杂度很小。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  •   1.1 研究背景和意义
  •   1.2 蛋白质二级结构预测的文献综述
  •   1.3 研究内容
  •   1.4 章节安排
  • 2 蛋白质二级结构和决策森林基础知识
  •   2.1 引言
  •   2.2 蛋白质相关知识
  •     2.2.1 蛋白质二级结构
  •     2.2.2 蛋白质数据库
  •     2.2.3 蛋白质特征提取方法
  •     2.2.4 蛋白质二级结构预测模型评价指标
  •   2.3 决策森林相关理论
  •     2.3.1 决策树
  •     2.3.2 决策森林
  •   2.4 本章小结
  • 3 基于梯度提升决策森林的蛋白质二级结构预测
  •   3.1 引言
  •   3.2 构建蛋白质二级结构数据集
  •     3.2.1 氨基酸编码
  •     3.2.2 基于滑动窗口构建数据集
  •   3.3 基于梯度提升决策森林算法的蛋白质二级结构预测
  •     3.3.1 梯度提升决策森林算法
  •     3.3.2 实验数据
  •     3.3.3 实验结果与分析
  •   3.4 本章小结
  • 4 基于快速梯度提升算法的蛋白质二级结构预测
  •   4.1 引言
  •   4.2 快速梯度提升算法
  •     4.2.1 算法原理
  •     4.2.2 基于单边梯度采样数据
  •     4.2.3 基于特征绑定降维
  •   4.3 基于快速梯度提升算法的蛋白质二级结构预测
  •     4.3.1 实验数据
  •     4.3.2 实验结果与分析
  •     4.3.3 两种算法对比
  •   4.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 文章来源

    类型: 硕士论文

    作者: 李艳萍

    导师: 杨伟

    关键词: 蛋白质二级结构预测,滑动窗口,梯度提升,决策森林

    来源: 河南大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 河南大学

    分类号: TP301.6;Q51

    总页数: 68

    文件大小: 3361K

    下载量: 143

    相关论文文献

    • [1].蛋白质二级结构指定[J]. 生物信息学 2016(03)
    • [2].蛋白质二级结构在线服务器预测评估[J]. 生物信息学 2019(01)
    • [3].表面增强拉曼光谱对于蛋白质二级结构的酰胺Ⅲ谱带表征(英文)[J]. Chinese Journal of Chemical Physics 2019(05)
    • [4].蛋白质二级结构预测的一种新的编码方式[J]. 工业控制计算机 2015(04)
    • [5].蛋白质二级结构预测的多核学习方法[J]. 计算机应用 2013(S1)
    • [6].蛋白质和变性蛋白质二级结构的FTIR分析进展[J]. 化学研究与应用 2012(08)
    • [7].基于遗传算法的蛋白质二级结构预测方法研究进展[J]. 农机化研究 2009(05)
    • [8].基于混合并行遗传算法的蛋白质二级结构预测[J]. 农机化研究 2009(06)
    • [9].不同贮藏条件对鸡蛋蛋白质二级结构的影响[J]. 黑龙江畜牧兽医 2019(02)
    • [10].蛋白质二级结构预测的一种新的编码方式[J]. 计算机工程与应用 2011(18)
    • [11].基于级联神经网络的蛋白质二级结构预测[J]. 计算机工程 2010(04)
    • [12].蛋白质二级结构预测的结构表达方法研究[J]. 河南师范大学学报(自然科学版) 2009(06)
    • [13].蛋白质二级结构预测方法研究[J]. 计算机工程与应用 2009(36)
    • [14].基于神经网络的蛋白质二级结构预测[J]. 济南大学学报(自然科学版) 2008(02)
    • [15].基于蛋白质二级结构序列的结构型预测[J]. 河北理工大学学报(自然科学版) 2008(03)
    • [16].蛋白质二级结构的二维红外相关光谱模拟研究[J]. 光散射学报 2013(04)
    • [17].蛋白质二级结构预测方法的评价[J]. 生物信息学 2010(03)
    • [18].基于深度学习的八类蛋白质二级结构预测算法[J]. 计算机应用 2017(05)
    • [19].傅里叶红外光谱法研究肌肉蛋白质的二级结构[J]. 食品与发酵工业 2015(10)
    • [20].蛋白质二级结构预测方法初探[J]. 生物技术世界 2014(11)
    • [21].杨树蛋白质二级结构的人工神经网络预测[J]. 西北林学院学报 2014(05)
    • [22].糟蛋减压加工过程中蛋黄蛋白质二级结构的变化研究[J]. 现代食品科技 2013(06)
    • [23].基于多模集成神经网络的蛋白质二级结构预测[J]. 四川理工学院学报(自然科学版) 2011(06)
    • [24].基于条件随机场进行蛋白质二级结构预测[J]. 计算机应用研究 2009(03)
    • [25].基于多度量学习方法的蛋白质二级结构预测[J]. 智能计算机与应用 2014(05)
    • [26].基于复合金字塔模型的蛋白质二级结构预测系统[J]. 科学通报 2009(21)
    • [27].基于红外光谱法的古代丝织品蛋白质二级结构变化分析[J]. 现代丝绸科学与技术 2011(05)
    • [28].网格中基于结构分类和位矩阵编码并行遗传算法的蛋白质二级结构预测[J]. 科学技术与工程 2008(05)
    • [29].储藏微环境对小麦蛋白质二级结构影响[J]. 粮食与油脂 2014(01)
    • [30].基于并行粒子群优化算法的蛋白质二级结构预测[J]. 周口师范学院学报 2014(05)

    标签:;  ;  ;  ;  

    基于决策森林的蛋白质二级结构预测算法研究
    下载Doc文档

    猜你喜欢