基于序列信息的蛋白质折叠识别研究

基于序列信息的蛋白质折叠识别研究

论文摘要

随着分子生物学的深入研究,各种类型的生物数据也在呈指数增长。然而,受到人力、物力以及当前技术水平的限制,蛋白质的结构和功能信息增长缓慢。蛋白质的折叠模式的预测是蛋白质结构和功能预测的关键环节,传统的生物实验方法虽然能准确预测出蛋白质的折叠模式,但是耗时长且成本高。因此利用已有的大量蛋白质的序列信息,结合机器学习方法进行研究变得十分必要。本文利用蛋白质的序列信息、遗传信息以及层次信息,结合多种机器学习分类算法对蛋白质的折叠模式的预测进行了深入的探索和研究,具体研究内容如下:蛋白质的分类是层级结构的,针对现有方法较少利用到蛋白质层次化信息的问题,本文提出使用结构化支持向量机来将蛋白质层次化信息加入到分类过程中。本文选择了三种领域内常用的特征进行对比实验:ACC-PSSM、RPSSM、MEDP。对比实验结果显示,在采用结构化支持向量机后,相较于普通支持向量机,识别的准确率提升了2.7%-6.4%。采用简单的加和策略将三种特征集成后,准确率达到69.0%。验证了层次化信息在蛋白质折叠识别中的有效性。特征提取是解决蛋白质折叠识别问题的关键,基于位置特异性矩阵的自协方差(ACC-PSSM)的特征提取方法在蛋白质折叠识别领域被非常多的分类方法采用,它的性能也是众多特征里面比较好的一个。为了让ACC-PSSM能包含更多的蛋白质信息,本文提出了3种优化方案来对ACC-PSSM特征进行优化:ACC-PSSMpro-plus、ACC-PSSMpro-multiply、ACC-PSSMpro-acc,原理是改变计算PSSM值的公式以扩展PSSM。为了在分类中利用更多的有效信息,本文提出了选择最优子方法的优化策略:将折叠识别多分类问题分解为二分类问题,并为每一个二分类器选择最优的一个子分类器,将ACC-PSSM、ACC-PSSMpro-plus、ACC-PSSMpro-multiply、ACC-PSSMpro-acc、DP、DR、TOP2GRAM等七种特征融合,发挥它们各自的优势,最终使准确率达到78.3%,优于所有的单一特征的分类器。针对人工提取特征可能会遗漏某些蛋白质的重要信息的问题,利用深度学习能够自动学习特征的特点,本文提出了用卷积神经网络进行特征提取的方法:用样本量较大的经过去冗余的SCOP1.75数据集训练卷积神经网络,以蛋白质长度间隔划分mini-batch,选择小批量梯度下降法进行优化。训练好卷积神经网络后,将其用于DD数据集的特征提取,结合前面的特征以及基于选择最优子方法的优化策略,得到一个新的集成分类器。实验结果显示,新的集成分类器准确率达到79.4%,提升了1.1%,验证了卷积神经网络提取特征的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题背景
  •   1.2 研究目的及意义
  •   1.3 国内外相关技术发展现状
  •     1.3.1 基于模板的识别方法
  •     1.3.2 基于机器学习的方法
  •   1.4 本文的主要研究内容和内容安排
  •     1.4.1 主要研究内容
  •     1.4.2 本文内容安排
  • 第2章 基于层次化分类的折叠识别研究
  •   2.1 引言
  •   2.2 数据介绍
  •   2.3 层次化分类方法
  •     2.3.1 蛋白质层次结构介绍
  •     2.3.2 结构化支持向量机
  •     2.3.3 特征函数构造
  •     2.3.4 特征提取
  •     2.3.5 基于层次化分类的集成方法
  •     2.3.6 实验结果和分析
  •   2.4 本章小结
  • 第3章 基于最优子方法的折叠识别研究
  •   3.1 引言
  •   3.2 ACC-PSSM算法改进
  •     3.2.2 ACC-PSSM算法
  •     3.2.3 ACC-PSSM改进算法
  •     3.2.4 分类算法
  •     3.2.5 ACC-PSSM改进算法实验结果与分析
  •   3.3 基于选择最优子方法的优化策略
  •     3.3.1 基于选择最优子方法的优化策略
  •     3.3.2 基于选择最优子方法的优化策略实验结果与分析
  •     3.3.3 混合不同分类算法的再优化
  •     3.3.4 实验结果与分析
  •   3.4 本章小结
  • 第4章 基于卷积神经网络的方法
  •   4.1 引言
  •   4.2 基准数据集的构建
  •   4.3 基于卷积神经网络的特征提取方法
  •     4.3.1 特征表示
  •     4.3.2 卷积神经网络
  •     4.3.3 网络结构
  •     4.3.4 小批量梯度下降法
  •     4.3.5 特征提取
  •     4.3.6 模型实现
  •   4.4 基于传统方法和深度学习的特征提取
  •   4.5 实验结果与分析
  •   4.6 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 钟宇泓

    导师: 刘滨

    关键词: 蛋白质折叠识别,最优子方法,层次化分类,卷积神经网络

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 哈尔滨工业大学

    分类号: Q51;TP181

    DOI: 10.27061/d.cnki.ghgdu.2019.001980

    总页数: 54

    文件大小: 2010K

    下载量: 96

    相关论文文献

    • [1].酿酒酵母基因组蛋白质折叠速率和寿命的关系分析[J]. 内蒙古工业大学学报(自然科学版) 2019(06)
    • [2].不同类氨基酸的使用度对蛋白质折叠速率的影响[J]. 内蒙古师范大学学报(自然科学汉文版) 2018(03)
    • [3].蛋白质折叠识别方法综述(英文)[J]. 生物信息学 2015(04)
    • [4].α类蛋白质折叠类型自动化分类研究[J]. 生命科学研究 2016(05)
    • [5].α/β类蛋白质折叠类型的分类方法研究[J]. 生物信息学 2014(02)
    • [6].模拟蛋白质折叠过程的新算法研究[J]. 生物信息学 2011(02)
    • [7].基于云计算的蛋白质折叠模拟计算[J]. 基因组学与应用生物学 2019(06)
    • [8].蛋白质折叠的计算机模拟研究进展[J]. 北京工业大学学报 2017(12)
    • [9].mRNA序列中回文密度对蛋白质折叠速率的影响[J]. 内蒙古师范大学学报(自然科学汉文版) 2016(03)
    • [10].神经网络在蛋白质折叠预测中的应用[J]. 科技创业月刊 2011(04)
    • [11].朗之万方程及其在蛋白质折叠动力学中的应用[J]. 物理学报 2011(06)
    • [12].复杂网络在蛋白质折叠中的应用[J]. 德州学院学报 2008(02)
    • [13].面向云环境的蛋白质折叠模拟计算并行化算法[J]. 科学技术与工程 2018(05)
    • [14].蛋白质折叠速率预测模型的鲁棒性分析[J]. 内蒙古工业大学学报(自然科学版) 2018(01)
    • [15].基于序列特征组合与核非线性回归预测蛋白质折叠速率[J]. 大连交通大学学报 2017(04)
    • [16].从量子跃迁观点对蛋白质折叠速率的统计分析[J]. 中国科学:生命科学 2015(01)
    • [17].mRNA的二级结构对蛋白质折叠速率的影响[J]. 生物物理学报 2014(07)
    • [18].蛋白质折叠速率数据集的构建及分析[J]. 生物物理学报 2012(06)
    • [19].蛋白质折叠类型的分类建模与识别[J]. 物理化学学报 2009(12)
    • [20].基于相关向量机的多类蛋白质折叠识别[J]. 武汉大学学报(理学版) 2008(03)
    • [21].蛋白质折叠,突破癌症的关键密码 电源分布式运算满载横向测试[J]. 电脑爱好者 2010(02)
    • [22].极限学习机优化方法在蛋白质折叠类型识别中的应用[J]. 科学技术与工程 2013(11)
    • [23].同义密码子的使用偏好性对蛋白质折叠速率的影响[J]. 生物物理学报 2013(08)
    • [24].基于打分矩阵的多类蛋白质折叠子的预测[J]. 生物信息学 2011(01)
    • [25].27类蛋白质折叠子的识别及其位点的统计分析[J]. 内蒙古工业大学学报(自然科学版) 2010(01)
    • [26].70种蛋白质折叠类型的单模型识别[J]. 生物物理学报 2009(S1)
    • [27].利用隐马尔科夫模型识别蛋白质折叠类型[J]. 北京工业大学学报 2011(07)
    • [28].蛋白质折叠的不可逆热力学理论与能级相图理论[J]. 生命的化学 2010(03)
    • [29].动力学接触序:基于量子跃迁的蛋白质折叠速率参数[J]. 中国科学:生命科学 2010(09)
    • [30].玩物丧志? 你思维里的墙该拆掉了[J]. 作文与考试 2019(29)

    标签:;  ;  ;  ;  

    基于序列信息的蛋白质折叠识别研究
    下载Doc文档

    猜你喜欢