基于卷积神经网络的RNA二级结构预测方法研究

基于卷积神经网络的RNA二级结构预测方法研究

论文摘要

近年来,探知RNA二级结构一直是RNA研究领域的重要和难点问题。目前虽然部分RNA的二级结构可以通过实验手段获取,但在大多数情况下仍然需要采用计算机预测方法来预测RNA二级结构预测。当前RNA二级结构的预测方法主要是基于最小自由能的动态规划类算法,通过迭代的方式找到满足能量最小或其他限制条件的RNA体内折叠最佳状态来预测RNA结构。但是由于生物体内环境的复杂性使得RNA的真实结构并不能满足能量最小的最佳折叠状态,而是一种基于生物势能平衡状态。对于序列较短的RNA,折叠生物势能平衡状态接近最小自由能状态,最小自由能的算法可以获得较高的准确率。然而对于较长的RNA序列,其结构复杂,在体内生物环境中存在反复折叠导致其生物势能平衡状态远远偏离最小自由能状态,使得使用基于传统能量方法预测精度严重下降,无法准确预测RNA二级结构。深度学习方法是一种常见的表示学习方法,能够自动的从数据中挖掘出有效分类的隐藏特征。本文基于深度学习和现有真实RNA二级结构数据,提出一种应用卷积神经网络模型结合动态规划算法的新型RNA二级结构预测方法CDPfold。该方法基于现有实验已经得出的真实RNA结构数据,构建深度卷积网络模型,从大规模RNA序列数据及其结构数据中挖掘有效分类的隐含特征,并以此为依据预测出每一个碱基的配对概率。对于得到的概率结果,应用动态规划的计算思想,得到满足RNA二级结构定义且各个碱基的匹配概率之和最大的RNA二级结构作为预测的最终结果。本文通过对已知结构的RNA进行编码,应用卷积神经网络对RNA序列上的每个碱基配对情况进行预测,最后应用动态规划方法对预测结果进行组合,可以得到预测出的RNA最优二级结构。实验结果表明,CDPfold在5sRNA、tRNA和srpRNA这3个RNA家族的预测上,相较于其他常见的RNA二级结构预测算法,其敏感性和特异性均提高了30%左右。另外由于深度学习方法的性能与数据量的大小直接相关。由此可以推测出随着经过生物实验验证的真实RNA结构数据的不断增加,应用本文所提出的方法对各类RNA家族的预测精度也会不断的提高。

论文目录

  • 摘要
  • abstract
  • 第1章 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外研究现状
  •   1.3 论文结构安排
  • 第2章 RNA二级结构概述
  •   2.1 RNA物理结构
  •   2.2 RNA二级结构构件
  •   2.3 RNA二级结构表示方法
  •   2.4 本章小结
  • 第3章 传统RNA二级结构预测方法
  •   3.1 动态规划方法
  •     3.1.1 最大碱基配对算法
  •     3.1.2 最小自由能算法
  •   3.2 比较序列分析
  •   3.3 常用软件的比较
  •   3.4 本章小结
  • 第4章 基于深度学习的RNA二级结构预测方法
  •   4.1 深度学习概述
  •   4.2 基于CNN的 RNA二级结构预测
  •   4.3 本章小结
  • 第5章 CDPfold方法预测RNA二级结构
  •   5.1 CDPfold对单一家族RNA二级结构预测
  •     5.1.1 数据的收集与预处理
  •     5.1.2 模型参数的确定
  •     5.1.3 预测结果修正与比较
  •   5.2 CDPfold对多个家族RNA二级结构预测
  •     5.2.1 数据预处理
  •     5.2.2 模型参数的确定
  •     5.2.3 预测结果及对比
  •   5.3 本章小结
  • 第6章 总结与展望
  • 参考文献
  • 作者简介及在学期间所取得的科研成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 张春鹤

    导师: 张浩

    关键词: 二级结构,碱基配对概率,卷积神经网络,动态规划算法

    来源: 吉林大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 吉林大学

    分类号: TP183;Q522

    总页数: 59

    文件大小: 3107K

    下载量: 117

    相关论文文献

    • [1].RNA二级结构数据库[J]. 中国生物化学与分子生物学报 2017(08)
    • [2].RNA二级结构及其在系统发育学中的应用[J]. 教育教学论坛 2017(50)
    • [3].长非编码RNA与SAFB1相互作用中RNA二级结构的作用[J]. 四川大学学报(自然科学版) 2019(04)
    • [4].多目标遗传算法的含假结RNA二级结构预测[J]. 生物信息学 2017(03)
    • [5].一种自适应序列长度的RNA二级结构深度预测方法[J]. 小型微型计算机系统 2019(08)
    • [6].RNA假结结构分析[J]. 吉林大学学报(工学版) 2009(S1)
    • [7].利用量子遗传算法实现RNA二级结构预测[J]. 西安电子科技大学学报 2018(04)
    • [8].生物序列比较的几种数学方法及其应用[J]. 渤海大学学报(自然科学版) 2013(01)
    • [9].菜粉蝶线粒体基因组的全序列测定和分析[J]. 昆虫学报 2010(11)
    • [10].基于词条提取云模型的RNA二级结构预测(英文)[J]. Agricultural Science & Technology 2012(04)
    • [11].IC-kmedoids:适用于RNA二级结构预测的聚类算法[J]. 生物医学工程学杂志 2015(01)
    • [12].翻译延伸的顺式调控机理与生物学效应[J]. 遗传 2020(07)
    • [13].云斑车蝗线粒体基因组全序列测定与分析[J]. 昆虫学报 2008(07)
    • [14].RNA二级结构预测SVMs模型研究[J]. 深圳大学学报(理工版) 2008(04)
    • [15].基于局部结构交互的RNA假结预测[J]. 吉林大学学报(工学版) 2015(02)
    • [16].基于遗传模拟退火混合算法的RNA二级结构预测[J]. 软件导刊 2016(06)
    • [17].RNA二级结构预测的自适应鱼群算法模型[J]. 系统仿真学报 2010(06)
    • [18].动物编码和非编码RNAA至I编辑研究进展[J]. 生命科学 2016(05)
    • [19].质心法:受类别驱动的RNA二级结构预测方法[J]. 南京大学学报(自然科学版) 2009(05)
    • [20].基于支持向量机分类的RNA共同二级结构预测[J]. 生物工程学报 2008(07)
    • [21].遗传算法在RNA二级结构预测中的应用[J]. 安徽农业科学 2010(24)
    • [22].计算机在流感病毒(Influenza RNA)结构分析领域的应用[J]. 中国新技术新产品 2009(24)

    标签:;  ;  ;  ;  

    基于卷积神经网络的RNA二级结构预测方法研究
    下载Doc文档

    猜你喜欢