基于深度学习的农作物基因剪接位点识别研究

基于深度学习的农作物基因剪接位点识别研究

论文摘要

准确的识别基因剪接位点对于理解以及控制基因性状的表达具有十分重要的意义。本文基于拟南芥、水稻、玉米三类农作物基因剪接位点数据集,结合卷积神经网络与递归神经网络设计了一种深度学习网络模型DeepAS(CNN+GRU+LSTM)。并根据DeepAS模型开发了农作物基因剪接位点识别系统,目的是能够实现快速准确的识别农作物基因剪接位点,从而方便研究者的使用,加快科研工作的效率。主要研究内容如下:1、基于拟南芥、水稻、玉米三种原始农作物的基因数据提取基因剪接位点数据集,并分别制作基因剪接位点模型训练集。2、基于Tensorflow+Keras深度学习框架提出了一种农作物基因剪接位点识别模型,设计了51种不同的模型结构用于训练并测试三种农作物基因剪接位点数据集以及他们的混合数据集,挑选出在每种数据集上识别准确率最高的网络模型,命名为DeepAS,并保存其模型与权重。实验表明DeepAS网络模型在用于识别农作物基因剪接位点时具有很好的准确率与泛化能力,在农作物混合基因数据集上识别准确率为97.09%,精确率为96.88%,召回率为0.9692,F1Score为96.90%,结果优于传统的机器学习模型与本文对比的其他研究者的深度学习模型。3、进一步对剪接位点序列的特征进行研究,使用特殊的非剪接位点数据集进行验证,在去除GT-AG法则这一主要特征的情况下,识别的准确率依旧保持在96%以上,这证明了学习到的特征不只是GT-AG法则,而是综合复杂的,在另一方面也证明了DeepAS模型具有很好的稳定性与泛化能力。此外,在二分类模型基础上设计了可以识别受体剪接位点、供体剪接位点、非剪接位点的三分类模型,并且在混合三种农作物的基因剪接位点数据集上进行了测试,准确率为85.91%,填补了三分类识别问题的空缺。4、基于设计的DeepAS模型开发了农作物基因剪接位点识别系统,系统可以根据用户选择的不同数据匹配相应的模型,在输入或上传数据并提交后可以实时反馈识别结果,系统网址为http://www.deepbiology.cn/DeepAS/。

论文目录

  • 中文摘要
  • abstract
  • 1 绪论
  •   1.1 课题背景及意义
  •   1.2 国内外研究现状
  •   1.3 研究内容与方法
  • 2 基础理论知识介绍
  •   2.1 基因剪接位点基本理论
  •     2.1.1 基因概述
  •     2.1.2 基因结构
  •     2.1.3 基因表达与剪接位点
  •   2.2 深度学习常用方法
  •     2.2.1 感知机
  •     2.2.2 BP神经网络
  •     2.2.3 卷积神经网络
  •       2.2.3.1 卷积层
  •       2.2.3.2 池化层
  •       2.2.3.3 Dropout层
  •       2.2.3.4 平坦层
  •       2.2.3.5 全连接层
  •     2.2.4 递归神经网络
  •       2.2.4.1 LSTM
  •       2.2.4.2 GRU
  •   2.3 小结
  • 3 农作物基因剪接位点数据挖掘与预处理
  •   3.1 农作物原始基因数据
  •   3.2 基因剪接位点数据集挖掘与处理
  •     3.2.1 数据挖掘设计
  •     3.2.2 数据挖掘实现
  •     3.2.3 目标数据集介绍
  •   3.3 训练数据集预处理
  •     3.3.1 独热编码
  •     3.3.2 去除杂质项
  •     3.3.3 结构转换
  •     3.3.4 数据标签构建
  •   3.4 小结
  • 4 网络模型设计与实现
  •   4.1 网络模型组合设计
  •   4.2 深度学习框架和配置环境
  •   4.3 参数设置与数据分配
  •   4.4 模型训练问题优化
  •     4.4.1 拟合问题的解决
  •     4.4.2 加入回调函数
  •     4.4.3 GPU加速
  •   4.5 训练测试结果分析
  •     4.5.1 基于单一数据集训练测试结果对比
  •     4.5.2 基于混合数据集训练测试结果
  •     4.5.3 模型评估
  •     4.5.4 对比分析
  •   4.6 小结
  • 5 特征问题研究与三分类模型
  •   5.1剪接位点特征分析实验
  •     5.1.1 “特殊”非剪接位点数据集
  •     5.1.2 实验结果与分析
  •   5.2 三分类模型
  •     5.2.1 二分类模型与三分类模型比对
  •     5.2.2 模型训练结果
  •   5.3 小结
  • 6 剪接位点识别系统开发与实现
  •   6.1 系统开发
  •   6.2 系统实现
  • 7 结论与展望
  •   7.1 研究结论
  •   7.2 研究展望
  • 参考文献
  • 致谢
  • 攻读学位期间取得的科研成果
  • 文章来源

    类型: 硕士论文

    作者: 李瑞

    导师: 孙晓勇

    关键词: 深度学习,基因剪接位点识别,卷积神经网络,递归神经网络

    来源: 山东农业大学

    年度: 2019

    分类: 基础科学,农业科技,信息科技

    专业: 生物学,农业基础科学,自动化技术

    单位: 山东农业大学

    分类号: TP18;S188

    总页数: 77

    文件大小: 5973K

    下载量: 54

    相关论文文献

    • [1].基于卷积神经网络的基因剪接位点预测[J]. 盐城工学院学报(自然科学版) 2020(02)
    • [2].果蝇非经典剪接位点的生物信息学预测[J]. 生物技术通讯 2010(06)
    • [3].基于模糊支持向量机的剪接位点识别[J]. 计算机应用 2011(04)
    • [4].改进的基于支持向量机模型剪接位点的预测[J]. 宜宾学院学报 2014(12)
    • [5].一种新的真核基因剪接位点识别方法[J]. 电子学报 2011(05)
    • [6].基于统计差表与加权投票的高精度剪接位点预测[J]. 生物化学与生物物理进展 2019(05)
    • [7].利用多样性增量位置得分函数预测人类5'非翻译区剪接位点[J]. 内蒙古工业大学学报(自然科学版) 2009(04)
    • [8].基于深度卷积神经网络识别可变剪接位点[J]. 基因组学与应用生物学 2019(11)
    • [9].预测竞争性和非竞争性剪接位点对(英文)[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [10].使用估计的反应自由能预测组成性和可变剪接位点[J]. 生物物理学报 2009(01)
    • [11].Alu中剪接位点的研究[J]. 生物信息学 2008(01)
    • [12].基于神经网络预测的SNP信息的剪接点识别算法研究[J]. 计算机工程与科学 2016(05)
    • [13].一种基于概率统计特征的剪接位点识别方法[J]. 计算机工程与应用 2011(31)
    • [14].KL距离的变长马尔可夫模型识别人类剪接位点[J]. 生物物理学报 2011(08)
    • [15].人类基因组中可变和组成性剪接位点的预测[J]. 生物化学与生物物理进展 2008(10)
    • [16].基于剪接信号和调节元件序列特征的剪接位点预测方法[J]. 科学通报 2008(19)
    • [17].一种基于综合信息的剪接位点识别方法[J]. 华中科技大学学报(自然科学版) 2011(03)
    • [18].老鼠基因组盒式外显子和内含子保留型可变剪接位点预测[J]. 内蒙古大学学报(自然科学版) 2009(05)
    • [19].基于快速傅里叶变换的剪接特征提取[J]. 北京理工大学学报 2014(02)
    • [20].CD45分子选择性剪接亚型的功能和调节[J]. 解剖学研究 2014(05)
    • [21].一种新的非翻译区剪接位点识别方法[J]. 生命科学研究 2012(01)
    • [22].Kartagener综合征DNAI1、DNAH5基因研究[J]. 中国实用儿科杂志 2008(12)
    • [23].甘油磷酸二酯酶家族蛋白的分子进化[J]. 基因组学与应用生物学 2015(01)
    • [24].多尺度组分特征和位点关联特征相融合的剪接位点识别[J]. 计算机工程与应用 2014(10)
    • [25].牙本质生长不全Ⅱ型家系DSPP基因内含子2的mRNA剪接位点新的缺失突变[J]. 临床检验杂志 2009(02)

    标签:;  ;  ;  ;  

    基于深度学习的农作物基因剪接位点识别研究
    下载Doc文档

    猜你喜欢