基于深度学习网络的剪接位点及蛋白质相互作用预测方法研究

基于深度学习网络的剪接位点及蛋白质相互作用预测方法研究

论文摘要

生物学中心法则包括DNA转录、RNA翻译和蛋白质表达。选择性剪接是转录后期的关键步骤,剪接过程的正确执行很大程度在于剪接位点的正确识别,它使得一种编码蛋白质的基因可以产生多种转录变体。因此,错误的剪接位点经常会导致各种疾病的发生。选择性剪接通过产生不同的剪接变体翻译成不同特定生物功能的蛋白产物,而蛋白质的变异或者某些蛋白质发生异常相互作用也同样会导致疾病甚至癌症的发生。鉴于剪接位点及蛋白质相互作用预测在生物领域的重要性,本论文着重基于深度学习技术来研究剪接位点和蛋白质相互作用这两个问题的预测方法,主要内容包括:1.剪接位点及剪接模式的探索对于理解基因转录过程非常重要。现有的计算方法在剪接位点预测问题上取得了较大成功,但是不可避免存在特征提取、模型可解释性差等缺点,由此本文提出基于深度卷积神经网络来预测剪接位点,该网络主要由剪接位点预测模块和揭示剪接位点序列模式的模型解释模块组成。和传统机器学习方法相比,剪接位点预测模块在六个不同公共供体/受体剪接位点数据源上取得了更精确的分类性能。此外,为了解释深度学习的识别过程,模型解释模块对卷积特征进行了可视化,展现了特征映射从底层到高层的抽象过程,相关下游分析主要包括:(1)motif识别;(2)卷积核分析;(3)剪接模式的探索。2.RNA经过选择性剪接事件后会产生不同的mRNA,这些mRNA将会被翻译成对应的蛋白质。我们知道,生物体内各种生命活动的执行主要依赖于蛋白质及其相互作用的正确执行。因此,蛋白质相互作用的研究不仅有助于探索生物体内各个生命过程的调节机制,更有助于促进相关药物的研发及疾病的控制。当前大量的蛋白质相互作用预测方法主要流程是依据蛋白质序列和结构信息提取特征、结合相关机器学习方法建立模型进行预测。然而,人为抽取的特征通常有许多缺陷,例如需要有非常专业的领域知识。更麻烦的是,所提取的特征在很多情况下并不能全面反映蛋白质本身所具有的性质,由此接下来依赖于手工提取特征的机器学习模型对蛋白质相互作用预测的准确性也不高。自然语言处理中的Word2vec能够对文档中的词语结合上下文进行描述,由此我们结合Word2vec模型以数据驱动的方式进行训练、自动获取高质量特征表示的优势和深度信念网络处理高维、大规模数据时自动提取特征的特点,设计基于Word2vec和深度信念网络的蛋白质相互作用预测方法。方法在酿酒酵母核心数据集、人类蛋白数据集以及五个独立数据集上的测试表明了使用Word2vec方法表示蛋白质残基、深度学习技术作用于蛋白质相互作用分类问题上的可行性。简言之,在剪接位点分类研究中,方法侧重利用卷积神经网络自动进行深度特征提取的能力,摒弃手动提取特征的弊端,结合深度卷积网络探讨了模型背后的剪接位点识别机制,弥补了机器学习中模型解释相对薄弱的缺陷。而在蛋白质相互作用预测研究中,则是在Swiss-prot数据库上训练Word2vec模型来捕获蛋白质序列中的内在关系,展示了一种新型的将残基表示成低维稠密向量的表示方法,并结合深度信念网络用于蛋白质相互作用预测。

论文目录

  • 摘要
  • Abatract
  • 第一章 绪论
  •   1.1 研究背景及意义
  •   1.2 国内外研究现状
  •   1.3 本文主要研究内容
  •   1.4 论文安排
  • 第二章 相关工作的基础知识
  •   2.1 剪接位点
  •   2.2 蛋白质相互作用
  •   2.3 相关算法
  •     2.3.1 深度信念网络
  •     2.3.2 卷积神经网络
  •   2.4 Word2vec简介
  •   2.5 本章小结
  • 第三章 基于深度卷积神经网络的剪接位点预测
  •   3.1 数据集
  •   3.2 DeepSS框架
  •   3.3 One-hot编码
  •   3.4 评价指标
  •   3.5 实验结果及分析
  •     3.5.1 模型深度分析
  •     3.5.2 DeepSS-C实验结果
  •     3.5.3 与现有方法的比较
  •     3.5.4 不同样本长度的预测结果
  •     3.5.5 DeepSS-M模型解释
  •   3.6 本章小结
  • 第四章 基于Word2vec与深度信念网络的蛋白质相互作用预测
  •   4.1 数据集
  •   4.2 DeepFE-PPI框架
  •   4.3 实验结果及分析
  •     4.3.1 超参数选择
  •     4.3.2 实验结果分析
  •     4.3.3 残基表示与可视化
  •   4.4 本章小结
  • 第五章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 附录A 图索引
  • Appendix A Figure Index
  • 附录B 表格索引
  • Appendix B Table Index
  • 致谢
  • 攻读学位期间发表的学术论文及参与科研项目
  • 文章来源

    类型: 硕士论文

    作者: 姚雨

    导师: 杜秀全

    关键词: 剪接位点,蛋白质相互作用,深度学习

    来源: 安徽大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 安徽大学

    分类号: Q51;TP181

    总页数: 82

    文件大小: 5540K

    下载量: 105

    相关论文文献

    • [1].基于卷积神经网络的基因剪接位点预测[J]. 盐城工学院学报(自然科学版) 2020(02)
    • [2].果蝇非经典剪接位点的生物信息学预测[J]. 生物技术通讯 2010(06)
    • [3].基于模糊支持向量机的剪接位点识别[J]. 计算机应用 2011(04)
    • [4].改进的基于支持向量机模型剪接位点的预测[J]. 宜宾学院学报 2014(12)
    • [5].一种新的真核基因剪接位点识别方法[J]. 电子学报 2011(05)
    • [6].基于统计差表与加权投票的高精度剪接位点预测[J]. 生物化学与生物物理进展 2019(05)
    • [7].利用多样性增量位置得分函数预测人类5'非翻译区剪接位点[J]. 内蒙古工业大学学报(自然科学版) 2009(04)
    • [8].基于深度卷积神经网络识别可变剪接位点[J]. 基因组学与应用生物学 2019(11)
    • [9].预测竞争性和非竞争性剪接位点对(英文)[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [10].使用估计的反应自由能预测组成性和可变剪接位点[J]. 生物物理学报 2009(01)
    • [11].Alu中剪接位点的研究[J]. 生物信息学 2008(01)
    • [12].基于神经网络预测的SNP信息的剪接点识别算法研究[J]. 计算机工程与科学 2016(05)
    • [13].一种基于概率统计特征的剪接位点识别方法[J]. 计算机工程与应用 2011(31)
    • [14].KL距离的变长马尔可夫模型识别人类剪接位点[J]. 生物物理学报 2011(08)
    • [15].人类基因组中可变和组成性剪接位点的预测[J]. 生物化学与生物物理进展 2008(10)
    • [16].基于剪接信号和调节元件序列特征的剪接位点预测方法[J]. 科学通报 2008(19)
    • [17].一种基于综合信息的剪接位点识别方法[J]. 华中科技大学学报(自然科学版) 2011(03)
    • [18].老鼠基因组盒式外显子和内含子保留型可变剪接位点预测[J]. 内蒙古大学学报(自然科学版) 2009(05)
    • [19].基于快速傅里叶变换的剪接特征提取[J]. 北京理工大学学报 2014(02)
    • [20].CD45分子选择性剪接亚型的功能和调节[J]. 解剖学研究 2014(05)
    • [21].一种新的非翻译区剪接位点识别方法[J]. 生命科学研究 2012(01)
    • [22].Kartagener综合征DNAI1、DNAH5基因研究[J]. 中国实用儿科杂志 2008(12)
    • [23].甘油磷酸二酯酶家族蛋白的分子进化[J]. 基因组学与应用生物学 2015(01)
    • [24].多尺度组分特征和位点关联特征相融合的剪接位点识别[J]. 计算机工程与应用 2014(10)
    • [25].牙本质生长不全Ⅱ型家系DSPP基因内含子2的mRNA剪接位点新的缺失突变[J]. 临床检验杂志 2009(02)

    标签:;  ;  ;  

    基于深度学习网络的剪接位点及蛋白质相互作用预测方法研究
    下载Doc文档

    猜你喜欢