氨基酸的分布式表示方法及其在蛋白质序列分析中应用

氨基酸的分布式表示方法及其在蛋白质序列分析中应用

论文摘要

蛋白质是一切生命的物质基础,没有蛋白质就没有生命,更谈不上人类的繁衍生息,氨基酸是蛋白质的基本组成元素,蛋白质是由不同种类的氨基酸按照一定顺序排列而成,称为蛋白质序列。通过对蛋白质序列进行分析可以进一步了解蛋白质的空间结构。这对于分析蛋白质功能和药物设计等应用至关重要,因为蛋白质生物学功能很大程度上依赖于其空间结构,并且蛋白质的生化性质及其功能等都与蛋白质序列密切相关,所以蛋白质序列分析是蛋白质结构甚至是功能分析的前提和基础。蛋白质序列分析的首要步骤是对蛋白质序列进行编码,目前较为常用的编码方式有one-hot编码方式、PSSM谱编码、氨基酸向量编码。one-hot编码方式将氨基酸残基转变为正交向量,不考虑词与词之间的顺序并且假设向量之间相互独立,虽然计算简单,但是不能很好地表达出上下文之间的依赖性和单词之间顺序不同所带来的区别,利用多序列比对打分方式构建的PSSM谱编码克服了这一缺点,但是其算法的迭代性质使其对序列数据库中的偏差非常敏感。特别是,容易将重复序列错误地结合到中间谱中。将氨基酸序列通过Word2vec生成氨基酸向量的编码方式虽然没有重复序列错误,但是并不能表达出同源序列之间的相关性。针对以上编码方式的不同缺点,本文提出了一种嵌入向量的表示方法——基于多序列比对谱的k-mer氨基酸序列生成算法,利用蛋白质相似序列比对谱作为训练嵌入向量的输入,通过训练Word2vec得到每种氨基酸对应的向量,即为氨基酸的分布式向量。并且通过双向递归神经网络LSTM算法应用于蛋白质二级结构和水溶性预测。预测过程中将氨基酸的分布式向量作为输入向量,通过双向LSTM算法分别预测蛋白质的八类二级结构和水溶性。本文分别验证了用单个氨基酸和三个相连氨基酸生成分布式向量的预测效果,实验证明,本文提出的分布式表示方法应用在预测蛋白质二级结构在数据集CB513上达到了68.8%的预测精度,预测水溶性在SOLP数据集上达到了73.3%的预测精度。实验结果表明,在双向LSTM框架下,仅使用本文提出的基于多序列比对的氨基酸分布式向量表示作为模型输入,就达到或优于目前主流的蛋白质二级结构预测方法和蛋白质融水性预测方法。据研究证实,相似蛋白质序列的同源性较高且功能基本相同,相同功能的氨基酸序列的同位置的氨基酸往往相同或具有一定的相互替代性,并且将未知结构功能的蛋白质与相似已知结构功能的蛋白质进行序列对比可以推测其结构与功能,所以本文提出的嵌入向量是合理的。由于蛋白质相似序列之间的关联性较强,递归神经网络可以学习到长期依赖关系并且能够基于数据自适应地进行参数学习,因此本文预测效果较好。

论文目录

  • 摘要
  • abstract
  • 第1章 引言
  •   1.1 背景
  •   1.2 国内外研究现状
  •   1.3 论文内容安排
  • 第2章 相关方法介绍
  •   2.1 Word2vec
  •     2.1.1 基于Hierarchical Softmax的模型
  •     2.1.2 基于Negative Sampling的模型
  •   2.2 LSTM
  •   2.3 经典二级结构预测算法
  •     2.3.1 SC-GSN算法
  •     2.3.2 RaptorX-SS8算法
  •     2.3.3 SSpro8算法
  •     2.3.4 LSTM large算法
  • 第3章 基于多序列比对结果的氨基酸的分布式表示方法
  •   3.1 方法框架
  •   3.2 蛋白质数据准备及预处理
  •   3.3 蛋白质多序列比对
  •   3.4 基于多序列比对结果的氨基酸的分布式表示
  •   3.5 Word2vec生成氨基酸分布式向量
  • 第4章 氨基酸的分布式表示在蛋白质序列分析中的应用
  •   4.1 氨基酸的分布式表示在蛋白质二级结构预测中的应用
  •     4.1.1 方法主要框架
  •     4.1.2 数据及实验设置
  •     4.1.3 实验结果及分析
  •   4.2 氨基酸的分布式表示在蛋白质融水性预测中的应用
  •     4.2.1 方法主要框架
  •     4.2.2 数据及实验设置
  •     4.2.3 实验结果及分析
  •   4.3 本章小结
  • 第5章 结论
  • 参考文献
  • 作者简介及在学期间所获得的科研成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 何柳

    导师: 时小虎

    关键词: 蛋白质二级结构预测,蛋白质水溶性预测,氨基酸分布式表示方法,递归神经网络

    来源: 吉林大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 吉林大学

    分类号: TP391.1;Q51

    总页数: 57

    文件大小: 4575K

    下载量: 74

    相关论文文献

    • [1].蛋白质序列与蛋白质结构关系的研究[J]. 河南教育学院学报(自然科学版) 2017(04)
    • [2].基于小波分析的蛋白质序列分形研究[J]. 科技信息 2009(33)
    • [3].基于数据挖掘的蛋白质序列分析研究[J]. 信息技术与信息化 2017(06)
    • [4].利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J]. 工业微生物 2014(03)
    • [5].一种新的蛋白质序列二维图形表示方法及应用[J]. 绥化学院学报 2013(11)
    • [6].蛋白质序列基于k-字的数值刻画及应用[J]. 浙江农业学报 2014(06)
    • [7].蛋白质序列图形变换及其相似性聚类分析[J]. 生命科学研究 2018(03)
    • [8].粒计算理论下的进化树建模与应用探讨[J]. 白城师范学院学报 2019(10)
    • [9].蛋白质序列的矩阵图谱表达[J]. 生命科学研究 2011(02)
    • [10].对称蛋白质序列与结构关系研究[J]. 生命科学 2010(11)
    • [11].蛋白质序列的一类新的图形表示[J]. 黑龙江生态工程职业学院学报 2008(06)
    • [12].甲型流感病毒蛋白质序列的长记忆模型[J]. 江南大学学报(自然科学版) 2012(06)
    • [13].蛋白质序列的特征周期研究[J]. 生物物理学报 2008(02)
    • [14].基于功率谱的蛋白质序列特征提取新方法[J]. 食品与生物技术学报 2018(11)
    • [15].AI背景下蛋白质序列音乐研究[J]. 艺术教育 2019(06)
    • [16].基于矩阵图谱表达法的蛋白质序列的相似性分析[J]. 计算机工程与应用 2011(07)
    • [17].DNA和蛋白质序列数据分析工具(第三版)[J]. 新疆农业科学 2012(07)
    • [18].甲型流感病毒HA蛋白质序列的预测[J]. 食品与生物技术学报 2013(08)
    • [19].P53基因蛋白质序列的相似性及其聚类分析[J]. 计算机与应用化学 2013(09)
    • [20].蛋白质序列在频率域上的一种特征提取方法[J]. 南京工业大学学报(自然科学版) 2013(06)
    • [21].基于加权决策树的蛋白质序列分类算法研究[J]. 计算机与数字工程 2012(05)
    • [22].蛋白质序列的图形表示及相似性分析[J]. 浙江农业学报 2010(05)
    • [23].一种新的蛋白质结构类预测方法[J]. 生物信息学 2012(04)
    • [24].荣昌猪SLA-DQB基因β1结构域突变分析及蛋白质序列模式预测[J]. 畜牧兽医学报 2012(08)
    • [25].基于TIGA_S4VM改进算法的蛋白质序列识别方法[J]. 山东大学学报(工学版) 2014(01)
    • [26].基于密码子特征的蛋白质序列图形表示[J]. 浙江理工大学学报(自然科学版) 2018(04)
    • [27].不同特征描述下H1N1病毒血凝素蛋白序列的比较分析[J]. 生命科学研究 2016(02)
    • [28].基于一种新的伪氨酸组成预测蛋白质折叠速率[J]. 大连交通大学学报 2015(03)
    • [29].基于极限学习机的蛋白质相互作用预测[J]. 枣庄学院学报 2017(05)
    • [30].一种基于最优局部信息融合的蛋白质亚细胞定位预测方法[J]. 中山大学学报(自然科学版) 2008(06)

    标签:;  ;  ;  ;  

    氨基酸的分布式表示方法及其在蛋白质序列分析中应用
    下载Doc文档

    猜你喜欢