基于隐马尔可夫模型的蛋白质多序列比对方法研究

基于隐马尔可夫模型的蛋白质多序列比对方法研究

论文摘要

生物序列的相似性意味着生物功能的相似性,它反映了序列与共同祖先的基因差异性。对生物序列进行分析时,一般通过比对来发现它们的相似性,即将不同序列间的同源位置组织成列。多序列比对是生物学中使用最广泛的建模方法之一,能够帮助生物学家区分出序列中的相关区域,这些区域的识别对于蛋白质二级结构预测、系统发生树重建和通过蛋白质域谱比较进行功能推断等分析具有重要意义。由于多序列比对问题是一个NP问题,因此它不能使用标准的动态规划算法得到理论上的最优解。对于该问题的研究,渐进式多序列比对是应用最为广泛的一类近似算法,该类算法首先通过序列之间的两两比对确定距离矩阵,然后根据距离矩阵确定一棵指导树,最后根据指导树中进化距离的大小渐进地构建多序列比对,得到比对结果。并对比对结果进行多次迭代精化,得到较优的比对结果。总而言之,这类近似算法通过对序列或序列谱渐进地进行两两比对,将多序列比对问题转变为逐次的双序列比对问题,从而找到问题的近似解。针对现有的多序列比对方法研究中存在的问题,本文对多序列比对方法中残基的替换计分、指导树的构建和比对结果的重比对精化等多个方面进行了研究。本文的主要研究内容包括以下几个方面:(1)针对固定替换计分方法不能准确反映残基配对的位点特异性与序列间一致性,因此同源性较低的蛋白质家族比对准确性较差的问题,本文提出了一种基于隐马尔可夫模型优化和模型组合的残基替换计分方法。残基配对的概率作为双序列比对动态规划中的替换计分,在整个比对过程中非常重要。在以往有些研究中使用优化算法如粒子群算法、遗传算法等来优化多序列比对的隐马尔可夫模型,也有研究采用组合隐马尔可夫模型与其它概率模型如配分函数来计算后验概率。但目前还没有研究组合使用优化算法优化的隐马尔可夫模型和配分函数的方法来计算后验概率。本文提出的方法将二者进行了结合,并与其它多种同类方法进行了比较,实验结果表明,使用该方法计算的残基配对后验概率作为替换计分,能够有效提升序列比对的准确性,尤其是在同源性较低的蛋白质家族上。(2)针对目前多序列比对算法均采用固定的指导树构建方法,不能准确反应具有不同同一度的蛋白质序列间的关系,本文提出了一种自适应的指导树构建方法。对于不同同一度的蛋白质家族,采用相应隐马尔可夫模型构建其指导树。由于在渐进式的多序列比对过程中,前期的错误配对将会一直保留,从而会影响后续的比对过程。因此,比对的顺序十分重要。现有的算法采用固定的指导树构建方法,不能针对性地反映蛋白质序列间的关系。本文提出了自适应的指导树构建方法,根据同一度的差异,采用相应模型构建指导树。实验结果表明,使用此方法构建的指导树,能够提高多序列比对的准确性,尤其是在同一度较低的蛋白质家族上。(3)针对目前具有较长氨基/羧基末端延伸的蛋白质家族,横向划分的重比对精化方法不能排除长侧翼干扰,比对准确性较差的问题,本文提出了一种基于纵向划分的重比对精化方法。目前的多序列比对算法在重比对精化过程中,均将序列重新分组或定序,然后进行重比对。这些方法对比对结果进行了横向划分,考虑了序列之间的相似关系,但并没有考虑比对结果上区域保守性不同的问题。本文提出了一种基于纵向划分的重比对精化方法。实验结果表明,使用此方法进行重比对精化,能够提高多序列比对的准确性,尤其是在具有较长氨基/羧基末端延伸的蛋白质家族上。(4)基于以上对渐进多序列比对方法多个关键步骤的研究,本文提出了一种集成融合的多序列比对方法。根据蛋白质家族同一度的不同,采取相应的模型构建指导树;在其中同一度较低的家族上,使用组合粒子群优化的隐马尔可夫模型与配分函数来计算后验概率,在同一度中等与较高的家族上,则分别使用局部与全局隐马尔可夫模型;并且对生成的比对结果采用基于纵向划分的方法进行重比对精化。将该集成融合的方法与其它多种同类方法在三个基准数据集上进行比较,实验结果表明,该集成融合的方法可以全面提升序列比对的准确性,为下游的生物学分析提供更坚实的基础。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题背景及研究的目的和意义
  •     1.1.1 研究背景
  •     1.1.2 研究的目的和意义
  •   1.2 相关背景知识
  •     1.2.1 生物大分子序列
  •     1.2.2 遗传信息的传递
  •     1.2.3 蛋白质序列相关概念
  •   1.3 多序列比对研究现状
  •     1.3.1 多序列比对概述
  •     1.3.2 渐进多序列比对方法
  •     1.3.3 序列比对替换计分方法
  •     1.3.4 多序列比对指导树构建方法
  •     1.3.5 多序列比对结果重比对精化方法
  •   1.4 存在的主要问题
  •   1.5 本文的主要研究内容
  • 第2章 基于隐马尔可夫模型优化与模型组合的蛋白质多序列比对替换计分方法
  •   2.1 引言
  •   2.2 基于隐马尔可夫模型优化与模型组合的替换计分方法设计
  •     2.2.1 基于隐马尔可夫模型优化与模型组合的后验概率计算
  •     2.2.2 指导树构建
  •     2.2.3 概率一致性变换
  •     2.2.4 渐进比对
  •   2.3 实验结果与分析
  •     2.3.1 实验数据描述
  •     2.3.2 比对结果准确度分析
  •     2.3.3 应用于系统发生树构建的实验结果及分析
  •   2.4 本章小结
  • 第3章 基于隐马尔可夫模型的蛋白质多序列比对自适应指导树构建方法
  •   3.1 引言
  •   3.2 基于隐马尔可夫模型的自适应指导树构建方法设计
  •     3.2.1 蛋白质序列集同一度计算
  •     3.2.2 高同一度序列集指导树构建
  •     3.2.3 中同一度序列集指导树构建
  •     3.2.4 低同一度序列集指导树构建
  •     3.2.5 由自适应指导树构建多序列比对
  •   3.3 实验结果与分析
  •     3.3.1 自适应指导树与随机指导树的比对结果比较
  •     3.3.2 自适应指导树与参考指导树的比对结果比较
  •     3.3.3 自适应指导树替换其他比对方法指导树的比对结果比较
  •     3.3.4 比对结果准确度分析
  •     3.3.5 生物学下游分析实验结果
  •     3.3.6 基于自适应指导树的多序列比对方法性能分析
  •   3.4 本章小结
  • 第4章 基于纵向划分的蛋白质多序列重比对精化方法
  •   4.1 引言
  •   4.2 基于固定比例纵向划分的重比对方法设计
  •   4.3 基于空位信息纵向划分的重比对方法设计
  •   4.4 实验结果与分析
  •     4.4.1 基于固定比例纵向划分的重比对实验结果与分析
  •     4.4.2 基于空位信息纵向划分的重比对实验结果与分析
  •   4.5 本章小结
  • 第5章 基于集成融合的蛋白质多序列比对方法
  •   5.1 引言
  •   5.2 基于集成融合的多序列比对方法设计
  •     5.2.1 蛋白质家族同一度计算
  •     5.2.2 基于组合方法的残基配对计分
  •     5.2.3 自适应的指导树构建
  •     5.2.4 加权的概率一致性变换
  •     5.2.5 基于序列谱的渐进比对
  •     5.2.6 基于纵向划分的重比对精化
  •   5.3 实验结果与分析
  •   5.4 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的论文及其他成果
  • 致谢
  • 个人简历
  • 文章来源

    类型: 博士论文

    作者: 詹青

    导师: 王亚东

    关键词: 多序列比对,隐马尔可夫模型,粒子群优化算法,配分函数,纵向划分

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学

    专业: 数学,生物学

    单位: 哈尔滨工业大学

    分类号: Q51;O211.62

    DOI: 10.27061/d.cnki.ghgdu.2019.005120

    总页数: 120

    文件大小: 6268k

    相关论文文献

    • [1].Bcl-2蛋白质家族调控细胞凋亡机制的研究进展[J]. 信阳师范学院学报(自然科学版) 2017(02)
    • [2].原来蛋白质家庭实力庞大,以前都不知道——线报+调查,揭开蛋白质保养窜红之谜[J]. 医学美学美容 2008(01)
    • [3].变应原分布于少数蛋白质家族,其生物化学功能有限[J]. 中华临床免疫和变态反应杂志 2008(03)
    • [4].丙缬异苏(AVIT)蛋白质家族[J]. 生命的化学 2009(06)
    • [5].I-BAR结构域蛋白质家族[J]. 生命的化学 2011(06)
    • [6].估计一个蛋白质家族属于一个新折叠子的概率[J]. 南京大学学报(数学半年刊) 2011(01)
    • [7].热应激对反刍动物HSP70表达影响的研究进展[J]. 中国奶牛 2011(16)
    • [8].寄生虫热激蛋白的研究进展[J]. 生物技术通报 2009(02)
    • [9].果蝇“品尝”温度[J]. 今日中学生 2014(Z1)
    • [10].杨树和葡萄UBX蛋白质家族分析(英文)[J]. 植物分类与资源学报 2014(03)
    • [11].人酸性成纤维细胞生长因子的研究进展[J]. 生物技术通报 2013(05)
    • [12].林蛙卵油通过影响Bcl-2蛋白质家族抑制卵巢凋亡的机制[J]. 中国老年学杂志 2013(18)
    • [13].肝癌衍生生长因子研究进展[J]. 国际消化病杂志 2012(02)
    • [14].构建适用于蛋白质家族分类的相似性网络[J]. 工业微生物 2015(03)
    • [15].结核分支杆菌PPE蛋白质家族免疫原性初探[J]. 畜牧与兽医 2012(S1)
    • [16].CXCR7在疾病发生和发展中的作用[J]. 现代肿瘤医学 2010(07)
    • [17].FOXO3a与神经细胞的相关研究进展[J]. 重庆医学 2012(24)
    • [18].食物过敏原蛋白家族分类及其结构特点[J]. 检验检疫学刊 2012(05)
    • [19].一种对预测Motifs算法的评价策略[J]. 计算机技术与发展 2011(10)
    • [20].葡萄糖转运蛋白的调控与疾病[J]. 医学综述 2008(14)
    • [21].微小染色体维持蛋白与肿瘤[J]. 生物化学与生物物理进展 2018(08)
    • [22].人体最大蛋白质家族研究获重要成果[J]. 上海医药 2017(11)
    • [23].TBC蛋白质家族在GLUT4囊泡运输中的研究进展[J]. 药物生物技术 2016(04)
    • [24].基于转录组信息的黑果枸杞WD40蛋白质家族分析[J]. 核农学报 2019(03)
    • [25].磷酸化HSP27在恶性肿瘤中的研究进展[J]. 昆明医科大学学报 2020(07)
    • [26].Reflectin基因起源及其蛋白质逐级组装的性质[J]. 科学新闻 2018(04)
    • [27].鱼皮胶原及多肽的特点和应用[J]. 科学养鱼 2012(05)
    • [28].Shh在指发育过程中的作用及其表达的调节[J]. 中国细胞生物学学报 2010(03)
    • [29].植物F-Box蛋白及其生物学功能研究(英文)[J]. Agricultural Science & Technology 2010(07)
    • [30].新型抗癌药物分子靶标STAT3的研究进展[J]. 现代生物医学进展 2014(07)

    标签:;  ;  ;  ;  ;  

    基于隐马尔可夫模型的蛋白质多序列比对方法研究
    下载Doc文档

    猜你喜欢