基于信息熵与深度森林的蛋白质亚细胞位置预测

基于信息熵与深度森林的蛋白质亚细胞位置预测

论文摘要

蛋白质的亚细胞位置信息能够为理解其生物学功能提供有力线索,在药物设计、病理分析等领域的研究中有着重要作用。在后基因组时代的当下,蛋白质测序技术取得了长足的发展。新发现蛋白质的数量正以惊人的速度飞速增长。如何快速准确的获取蛋白质的亚细胞位置信息已经成为了蛋白质组学中的一项关键任务。现有的蛋白质亚细胞位置识别方法主要分为基于生物化学实验的方法和基于计算的方法。其中,基于生物化学实验的方法是目前获取蛋白质亚细胞位置信息的主要手段。但是由于时间成本巨大,此类方法已经难以满足人们在识别效率方面的需求。与之相对,基于计算方法的出现为高效解决海量蛋白质序列的亚细胞位置识别问题提供了可行方案。近年来,人们对基于计算的蛋白质亚细胞位置预测方法做出了大量的研究。然而,受制于特征提取技术以及分类算法的性能,相关方法的预测准确率仍待提高。针对这一现状,本文在信息熵与深度森林的基础上对现有蛋白质亚细胞位置预测技术进行改进。在蛋白质特征提取方面,本文在分析了现有蛋白质特征提取技术缺陷的基础上,探究了基于信息熵的改进方案的有效性。在分类算法的构建方面,本文首先讨论了深度森林对蛋白质亚细胞位置预测问题的适用性,随后针对性的提出了两种改进模型以进一步提高最终预测结果的准确率。本文主要工作如下:(1)针对现有蛋白质序列信息特征提取技术以及进化信息特征提取技术的缺陷,提出了一种新的蛋白质特征提取方法,即IE-MoAC-PFR方法。其中,对于蛋白质序列信息特征的提取,针对传统n-gram-frequency特征不能有效表示蛋白质序列中氨基酸位置信息的缺陷,IE-MoAC-PFR方法使用信息熵刻画不同氨基酸片段在蛋白质序列中的分布情况,从而提升特征向量对蛋白质序列信息的反映能力。对于蛋白质进化信息特征的提取,针对传统基于自协方差的位置特异性矩阵的特征转换方法忽略了蛋白质序列中不同氨基酸在进化过程中的关系信息,IE-MoAC-PFR方法将自协方差扩展到位置特异性矩阵的不同列上。最后,为了能够更好地将蛋白质的序列信息和进化信息用于亚细胞位置的预测当中,IE-MoAC-PFR方法将所提取的蛋白质序列信息特征与进化信息特征结合生成蛋白质最终的特征向量。(2)针对蛋白质亚细胞位置预测问题小样本高维度的特性,提出一种深度森林改进算法,即FS-DF算法。为避免蛋白质高维稀疏特征向量中的无关特征以及噪声特征对模型最终预测准确率的影响,FS-DF算法将基于基尼系数的特征选择机制引入到深度森林的层级结构中。通过逐层筛除原始蛋白质特征向量中的无关特征以及噪声特征,相较于深度森林方法,FS-DF方法能够极大提升各层模型的性能,并在此基础上进行更为有效的表示学习。(3)FS-DF算法中,随着层级的不断加深,被筛除特征的不断增多可能会导致部分有用信息的丢失。为了更加充分地利用蛋白质特征向量中所蕴涵的亚细胞位置相关信息,从寻找并利用最优特征子集的角度出发,提出了一种新的深度森林改进算法,即Tabu-DF算法。在Tabu-DF算法中,面向最优特征子集的禁忌搜索机制被用于改进深度森林的层级结构。基于禁忌搜索可以避免陷入局部最优解的特性,Tabu-DF算法能够更有效地处理高维稀疏的蛋白质特征向量,并进一步提升最终预测结果的准确率。本文在Plant,NonPlant以及PsortNeg三个标准数据集上对新提出方法的性能进行了验证。实验结果显示,相较于现有的方法,新提出的方法能够有效提高蛋白质亚细胞位置预测结果的准确率,为相关研究提供更为有效的信息。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外研究现状
  •   1.3 本文研究内容
  •   1.4 论文组织结构
  • 第2章 相关研究方法
  •   2.1 蛋白质亚细胞位置预测方法框架
  •   2.2 蛋白质序列信息特征表示方法
  •     2.2.1 基于氨基酸组成信息的特征表示方法
  •     2.2.2 基于氨基酸理化性质的特征表示方法
  •   2.3 蛋白质进化信息特征表示方法
  •     2.3.1 位置特异性矩阵
  •     2.3.2 基于PSSM的进化信息特征表示方法
  •   2.4 分类算法
  •     2.4.1 SVM算法
  •     2.4.2 随机森林算法
  •     2.4.3 集成算法
  •   2.5 本章小结
  • 第3章 基于信息熵与自协方差的蛋白质特征表示
  •   3.1 IE-MoACC-PFR方法
  •     3.1.1 蛋白质序列信息特征提取
  •     3.1.2 蛋白质进化信息特征提取
  •   3.2 数值实验及性能分析
  •     3.2.1 数据集介绍
  •     3.2.2 评价指标
  •     3.2.3 参数敏感性分析
  •     3.2.4 对比方法介绍
  •     3.2.5 实验结果分析
  •   3.3 本章小结
  • 第4章 基于特征选择的深度森林改进模型
  •   4.1 深度森林
  •   4.2 基于特征选择的深度森林改进模型
  •   4.3 数值实验及性能分析
  •     4.3.1 实验设置
  •     4.3.2 实验结果分析
  •   4.4 本章小结
  • 第5章 基于禁忌搜索的深度森林改进模型
  •   5.1 禁忌搜索
  •   5.2 基于禁忌搜索的深度森林改进模型
  •   5.3 数值实验及性能分析
  •     5.3.1 实验设置
  •     5.3.2 实验结果分析
  •   5.4 本章小结
  • 第6章 总结与展望
  •   6.1 本文工作总结
  •   6.2 未来工作展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文
  • 文章来源

    类型: 硕士论文

    作者: 郭庭炜

    导师: 张自力

    关键词: 蛋白质亚细胞位置预测,蛋白质特征表示,深度森林,位置特异性矩阵

    来源: 西南大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 西南大学

    分类号: Q51;TP18

    总页数: 67

    文件大小: 2797K

    下载量: 59

    相关论文文献

    • [1].真核蛋白质的亚细胞位点预测研究进展[J]. 现代生物医学进展 2015(28)
    • [2].基于多标记学习的人类蛋白质亚细胞多位置预测[J]. 湖北民族学院学报(自然科学版) 2018(01)
    • [3].基于压缩感知预测凋亡蛋白亚细胞位点[J]. 北京生物医学工程 2015(01)
    • [4].基于一种新型马尔科夫模型的预测蛋白质亚细胞位点的方法(英文)[J]. 上海师范大学学报(自然科学版) 2011(02)
    • [5].相似性比对预测蛋白质亚细胞区间[J]. 微生物学通报 2016(10)
    • [6].羊栖菜中微量金属元素的亚细胞分区分布[J]. 渔业科学进展 2013(06)
    • [7].镉在大豆幼苗叶中的亚细胞分配、定位及其对幼苗生长的影响(英文)[J]. Agricultural Science & Technology 2014(05)
    • [8].亚细胞尺度的Monte Carlo方法模拟[J]. 清华大学学报(自然科学版)网络.预览 2009(11)
    • [9].利用半监督降维算法预测蛋白质亚细胞位置[J]. 上海第二工业大学学报 2015(03)
    • [10].烟草对镉的吸收及镉在亚细胞中的分布[J]. 江苏农业科学 2014(05)
    • [11].亚细胞区室氧化还原状态的调控及其对细胞的影响[J]. 中国细胞生物学学报 2015(06)
    • [12].硅对分蘖期不同品种水稻镉吸收积累的影响[J]. 土壤通报 2018(03)
    • [13].基于最优分割位点的蛋白质亚细胞位点预测方法[J]. 生物信息学 2011(02)
    • [14].不同水稻品种对镉积累的差异及其与镉亚细胞分布的关系[J]. 生态毒理学报 2019(05)
    • [15].碱胁迫下杜鹃花抗氧化体系的响应及亚细胞分布[J]. 园艺学报 2020(05)
    • [16].2种萱草对铅、镉的吸收累积及其在亚细胞的分布和化学形态特征[J]. 华南农业大学学报 2015(04)
    • [17].水稻蛋白质组学研究进展[J]. 安徽农业科学 2009(35)
    • [18].基于机器学习的凋亡蛋白的亚细胞位点预测[J]. 价值工程 2012(30)
    • [19].基于氨基酸对含纤连蛋白域蛋白质亚细胞的定位预测(英文)[J]. 中国组织工程研究与临床康复 2011(21)
    • [20].低温胁迫对两种圆柏属植物亚细胞抗氧化酶活性的影响[J]. 广西植物 2014(05)
    • [21].胁迫时间和胁迫浓度对超积累植物印度芥菜细胞中镉分布的影响[J]. 岩矿测试 2014(05)
    • [22].基于GO的蛋白质亚细胞定位方法研究[J]. 农业网络信息 2012(11)
    • [23].复合钝化剂对污灌区镉污染农田土壤的钝化效果研究[J]. 应用化工 2017(06)
    • [24].镉对花椰菜光合作用的影响及其在亚细胞中的分布[J]. 园艺学报 2008(09)
    • [25].不同浓度钙·锌抑制剂对烟草镉积累及亚细胞分布的影响[J]. 安徽农业科学 2017(10)
    • [26].轮叶黑藻和穗花狐尾藻对铜的吸收机制研究[J]. 环境科学 2014(05)
    • [27].铜胁迫下不同茶树的生理响应及亚细胞水平铜分布特性[J]. 江苏农业科学 2016(11)
    • [28].不同亚细胞位置的细胞凋亡蛋白质的结构特性分析[J]. 生物物理学报 2009(S1)
    • [29].不同类型镉积累水稻细胞镉化学形态及亚细胞和分子分布[J]. 应用生态学报 2008(10)
    • [30].心律失常亚细胞机制的研究进展[J]. 中国心脏起搏与心电生理杂志 2013(02)

    标签:;  ;  ;  ;  

    基于信息熵与深度森林的蛋白质亚细胞位置预测
    下载Doc文档

    猜你喜欢