基于HOG-Cos-PSSM特征表达和TKSE集成方法的氧化还原酶分类预测

基于HOG-Cos-PSSM特征表达和TKSE集成方法的氧化还原酶分类预测

论文摘要

近年来,随着生物医学界对于氧化还原酶的认知逐步加深,其在药物研究以及疾病诊断方面的作用愈发被重视。氧化还原酶有许多具有不同功能的亚类,因此对其进行准确的分类是生物信息学中的一项重要任务。传统生物方法对其进行类别研究存在花费时间长、所需费用高的问题。但如果可以根据它的序列建立有效的机器学习方法,将会对其亚家族分类研究提供非常有效的帮助。随着机器学习以及生物信息的发展,基于计算机算法的蛋白质序列识别研究得到了长足的发展。众所周知,酶的本质是蛋白质,因此本文考虑对酶蛋白序列进行特征描述,并结合机器学习算法对其进行分类预测研究,试图以此构建一个高效准确的预测方法。为了高效准确的进行预测,本文研究分为两个方面:针对酶蛋白序列特征描述方法的研究改进、预测分类器的构造,分别提出了 HOG-Cos-PSSM(Histogram of Oriented Gradient-Cosine similarity-PSSM)特征描述 方法和 TKSE(T-sne+K-means&Selection ensemble classifier framework)集成分类框架。第一,本文对现有的特征描述方法进行总结,针对酶蛋白序列特征矩阵位置信息丢失的问题,引入方向梯度直方图和余弦夹角相似度的概念,分别提出HOG-PSSM(Histogram of Oriented Gradient PSSM)>Cos-PSSM(Cosine similarity PSSM)。并且在相关性分析之后进行特征融合提出HOG-Cos-PSSM特征描述方法。实验表明,HOG-Cos-PSSM特征描述方法有效的对现有特征描述方法进行改进。第二,在分类器研究方面,本文使用多分类器集成方法,引入“能力区域”和“区域选择集成”的概念并提出TKSE集成分类框架。首先,使用基于t分布的随机近邻嵌入算法T-sne和K-means聚类算法对样本空间进行“能力区域”的划分。然后,对区域中各基分类器进行筛选并使用Stacking层次集成框架以构成各区域的集成分类器。最后,测试样本选择相似度最高区域对应的集成分类器进行分类。大量实验结果证实,TKSE集成分类框架的预测效果明显高于各基分类器,并且其与HOG-Cos-PSSM特征描述方法共同使用将氧化还原酶分类预测精度提升至95.87%。本文所提出的HOG-Cos-PSSM特征描述方法与TKSE集成分类框架有效提高了氧化还原酶分类预测精度,此方法是对现有预测方法的有效补充。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景与意义
  •   1.2 蛋白质序列
  •   1.3 国内外研究现状
  •     1.3.1 酶蛋白序列特征表达方法研究现状
  •     1.3.2 氧化还原酶分类方法研究现状
  •   1.4 论文研究内容及创新点
  •   1.5 论文结构安排
  • 第二章 酶蛋白序列的特征描述和集成分类技术
  •   2.1 引言
  •   2.2 酶序列的特征描述
  •     2.2.1 基于氨基酸组成的特征描述
  •     2.2.2 基于二肽组成的特征描述
  •     2.2.3 基于伪氨基酸组成的特征描述
  •     2.2.4 基于遗传信息的特征描述
  •   2.3 多分类器集成技术
  •     2.3.1 基分类器产生方式
  •     2.3.2 集成方式
  •     2.3.3 基分类器组合方式
  •   2.4 分类模型评估方法
  •     2.4.1 检验方法
  •     2.4.2 检验评估指标
  •   2.5 本章小结
  • 第三章 针对氧化还原酶序列的HOG与余弦夹角特征提取
  •   3.1 引言
  •   3.2 数据集构建及PSSM处理
  •   3.3 HOG-PSSM
  •     3.3.1 相关概念
  •     3.3.2 HOG-PSSM描述
  •   3.4 Cos-PSSM
  •   3.5 HOG-Cos-PSSM
  •   3.6 HOG-Cos-PSSM实验结果分析
  •   3.7 本章小结
  • 第四章 基于“能力区域”划分与选择思想的TKSE集成分类框架
  •   4.1 引言
  •   4.2 TKSE集成分类框架的提出
  •   4.3 TKSE集成分类方法
  •     4.3.1 TKSE集成分类方法描述
  •     4.3.2 TKSE集成分类方法框架
  •   4.4 基于t分布随机近邻嵌入算法和K-means的“能力区域”划分
  •     4.4.1 基于K-means的“能力区域”划分
  •     4.4.2 基于t分布的随机近邻嵌入算法
  •   4.5 基于选择思想与Stacking框架的区域集成分类器
  •     4.5.1 Stacking框架
  •     4.5.2 基分类器介绍
  •   4.6 实验结果数据分析
  •     4.6.1 “能力区域”划分效果预测分析
  •     4.6.2 TKSE集成分类器预测效果分析
  •     4.6.3 与当前研究现状结果对比
  •   4.7 本章小结
  • 第五章 总结与展望
  •   5.1 全文工作总结
  •   5.2 研究工作展望
  • 参考文献
  • 攻读硕士学位期间完成的科研成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 杨玺文

    导师: 王顺芳

    关键词: 氧化还原酶,能力区域

    来源: 云南大学

    年度: 2019

    分类: 基础科学,医药卫生科技,信息科技

    专业: 生物学,生物医学工程,自动化技术

    单位: 云南大学

    分类号: R318;TP181

    总页数: 82

    文件大小: 5201K

    下载量: 17

    相关论文文献

    标签:;  ;  

    基于HOG-Cos-PSSM特征表达和TKSE集成方法的氧化还原酶分类预测
    下载Doc文档

    猜你喜欢