论文摘要
近年来,随着生物医学界对于氧化还原酶的认知逐步加深,其在药物研究以及疾病诊断方面的作用愈发被重视。氧化还原酶有许多具有不同功能的亚类,因此对其进行准确的分类是生物信息学中的一项重要任务。传统生物方法对其进行类别研究存在花费时间长、所需费用高的问题。但如果可以根据它的序列建立有效的机器学习方法,将会对其亚家族分类研究提供非常有效的帮助。随着机器学习以及生物信息的发展,基于计算机算法的蛋白质序列识别研究得到了长足的发展。众所周知,酶的本质是蛋白质,因此本文考虑对酶蛋白序列进行特征描述,并结合机器学习算法对其进行分类预测研究,试图以此构建一个高效准确的预测方法。为了高效准确的进行预测,本文研究分为两个方面:针对酶蛋白序列特征描述方法的研究改进、预测分类器的构造,分别提出了 HOG-Cos-PSSM(Histogram of Oriented Gradient-Cosine similarity-PSSM)特征描述 方法和 TKSE(T-sne+K-means&Selection ensemble classifier framework)集成分类框架。第一,本文对现有的特征描述方法进行总结,针对酶蛋白序列特征矩阵位置信息丢失的问题,引入方向梯度直方图和余弦夹角相似度的概念,分别提出HOG-PSSM(Histogram of Oriented Gradient PSSM)>Cos-PSSM(Cosine similarity PSSM)。并且在相关性分析之后进行特征融合提出HOG-Cos-PSSM特征描述方法。实验表明,HOG-Cos-PSSM特征描述方法有效的对现有特征描述方法进行改进。第二,在分类器研究方面,本文使用多分类器集成方法,引入“能力区域”和“区域选择集成”的概念并提出TKSE集成分类框架。首先,使用基于t分布的随机近邻嵌入算法T-sne和K-means聚类算法对样本空间进行“能力区域”的划分。然后,对区域中各基分类器进行筛选并使用Stacking层次集成框架以构成各区域的集成分类器。最后,测试样本选择相似度最高区域对应的集成分类器进行分类。大量实验结果证实,TKSE集成分类框架的预测效果明显高于各基分类器,并且其与HOG-Cos-PSSM特征描述方法共同使用将氧化还原酶分类预测精度提升至95.87%。本文所提出的HOG-Cos-PSSM特征描述方法与TKSE集成分类框架有效提高了氧化还原酶分类预测精度,此方法是对现有预测方法的有效补充。
论文目录
文章来源
类型: 硕士论文
作者: 杨玺文
导师: 王顺芳
关键词: 氧化还原酶,能力区域
来源: 云南大学
年度: 2019
分类: 基础科学,医药卫生科技,信息科技
专业: 生物学,生物医学工程,自动化技术
单位: 云南大学
分类号: R318;TP181
总页数: 82
文件大小: 5201K
下载量: 17