基于未标记样本信息的蛋白质相互作用位点半监督预测

论文摘要

蛋白质相互作用位点的识别在药物设计方面具有不可替代的意义。然而在实际情况下,由于目前只有小部分的蛋白质相互作用能够被实验方法鉴别出来,所以蛋白质序列上的大多数位点不能被定义为界面位点或非界面位点,这将导致蛋白质相互作用位点的预测缺乏准确性和泛化能力。本文主要通过未标记出来的蛋白质位点信息来对相互作用位点进行预测。在数据处理部分,首先删减冗余的蛋白质链,通过预处理得到91条蛋白质链用于实验。接着对残基进行定义,并基于氨基酸的进化保守性,从HSSP数据库与Consurf Server中提取了五种特征:残基空间序列谱、残基序列信息熵与相对熵、残基序列保守权重以及残基进化速率。将这五种保守性特征加以融合并重新编码,得到的数据集将用于之后的实验。在位点预测部分,本文充分利用了大量未标记样本,并提出了三种半监督支持向量机模型对蛋白质相互作用位点进行预测。首先,结合标签均值和自训练思想,提出了基于多核学习的标签均值自训练半监督支持向量机（Means3vm-mkl）和基于迭代优化的标签均值自训练半监督支持向量机（Means3vm-iter）。然后我们对上述模型进行了优化,使用一种安全的半监督支持向量机（S4VM）来防止性能下降。从最终的预测结果可以得出,使用未标记样本极大提高了预测的准确性,相比于只利用标记样本的分类模型在准确率上提高了12%。三种半监督SVM模型都能实现对相互作用位点的预测,其中S4VM表现最佳,正确率达到70.7%,灵敏度以及特异度分别为62.67%,78.72%。相较于传统的实验以及计算方法而言,分类效果得到较大提升。

论文目录

摘要

Abstract

第一章绪论

1.1 蛋白质相互作用研究背景及意义

1.1.1 蛋白质及蛋白质相互作用

1.1.2 研究的背景与意义

1.2 蛋白质相互作用研究现状

1.3 目前蛋白质相互作用预测方法存在的问题及挑战

1.4 本文的主要研究内容

1.5 本文的章节安排

第二章蛋白质相互作用的预测方法与数据资源

2.1 蛋白质相互作用的实验决定方法

2.1.1 噬菌体展示技术

2.1.2 酵母双杂交系统

2.1.3 免疫共沉淀技术

2.2 蛋白质相互作用的计算预测方法

2.2.1 基于基因组信息的预测方法

2.2.2 基于异变进化信息的预测方法

2.2.3 基于机器学习的预测方法

2.3 蛋白质相互作用的相关数据库

2.4 本章小结

第三章基于氨基酸进化保守性特征的蛋白质相互作用位点特征提取及编码

3.1 实验数据集的预处理

3.2 实验数据集的相关定义

3.3 蛋白质相互作用进化保守性特征的提取

3.3.1 残基空间序列谱

3.3.2 残基序列信息熵与相对熵

3.3.3 残基序列保守权重

3.3.4 残基进化速率

3.4 蛋白质相互作用进化保守性特征的编码

3.5 本章小结

第四章基于半监督支持向量机的蛋白质相互作用位点预测研究

4.1 支持向量机的介绍

4.2 半监督学习

4.3 基于半监督支持向量机的蛋白质相互作用位点预测

4.3.1 半监督支持向量机

4.3.2 基于标签均值的半监督支持向量机

4.3.3 基于多核学习的半监督支持向量机

4.3.4 基于迭代优化的半监督支持向量机

4.3.5 安全的半监督支持向量机

4.4 预测性能的评价参数

4.5 预测结果与比较分析

4.5.1 特征融合的结果分析

4.5.2 三种半监督模型的预测性能分析

4.5.3 有监督和半监督SVM的预测性能比较

4.5.4 半监督支持向量机与其他方法的比较

4.5.5 实验的可视化结果

4.6 本章小结

第五章总结与展望

参考文献

在校研究成果

致谢

附录1 插图清单

附录2 表格清单

附录3 部分核心源程序

文章来源

类型: 硕士论文

作者: 梅长卿

导师: 王兵

关键词: 蛋白质相互作用位点,未标记样本,保守性特征,半监督支持向量机,多核学习,迭代优化

来源: 安徽工业大学

年度: 2019

分类: 基础科学,信息科技

专业: 生物学,自动化技术

单位: 安徽工业大学

分类号: Q51;TP181

DOI: 10.27790/d.cnki.gahgy.2019.000355

总页数: 72

文件大小: 4349K

下载量: 27

基于未标记样本信息的蛋白质相互作用位点半监督预测

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢