论文摘要
蛋白质相互作用位点的识别在药物设计方面具有不可替代的意义。然而在实际情况下,由于目前只有小部分的蛋白质相互作用能够被实验方法鉴别出来,所以蛋白质序列上的大多数位点不能被定义为界面位点或非界面位点,这将导致蛋白质相互作用位点的预测缺乏准确性和泛化能力。本文主要通过未标记出来的蛋白质位点信息来对相互作用位点进行预测。在数据处理部分,首先删减冗余的蛋白质链,通过预处理得到91条蛋白质链用于实验。接着对残基进行定义,并基于氨基酸的进化保守性,从HSSP数据库与Consurf Server中提取了五种特征:残基空间序列谱、残基序列信息熵与相对熵、残基序列保守权重以及残基进化速率。将这五种保守性特征加以融合并重新编码,得到的数据集将用于之后的实验。在位点预测部分,本文充分利用了大量未标记样本,并提出了三种半监督支持向量机模型对蛋白质相互作用位点进行预测。首先,结合标签均值和自训练思想,提出了基于多核学习的标签均值自训练半监督支持向量机(Means3vm-mkl)和基于迭代优化的标签均值自训练半监督支持向量机(Means3vm-iter)。然后我们对上述模型进行了优化,使用一种安全的半监督支持向量机(S4VM)来防止性能下降。从最终的预测结果可以得出,使用未标记样本极大提高了预测的准确性,相比于只利用标记样本的分类模型在准确率上提高了12%。三种半监督SVM模型都能实现对相互作用位点的预测,其中S4VM表现最佳,正确率达到70.7%,灵敏度以及特异度分别为62.67%,78.72%。相较于传统的实验以及计算方法而言,分类效果得到较大提升。
论文目录
文章来源
类型: 硕士论文
作者: 梅长卿
导师: 王兵
关键词: 蛋白质相互作用位点,未标记样本,保守性特征,半监督支持向量机,多核学习,迭代优化
来源: 安徽工业大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 安徽工业大学
分类号: Q51;TP181
DOI: 10.27790/d.cnki.gahgy.2019.000355
总页数: 72
文件大小: 4349K
下载量: 27
相关论文文献
标签:蛋白质相互作用位点论文; 未标记样本论文; 保守性特征论文; 半监督支持向量机论文; 多核学习论文; 迭代优化论文;