论文摘要
在大数据时代,蛋白质数据库中序列数据的指数增长蕴含着非常重要的生物学信息。如何使用机器学习精准预测蛋白质亚线粒体的位置已成为生物信息学以及蛋白质组学研究中一项具有挑战性的任务。而且,亚线粒体位置的研究对了解蛋白质的结构和功能发挥重要的作用,同时对生命体进化和疾病发生机理都具有长远的研究意义。本文基于机器学习方法系统地蛋白质亚线粒体位置进行相关研究,主要研究成果如下:1.提出PseAAC-PsePSSM-WD的蛋白质亚线粒体定位预测新方法。首先,将伪氨基酸组成(pseudo-amino acid composition,PseAAC)和伪位置特异性得分矩阵(pseudo-position specific scoring matrix,PsePSSM)融合对亚线粒体蛋白质序列进行特征提取。其次,运用二维小波降噪(wavelet denoising,WD)处理提取的特征向量。最后,将降噪后的最佳特征向量采用支持向量机(support vector machine,SVM)预测蛋白质亚线粒体的位置。运用jackknife检验并和其它预测方法进行比较。结果表明,本文方法显著优于现有研究成果,可为其它的蛋白质亚细胞器定位预测提供一种新方法。2.提出SubMito-XGBoost的蛋白质亚线粒体定位预测新方法。首先,融合g-间隔二肽组分(g-gap deptide composition,g-Gap DC)、PseAAC、自相关函数(auto-correlation function,ACF)和二元特征位置特异性得分矩阵(Bi-gram position specific scoring matrix,Bi-gram PSSM)四种特征提取方法对蛋白质序列进行特征提取。其次,由于基准数据集M317、M983和M495样本不平衡,运用合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)处理三个数据集,再结合ReliefF算法将高维的特征向量降维。最后,运用极限梯度提升机(eXtreme gradient boosting,XGBoost)对最佳的特征向量分类预测蛋白质亚线粒体的位置。运用jackknife检验,同时和现有的预测模型进行比较。结果表明,本文提出SubMito-XGBoost方法的预测结果显著优于现有研究成果,可为其它亚结构定位预测提供一种新工具。
论文目录
文章来源
类型: 硕士论文
作者: 邱文莹
导师: 于彬
关键词: 机器学习,亚线粒体定位,多信息融合,合成少数类过采样技术,支持向量机,极限梯度提升机
来源: 青岛科技大学
年度: 2019
分类: 基础科学
专业: 生物学,生物学
单位: 青岛科技大学
分类号: Q51;Q811.4
总页数: 98
文件大小: 5481K
下载量: 116
相关论文文献
- [1].使用蛋白质和mRNA序列信息预测蛋白质亚线粒体定位[J]. 内蒙古大学学报(自然科学版) 2017(01)
- [2].氨基酸约化分类对亚线粒体蛋白定位的预测[J]. 内蒙古大学学报(自然科学版) 2011(03)
- [3].基于Blast-GO的蛋白质亚线粒体定位预测[J]. 生物化学与生物物理进展 2015(12)
标签:机器学习论文; 亚线粒体定位论文; 多信息融合论文; 合成少数类过采样技术论文; 支持向量机论文; 极限梯度提升机论文;