面向蛋白互作预测的序列数据特征识别研究

面向蛋白互作预测的序列数据特征识别研究

论文摘要

蛋白质是所有生物体的基石,除少数以单体的形式发挥作用外,大部分都与其他蛋白质协同发挥作用。基于机器学习的蛋白互作预测结合蛋白序列特征提取方法和机器学习算法,采用大规模数据统计方式,从整体水平上揭示蛋白质功能、了解蛋白间相互作用机制以及发现新的蛋白结合规律,对“破译分子机制”、“构建蛋白相互作用网络”、“开发药物”和“治疗优化”等蛋白质研究领域具有非常重要的指导意义。蛋白序列特征提取是蛋白互作预测首要解决问题之一,其性能的优劣直接影响机器学习算法处理蛋白序列数据的性能。因此,如何改进特征提取方法和如何优化机器学习算法是目前机器学习在生物信息领域研究中亟待解决的问题。目前,人们在采用蛋白序列特征提取与机器学习模型训练分步开展的方式研究蛋白互作预测方面取得一系列的进展。但是,这种割裂蛋白序列特征提取与机器学习模型训练关系的方式,未能有效提取蛋白序列的全序信息及长距效应,导致难以提高蛋白互作预测性能。本文从改进蛋白序列特征提取方法、引进机器学习模型优化技术以及端对端蛋白互作预测等方面开展研究,以有效提高蛋白互作预测性能,促进蛋白互作预测技术在蛋白相互作用相关研究领域的应用推广。主要工作概括如下:1、针对现有蛋白序列特征提取方法未考虑整个氨基酸序列的有序关系这一问题,提出一种新的特征提取方法-序列矩阵(Matrix of Sequence,MOS)。该方法在基于偶极子和侧链体积的氨基酸分类的基础上,将蛋白序列抽象成维数不一致的向量,并充分利用蛋白序列中每个元素的前后顺序关系,将蛋白序列编码成维数一致的向量,以解决不能直接把蛋白序列输入机器学习算法中进行分类识别的问题。2、以提高蛋白互作预测性能为目标,采用K-近邻算法(K-Nearest Neighbor,KNN)、决策树(Decision Tree,DT)和随机森林(Random Forest,RF)等三个传统机器学习模型以及深度神经网络(Deep Neural Network DNN)来研究基于氨基酸序列的蛋白互作预测,同时结合三元组(Conjoint Triad,CT)、自协方差(Auto Covari-ance,AC)、局部描述符(Local Descriptor,LD)以及序列矩阵(Matrix of Sequence,MOS)等方法,构建了十六种蛋白互作预测模型。结果表明,引入了 Dropout等网络优化技术的深度神经网络模型取得最佳评价指标,和现有结果相比,提高了蛋白互作预测性能。其中,CT、AC、LD在基准数据集上分别获得98.12%、98.17%和95.60%的最优准确率,MOS获得了 96.34%的准确率、99.28%的召回率和98.79%的受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve,AUC),和现有特征提取方法相比,MOS可减少损失率,大幅节省训练时间。3、针对蛋白互作预测过程中存在的蛋白序列特征提取方法与机器学习模型训练过程割裂问题,提出基于长短时记忆网络(Long Short-Term Memory,LSTM)的端对端蛋白互作预测模型。该模型将蛋白序列特征提取作为机器学习模型的一部分,使特征提取与模型训练融为一体,通过训练获得较优的蛋白序列特征提取方法,以提高蛋白互作预测性能。结果表明,端对端蛋白互作预测模型获得了97.46%的最优准确率,提高了蛋白互作预测性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 研究背景和意义
  •     1.1.1 研究背景
  •     1.1.2 研究意义
  •   1.2 研究内容
  •   1.3 论文组织结构
  • 第2章 蛋白互作预测概述
  •   2.1 引言
  •   2.2 技术挑战和未决问题
  •   2.3 蛋白互作预测方法分类
  •   2.4 基于统计的蛋白互作预测方法
  •     2.4.1 基于序列的统计方法
  •     2.4.2 基于结构的统计方法
  •   2.5 基于模板的蛋白互作预测方法
  •   2.6 基于机器学习的蛋白互作预测方法
  •     2.6.1 机器学习概述
  •     2.6.2 基于传统机器学习的蛋白互作预测
  •     2.6.3 基于深度学习的蛋白互作预测
  •   2.7 本章小结
  • 第3章 序列数据特征提取方法
  •   3.1 引言
  •   3.2 生物序列数据及数据库
  •     3.2.1 生物序列数据
  •     3.2.2 生物序列数据库
  •   3.3 生物序列数据特征提取及编码
  •     3.3.1 生物序列数据特征提取
  •     3.3.2 生物序列数据编码方法
  •   3.4 基于序列矩阵的序列数据特征提取方法
  •     3.4.1 序列矩阵编码原理
  •     3.4.2 相关定义及性质
  •     3.4.3 序列矩阵算法
  •     3.4.4 序列矩阵编码过程
  •   3.5 实验
  •     3.5.1 蛋白质序列数据集
  •     3.5.2 蛋白质序列编码实验流程
  •     3.5.3 蛋白质序列编码实验结果
  •   3.6 本章小结
  • 第4章 基于机器学习的蛋白互作预测性能研究
  •   4.1 引言
  •   4.2 蛋白互作预测模型构建方法
  •     4.2.1 数据集构造
  •     4.2.2 超参数选择
  •     4.2.3 性能评价指标
  •   4.3 基于传统机器学习的蛋白互作预测
  •     4.3.1 基于K-最近邻的蛋白互作预测
  •     4.3.2 基于决策树的蛋白互作预测
  •     4.3.3 基于随机森林的蛋白互作预测
  •   4.4 基于深度学习的蛋白互作预测
  •     4.4.1 基于联合三联体的DNN蛋白互作预测
  •     4.4.2 基于自协方差的DNN蛋白互作预测
  •     4.4.3 基于局部描述符的DNN蛋白互作预测
  •     4.4.4 基于序列矩阵的DNN蛋白互作预测
  •   4.5 结果及讨论
  •     4.5.1 模型性能比较
  •     4.5.2 外部数据集上的性能
  •     4.5.3 与现有方法比较
  •   4.6 本章小结
  • 第5章 端对端蛋白互作预测
  •   5.1 引言
  •   5.2 端到端学习
  •   5.3 端对端蛋白互作预测方法
  •     5.3.1 模型设计
  •     5.3.2 数据预处理
  •     5.3.3 数据集划分
  •     5.3.4 超参数选择
  •     5.3.5 模型结构
  •   5.4 结果及讨论
  •     5.4.1 模型性能比较
  •     5.4.2 低相似性数据集上性能
  •     5.4.3 与现有方法比较
  •   5.5 本章小结
  • 第6章 总结与展望
  •   6.1 研究工作总结
  •   6.2 未来工作展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 文章来源

    类型: 博士论文

    作者: 桂元苗

    导师: 王儒敬

    关键词: 蛋白互作预测,序列特征提取,深度神经网络,联合三元组,自协方差,局部描述符,序列矩阵

    来源: 中国科学技术大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 中国科学技术大学

    分类号: Q51;TP181

    DOI: 10.27517/d.cnki.gzkju.2019.000074

    总页数: 154

    文件大小: 10076K

    下载量: 257

    相关论文文献

    • [1].玫烟色棒束孢基因组候选效应因子的预测分析[J]. 西北农业学报 2019(12)
    • [2].蛋白序列进化图谱分析软件的设计与实现[J]. 中国科技信息 2009(03)
    • [3].油菜F-BOX蛋白序列特征与生物信息学分析[J]. 南方农业 2015(33)
    • [4].细胞色素c蛋白序列分析与结构比较[J]. 生物信息学 2010(03)
    • [5].大豆GmOLPa基因的蛋白序列分析及原核表达[J]. 生物技术通报 2012(09)
    • [6].烟草PPO蛋白序列的生物信息学分析[J]. 湖南农业科学 2019(04)
    • [7].猪源乙型脑炎病毒的分离鉴定及其E基因分析[J]. 中国兽医科学 2009(06)
    • [8].烟草半胱氨酸蛋白酶的基因和蛋白序列分析[J]. 天津农业科学 2018(09)
    • [9].HBsAg与anti-HBs共阳性慢性乙肝患者病毒S蛋白序列分析[J]. 实用预防医学 2018(12)
    • [10].大豆全蛋白质组66206个蛋白序列的有序化管理[J]. 基因组学与应用生物学 2018(07)
    • [11].Stathmin调控细胞的研究进展[J]. 生物骨科材料与临床研究 2009(06)
    • [12].基于氨基酸分类的固有无序蛋白序列特征分析[J]. 德州学院学报 2014(06)
    • [13].H1N1流感病毒的HA、NA蛋白序列进化树[J]. 食品与生物技术学报 2016(10)
    • [14].花生苹果酸脱氢酶基因的克隆及其蛋白序列分析[J]. 台州学院学报 2014(06)
    • [15].一种序列相关支持向量机的β桶状跨膜蛋白预测方法[J]. 计算机科学 2012(08)
    • [16].扩张蛋白家族蛋白序列分析[J]. 生物信息学 2009(03)
    • [17].烟草β-1,3-葡聚糖酶的蛋白序列分析[J]. 天津农业科学 2018(10)
    • [18].小麦COXVIIa基因克隆及其蛋白序列分析[J]. 分子植物育种 2016(02)
    • [19].烟草COMT蛋白序列的分析[J]. 科技创新与应用 2019(04)
    • [20].3个毛白杨病程相关蛋白基因的克隆及表达[J]. 东北林业大学学报 2012(06)
    • [21].双功能域β-折叠桶碱性植酸酶蛋白序列分析与酶学特性[J]. 微生物学报 2018(09)
    • [22].番茄MSI2-like基因的克隆及功能初探[J]. 四川大学学报(自然科学版) 2015(04)
    • [23].玉米精氨酸甲基转移酶蛋白家族生物信息学分析[J]. 生物技术进展 2014(01)
    • [24].日本鳗鲡脂肪酸去饱和酶和延长酶基因的克隆与分析[J]. 水生态学杂志 2009(05)
    • [25].茄子枯萎病菌致病效应因子的预测分析[J]. 西南农业学报 2019(06)
    • [26].NtGNL2基因克隆及蛋白结构分析[J]. 山西农业科学 2015(09)
    • [27].基于压缩氨基酸和支持向量机进行膜蛋白类型识别[J]. 生物信息学 2013(04)
    • [28].短柄草14-3-3基因家族的生物信息学及表达模式研究[J]. 广东农业科学 2013(07)
    • [29].家蚕中Brown候选基因的克隆及序列分析[J]. 浙江农业科学 2012(02)
    • [30].家蚕drk基因的克隆及生物信息学分析[J]. 江苏农业科学 2012(02)

    标签:;  ;  ;  ;  ;  ;  ;  

    面向蛋白互作预测的序列数据特征识别研究
    下载Doc文档

    猜你喜欢