基于深度学习的蛋白质—配体结合残基预测

基于深度学习的蛋白质—配体结合残基预测

论文摘要

随着人类基因组计划测序工作完成,蛋白质的相关研究已成为当今生命科学的主要研究内容之一。配体结合蛋白在诸多生物过程中发挥关键作用。蛋白质-配体结合残基的识别对于理解蛋白质功能有重要意义。由于传统测定方法的技术细节复杂且成本高昂,处理海量的蛋白质需要计算方法的参与。已知的计算方法均基于传统机器学习,可被粗略地分为基于序列的方法和基于三维结构的方法,两者的根本区别在于是否使用三维结构,前者已在一系列结合残基预测任务中胜过后者。然而,已知的蛋白质序列在数量上远远超过已知的蛋白质三维结构,随着深度学习技术的发展,基于序列的方法有相当可观的提升空间。因此,有必要对基于深度学习的蛋白质-配体结合残基预测开展研究。本文的主要工作及贡献如下:·提出了一种基于深度学习的蛋白质-配体结合残基预测方法。该方法(Deepsi)仅使用了序列信息,所用特征共计7类,分别为位置特异性打分矩阵、溶剂可及性、蛋白质二级结构、二面角、保守性、残基氨基酸类型和位置编码。Deepsi可处理变长序列,其深度网络采用了全卷积架构,主要由不同规格的卷积层堆叠而成,特征最终由一组1×1卷积核整合并由softmax归一化得到所有残基关于结合残基的概率分布。隐层表示的有效上下文范围随层数的增长而扩大,大范围有效上下文能够捕捉两个残基之间的长距离依赖,通过调整层数和卷积核大小可精确控制依赖的最大距离。目前已知的最优方法COACH及其部分子方法被选为实验基准。测试实验在一个基本测试集和三个扩展测试集上进行,其中基本测试集包含151条非冗余蛋白质。实验表明Deepsi无需依赖任何采样手段即可在严重倾斜的训练集上正常拟合并获取良好的泛化性能,其MCC和精确率相对于基准模型的提升分别不低于0.05和16%。·在结合残基聚集性的基础上提出了另一种基于深度学习的蛋白质-配体结合残基预测方法。该方法(i Deepsi)使用的特征与Deepsi相同。由于结合残基的位置分布表现出聚集性,i Deepsi在原有深度网络中增加了新模块,从上下文标签或预测结果中提取特征。i Deepsi通过改变其深度网络的前向传播机制提高了其在测试过程和生产环境中的并行度。i Deepsi与Deepsi共用所有数据集,同样可在严重倾斜的训练集上正常拟合。实验表明i Deepsi相对于基准模型在MCC和精确率方面的提升分别不低于0.07和19%。在不使用包括三维结构在内的任何模板的前提下,Deepsi和i Deepsi在性能上相对于已提出的各类方法均有显著提升,包括最具代表性的COACH。此外,本文还讨论了一种训练集增量化方案,其略微提高了预测性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景
  •     1.1.1 时代背景
  •     1.1.2 生物序列与自然语言的相似性
  •     1.1.3 计算方法
  •   1.2 国内外研究现状
  •   1.3 研究内容
  •   1.4 组织架构
  • 第二章 深度学习相关研究
  •   2.1 卷积神经网络
  •     2.1.1 稀疏连接
  •     2.1.2 权值共享
  •     2.1.3 等变表示
  •     2.1.4 卷积运算
  •   2.2 循环神经网络
  •     2.2.1 RNN
  •     2.2.2 LSTM
  •   2.3 标准化
  •     2.3.1 Batch Normalization
  •     2.3.2 Layer Normalization
  •   2.4 本章小结
  • 第三章 研究基础
  •   3.1 数据集
  •   3.2 特征
  •     3.2.1 位置特异性打分矩阵
  •     3.2.2 溶剂可及性
  •     3.2.3 蛋白质二级结构
  •     3.2.4 二面角
  •     3.2.5 保守性
  •     3.2.6 残基氨基酸类型
  •     3.2.7 位置编码
  •   3.3 网络重要特性
  •     3.3.1 有效上下文范围
  •     3.3.2 变长处理
  •   3.4 评价方式
  •   3.5 本章小结
  • 第四章 蛋白质-配体结合残基预测
  •   4.1 解决方案
  •     4.1.1 方案动机
  •     4.1.2 方案架构
  •   4.2 构造网络
  •     4.2.1 构造思路
  •     4.2.2 网络结构
  •     4.2.3 Basic Block
  •   4.3 实验分析
  •     4.3.1 超参数调优
  •     4.3.2 优化策略
  •     4.3.3 Softmax阈值
  •     4.3.4 DSI与其他方法的比较
  •     4.3.5 数据增量化
  •   4.4 本章小结
  • 第五章 架构改进与分析
  •   5.1 解决方案
  •     5.1.1 方案动机
  •     5.1.2 方案架构
  •   5.2 构造网络
  •     5.2.1 网络结构
  •     5.2.2 改进网络并行度
  •   5.3 DSI与iDSI的比较
  •   5.4 性能提升的主要来源
  •   5.5 本章小结
  • 第六章 总结与展望
  •   6.1 总结
  •   6.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表论文情况
  • 文章来源

    类型: 硕士论文

    作者: 崔屹峰

    导师: 周傲英

    关键词: 蛋白质,配体,结合残基,长距离依赖,深度卷积神经网络

    来源: 华东师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 华东师范大学

    分类号: TP18;Q811.4

    总页数: 76

    文件大小: 2109K

    下载量: 75

    相关论文文献

    • [1].基于β-乳球蛋白配体结合特性的活性成分包埋和保护研究现状[J]. 中国食品学报 2015(04)
    • [2].酶蛋白质β-发夹模体配体结合位点的统计分析及预测[J]. 内蒙古工业大学学报(自然科学版) 2011(03)
    • [3].整联蛋白与其配体结合的分子机制研究进展[J]. 生物技术通讯 2008(06)
    • [4].G蛋白偶联受体配体结合分析技术[J]. 药物分析杂志 2015(01)
    • [5].受体-配体结合的质谱分析方法研究进展[J]. 中国药学杂志 2013(15)
    • [6].三种配体结合残基的识别[J]. 内蒙古工业大学学报(自然科学版) 2015(04)
    • [7].基于组合的矩阵打分算法识别Na~+和K~+配体结合残基[J]. 内蒙古工业大学学报(自然科学版) 2016(04)
    • [8].基于优化的GBM算法识别金属离子配体结合残基[J]. 内蒙古工业大学学报(自然科学版) 2019(05)
    • [9].附睾特异分泌蛋白Lipocalin13的原核表达和纯化及其与配体结合特性的分析[J]. 药物生物技术 2010(02)
    • [10].VLDL-R配体结合结构域的克隆与表达[J]. 医学分子生物学杂志 2008(01)
    • [11].整合素-配体结合键力加载率强化特性——基于贝叶斯推断数据分析的发现[J]. 医用生物力学 2019(S1)
    • [12].基于配体结合分析-液相色谱串联质谱技术的生物技术药物定量分析方法研究进展[J]. 药物分析杂志 2020(07)
    • [13].一种人内皮素受体B受体-配体结合检测体系的建立[J]. 药物生物技术 2014(03)
    • [14].黄素氧化还原蛋白研究进展[J]. 生命科学 2012(10)
    • [15].孕烷X受体配体结合结构域蛋白晶体的X线衍射结构解析[J]. 生物技术通讯 2019(03)
    • [16].作用于雄激素受体不同结合位点的前列腺癌治疗药物的研究进展[J]. 现代药物与临床 2015(08)
    • [17].PSD-95-PDZ12的动力学性质及其对配体结合的调节[J]. 生物物理学报 2009(S1)
    • [18].基于SVM整体分类器的Ca~(2+)和Mn~(2+)配体结合残基的识别[J]. 内蒙古工业大学学报(自然科学版) 2017(04)
    • [19].计算受体和配体结合自由能的新方法[J]. 分子科学学报 2010(05)
    • [20].晚期糖基化终末产物受体及其抑制剂的研究进展[J]. 中国药理学通报 2013(04)
    • [21].抗冻蛋白与冰晶表面结合的平衡方程[J]. 生物物理学报 2009(S1)
    • [22].晚期糖基化终产物受体、可溶性晚期糖基化终产物受体与2型糖尿病心血管并发症的关系[J]. 医学综述 2015(15)
    • [23].晚期糖基化终末产物受体及其配体在阿尔茨海默病发病机制中的作用及其临床意义[J]. 国际神经病学神经外科学杂志 2013(01)
    • [24].基于荧光数据计算蛋白质-配体结合常数的方程的对比及应用研究[J]. 光谱学与光谱分析 2020(11)
    • [25].T细胞抑制性受体及其免疫调节作用[J]. 科技导报 2015(18)
    • [26].孤儿核受体Nur77在肝脏脂质代谢调控中的作用[J]. 中国实验诊断学 2012(04)
    • [27].表皮生长因子受体对肝细胞增殖的调控作用[J]. 医学研究杂志 2012(11)
    • [28].两种酸根离子配体结合位点的识别[J]. 内蒙古工业大学学报(自然科学版) 2018(04)
    • [29].猪带绦虫胰岛素受体TsIR-1316的鉴定及其配体结合结构域的表达[J]. 中国寄生虫学与寄生虫病杂志 2016(02)
    • [30].刊中刊[J]. 华东科技 2014(11)

    标签:;  ;  ;  ;  ;  

    基于深度学习的蛋白质—配体结合残基预测
    下载Doc文档

    猜你喜欢