基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测

基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测

论文摘要

翻译后修饰是对蛋白质中的一个或多个氨基酸添加官能团(如烷基、烯基、苯基等)改变其化学性质或者空间结构,从而进一步影响蛋白质在细胞生命活动过程的调控作用。在众多的蛋白质翻译后修饰中,赖氨酸丙二酰化是将丙二酰基团从丙二酰辅酶A转移到赖氨酸残基上的一种化学修饰。研究证明,这一修饰能调控肝脏组织中葡萄糖和脂肪酸的代谢,并且与二型糖尿病和肥胖症等高发病率的代谢疾病相关。因此,对赖氨酸丙二酰化位点的精准识别能有助于人们深入了解相关疾病的发病机理以及治疗方法。本文基于实验验证的真实数据,提出了一个用于精准预测赖氨酸丙二酰化位点的集成学习框架,主要工作与结论如下:(1)赖氨酸丙二酰化数据集的收集与预处理。首先,我们从公共数据库中收集实验验证过的丙二酰化修饰的蛋白质序列。然后,以赖氨酸(K)为中心截取长度为25个氨基酸的残基序列,若中心赖氨酸(K)被丙二酰化则定义为正样本,否则定义为负样本,以此构建用于机器学习建模的高质量的赖氨酸丙二酰化位点数据集。此外,通过序列比对的方式探究了正负样本序列的差异性,并发现正负样本之间存在大量的区域性重叠。基于序列的全方位特征探索,找寻正负样本之间潜在的差异性,为构建高精度的预测模型奠定坚实的基础。(2)赖氨酸丙二酰化残基序列的特征提取与特征选择。为了从赖氨酸丙二酰化位点的残基序列中提取关键模式和特征,我们分析和比较了11种不同的特征编码方法,总计生成了2275维原始特征向量。通过使用信息增益特征选择算法为原始特征进行特征重要性排序,并使用随机森林模型基于十次十折交叉验证探寻各个数据集上对应的最优特征集。(3)集成学习模型的构建。本文基于四种常见的机器学习方法(即随机森林、支持向量机、K-近邻和逻辑回归)以及最近提出的一种基于梯度提升决策树的算法(LightGBM)对三个物种的数据(大肠杆菌、小鼠、人类)使用最优特征集进行训练,构建了多个单一机器学习模型。通过研究发现对单一机器学习方法模型的集成可以进一步提高模型鲁棒性和预测精度。最终在独立测试集上与现有的最先进的预测器(MaloPred)相比,优化的集成模型在各个物种数据集上的性能全面领先(大肠杆菌、小鼠和人类的AUC的值分别为0.930,0.923,0.944)。(4)在线预测服务器的开发。基于此集成模型,我们利用Gearman任务分发框架开发了一个高并发、负载均衡的赖氨酸丙二酰化位点在线预测服务器(http://kmalsp.erc.monash.edu/),为广泛的研究团体提供赖氨酸丙二酰化位点的初筛服务。本论文的研究和提出的集成学习模型方法有助于缩短新型丙二酰化位点实验验证的周期,加速发现新的丙二酰化和其它翻译后修饰位点,为未来相关翻译后修饰位点的预测计算方法提供新思路。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  •   §1.1 研究背景与意义
  •   §1.2 国内外研究现状与发展趋势
  •   §1.3 研究内容、方法及创新点
  •     §1.3.1 研究内容
  •     §1.3.2 研究方法
  •     §1.3.3 创新点
  •   §1.4 本文组织结构
  • 第二章 数据收集与分析
  •   §2.1 数据收集与预处理
  •   §2.2 序列分析
  •   §2.3 本章小结
  • 第三章 特征工程
  •   §3.1 特征提取
  •     §3.1.1 基于序列本身的特征提取算法
  •     §3.1.2 基于氨基酸物理化学性质的特征提取算法
  •     §3.1.3 基于遗传进化信息的特征提取算法
  •   §3.2 特征归一化
  •   §3.3 特征选择
  •   §3.4 本章小结
  • 第四章 机器学习建模
  •   §4.1 随机森林
  •   §4.2 支持向量机
  •   §4.3 梯度提升决策树
  •   §4.4 K近邻
  •   §4.5 逻辑斯蒂回归
  •   §4.6 集成学习
  •   §4.7 本章小结
  • 第五章 实验结果分析
  •   §5.1 十折交叉验证和独立测试集测试
  •   §5.2 模型评估指标
  •   §5.3 十折交叉验证实验结果和分析
  •     §5.3.1 十折交叉验证和独立测试集测试
  •     §5.3.2 最优特征集的构建
  •     §5.3.3 单一模型的性能比较
  •   §5.4 独立测试集实验结果和分析
  •     §5.4.1 单一模型与集成模型的性能比较
  •     §5.4.2 与已有预测工具的性能对比
  •   §5.5 本章小结
  • 第六章 在线预测服务器
  •   §6.1 服务器架构
  •   §6.2 服务器功能的介绍与使用
  •   §6.3 本章小结
  • 第七章 结论
  •   §7.1 总结
  •   §7.2 展望
  • 参考文献
  • 致谢
  • 作者在攻读硕士期间的主要研究成果
  • 文章来源

    类型: 硕士论文

    作者: 谢若鹏

    导师: 张艳菊

    关键词: 生物信息,赖氨酸丙二酰化,特征编码方法,集成学习,在线预测服务器

    来源: 桂林电子科技大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 生物学,基础医学

    单位: 桂林电子科技大学

    分类号: Q811.4;R346

    总页数: 71

    文件大小: 3748K

    下载量: 48

    相关论文文献

    • [1].选择性集成学习模型在岩性-孔隙度预测中的应用[J]. 科学技术与工程 2020(03)
    • [2].基于异质集成学习的虚假评论检测[J]. 山东大学学报(工学版) 2020(02)
    • [3].基于标记分布学习的异态集成学习算法[J]. 模式识别与人工智能 2019(10)
    • [4].集成学习方法:研究综述[J]. 云南大学学报(自然科学版) 2018(06)
    • [5].基于动态选择性集成学习的供应链产销协商优化策略[J]. 计算机工程 2017(05)
    • [6].集成学习中预测精度的影响因素分析[J]. 兵工自动化 2019(01)
    • [7].基于集成学习的小麦识别研究[J]. 现代商贸工业 2019(17)
    • [8].集成学习在文本分类问题中的应用[J]. 中国新通信 2018(09)
    • [9].基于漂移检测和集成学习的木马检测模型[J]. 信息工程大学学报 2017(06)
    • [10].异质集成学习器在鸢尾花卉分类中的应用[J]. 电子制作 2019(02)
    • [11].集成学习方法研究[J]. 计算技术与自动化 2018(04)
    • [12].基于集成学习的房价预测方法研究[J]. 中国新通信 2019(07)
    • [13].异质集成学习器在鸢尾花卉分类中的应用[J]. 中国设备工程 2018(20)
    • [14].基于超声特征集成学习的甲状腺结节分类方法研究[J]. 智能计算机与应用 2016(06)
    • [15].基于选择性集成学习的焊接缺陷识别研究[J]. 中国矿业大学学报 2011(06)
    • [16].选择性集成学习算法综述[J]. 计算机学报 2011(08)
    • [17].核机器集成学习算法的误差分析[J]. 重庆文理学院学报(自然科学版) 2010(04)
    • [18].基于集成学习的复杂网络链路预测及其形成机制分析(英文)[J]. 重庆邮电大学学报(自然科学版) 2020(05)
    • [19].集成学习算法在中医证型分类预测中的应用[J]. 计算机工程与科学 2019(02)
    • [20].一种基于集成学习的科研合作者潜力预测分类方法[J]. 计算机研究与发展 2019(07)
    • [21].一种新颖的多实例集成学习算法[J]. 蚌埠学院学报 2018(05)
    • [22].基于重采样策略的选择性谱聚类集成学习算法[J]. 科学技术与工程 2013(19)
    • [23].个人信用评估应用方法分析——基于集成学习算法视角[J]. 经济问题 2011(12)
    • [24].面向神经机器翻译的集成学习方法分析[J]. 中文信息学报 2019(03)
    • [25].面向不均衡数据的动态抽样集成学习算法[J]. 计算机应用与软件 2019(06)
    • [26].基于集成学习的公交车辆到站时间预测模型研究[J]. 重庆理工大学学报(自然科学) 2019(10)
    • [27].基于集成学习的温室育种智能决策算法[J]. 西南科技大学学报 2017(04)
    • [28].人工智能集成学习方法在入侵检测中的运用[J]. 信息技术与网络安全 2018(02)
    • [29].一种异构集成学习的儿科疾病诊断方法研究[J]. 计算机应用与软件 2018(06)
    • [30].基于聚类优化覆盖的集成学习方法[J]. 计算机技术与发展 2010(11)

    标签:;  ;  ;  ;  ;  

    基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测
    下载Doc文档

    猜你喜欢