基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测

论文摘要

翻译后修饰是对蛋白质中的一个或多个氨基酸添加官能团（如烷基、烯基、苯基等）改变其化学性质或者空间结构,从而进一步影响蛋白质在细胞生命活动过程的调控作用。在众多的蛋白质翻译后修饰中,赖氨酸丙二酰化是将丙二酰基团从丙二酰辅酶A转移到赖氨酸残基上的一种化学修饰。研究证明,这一修饰能调控肝脏组织中葡萄糖和脂肪酸的代谢,并且与二型糖尿病和肥胖症等高发病率的代谢疾病相关。因此,对赖氨酸丙二酰化位点的精准识别能有助于人们深入了解相关疾病的发病机理以及治疗方法。本文基于实验验证的真实数据,提出了一个用于精准预测赖氨酸丙二酰化位点的集成学习框架,主要工作与结论如下:（1）赖氨酸丙二酰化数据集的收集与预处理。首先,我们从公共数据库中收集实验验证过的丙二酰化修饰的蛋白质序列。然后,以赖氨酸（K）为中心截取长度为25个氨基酸的残基序列,若中心赖氨酸（K）被丙二酰化则定义为正样本,否则定义为负样本,以此构建用于机器学习建模的高质量的赖氨酸丙二酰化位点数据集。此外,通过序列比对的方式探究了正负样本序列的差异性,并发现正负样本之间存在大量的区域性重叠。基于序列的全方位特征探索,找寻正负样本之间潜在的差异性,为构建高精度的预测模型奠定坚实的基础。（2）赖氨酸丙二酰化残基序列的特征提取与特征选择。为了从赖氨酸丙二酰化位点的残基序列中提取关键模式和特征,我们分析和比较了11种不同的特征编码方法,总计生成了2275维原始特征向量。通过使用信息增益特征选择算法为原始特征进行特征重要性排序,并使用随机森林模型基于十次十折交叉验证探寻各个数据集上对应的最优特征集。（3）集成学习模型的构建。本文基于四种常见的机器学习方法（即随机森林、支持向量机、K-近邻和逻辑回归）以及最近提出的一种基于梯度提升决策树的算法（LightGBM）对三个物种的数据（大肠杆菌、小鼠、人类）使用最优特征集进行训练,构建了多个单一机器学习模型。通过研究发现对单一机器学习方法模型的集成可以进一步提高模型鲁棒性和预测精度。最终在独立测试集上与现有的最先进的预测器（MaloPred）相比,优化的集成模型在各个物种数据集上的性能全面领先（大肠杆菌、小鼠和人类的AUC的值分别为0.930,0.923,0.944）。（4）在线预测服务器的开发。基于此集成模型,我们利用Gearman任务分发框架开发了一个高并发、负载均衡的赖氨酸丙二酰化位点在线预测服务器（http://kmalsp.erc.monash.edu/）,为广泛的研究团体提供赖氨酸丙二酰化位点的初筛服务。本论文的研究和提出的集成学习模型方法有助于缩短新型丙二酰化位点实验验证的周期,加速发现新的丙二酰化和其它翻译后修饰位点,为未来相关翻译后修饰位点的预测计算方法提供新思路。

论文目录

摘要

ABSTRACT

第一章引言

§1.1 研究背景与意义

§1.2 国内外研究现状与发展趋势

§1.3 研究内容、方法及创新点

§1.3.1 研究内容

§1.3.2 研究方法

§1.3.3 创新点

§1.4 本文组织结构

第二章数据收集与分析

§2.1 数据收集与预处理

§2.2 序列分析

§2.3 本章小结

第三章特征工程

§3.1 特征提取

§3.1.1 基于序列本身的特征提取算法

§3.1.2 基于氨基酸物理化学性质的特征提取算法

§3.1.3 基于遗传进化信息的特征提取算法

§3.2 特征归一化

§3.3 特征选择

§3.4 本章小结

第四章机器学习建模

§4.1 随机森林

§4.2 支持向量机

§4.3 梯度提升决策树

§4.4 K近邻

§4.5 逻辑斯蒂回归

§4.6 集成学习

§4.7 本章小结

第五章实验结果分析

§5.1 十折交叉验证和独立测试集测试

§5.2 模型评估指标

§5.3 十折交叉验证实验结果和分析

§5.3.1 十折交叉验证和独立测试集测试

§5.3.2 最优特征集的构建

§5.3.3 单一模型的性能比较

§5.4 独立测试集实验结果和分析

§5.4.1 单一模型与集成模型的性能比较

§5.4.2 与已有预测工具的性能对比

§5.5 本章小结

第六章在线预测服务器

§6.1 服务器架构

§6.2 服务器功能的介绍与使用

§6.3 本章小结

第七章结论

§7.1 总结

§7.2 展望

参考文献

致谢

作者在攻读硕士期间的主要研究成果

文章来源

类型: 硕士论文

作者: 谢若鹏

导师: 张艳菊

关键词: 生物信息,赖氨酸丙二酰化,特征编码方法,集成学习,在线预测服务器

来源: 桂林电子科技大学

年度: 2019

分类: 基础科学,医药卫生科技

专业: 生物学,基础医学

单位: 桂林电子科技大学

分类号: Q811.4;R346

总页数: 71

文件大小: 3748K

下载量: 48

基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢