基于蛋白质序列的表示学习和最适条件分析

论文摘要

蛋白质是具有复杂结构的化合物,是生命体细胞中重要的组成成分。酶是一类具有催化作用的蛋白质,其只能在例如:酸性环境,高温环境等特定的环境条件中发挥催化作用。能够使酶发挥最大催化作用的环境条件称为最适条件。自然界中的野生型酶不能在研究人员预期条件下发挥良好的催化作用。因此获得酶的最适条件,并利用蛋白质工程使突变体能够在预期环境中发挥催化作用,一直是生命科学研究的热点。生物研究人员通常使用梯度试验获得野生型酶的最适条件。然后,利用三级结构分析结构与最适条件的关系,通过定向突变获得野生型酶的多种突变体。最后,通过筛选找到能够在预期环境条件种发挥催化作用的突变体。但梯度试验过程繁琐,单次实验只能对单个酶进行实验,获得最适条件的效率较低。定向突变虽然能够获得满足需求的酶,但对野生型酶的突变是不可控的,生物研究人员需要对一种酶执行多种突变方案从中筛选预期的突变体。因此,使用传统的生物学方法获得满足预期的突变体酶是困难且低效的。针对上述问题,本文从酶的氨基酸序列出发,探讨酶的最适条件与氨基酸序列的关联关系。提出了一种将氨基酸以及序列结构信息转化为隐式空间中多维向量的表示学习方法。氨基酸和序列位点的向量中包含了氨基酸与序列位点的相容性关系以及氨基酸和序列位点与最适条件的关联关系。利用这些向量,本文设计了一个相容性得分来评估氨基酸与序列位点的相容性。本文利用相容性得分做了一下几点尝试:(1)分析酶的保守区和非保守区:若某些序列片段或位点与不同种类氨基酸的相容性得分均高于其他片段或位点,表明该序列片段或位点能够影响最适条件,则该序列片段或位点为非保守区;反之,则为保守区。(2)预测给定酶的最适条件:将氨基酸序列位点与该位点氨基酸的相容性得分作为该位点的特征值,将氨基酸序列转化为蛋白质的特征向量,利用回归模型预测酶的最适条件。(3)给定预期条件,对野生型酶进行突变指导:在非保守区中找到相容性得分最低的位点,通过替换氨基酸改善该位点的相容性得分,使替换后的突变体的最适条件更加接近预期条件。(4)给定预期条件,设计氨基酸序列:参考生物学知识与规范,将相容性得分转化成在某个位点出现某种氨基酸的概率。根据氨基酸的概率分布为每个位点选择合适的氨基酸,从而生成新的氨基酸序列。为了方便实际应用,本文爬取了CAZY数据库中糖化水解酶GH11家族的氨基酸序列,并从相关文献中收集125条氨基酸序列的最适pH。由于从机器学习的角度来看,本实验样本量较小,因此本文引入了一种面向小样本的概率生成方法来实现对小样本的表示学习。与生物传统方法相比,本文的表示学习方法速度更快,效果更好;与其他计算方法相比,本文方法输入更少且更加有效。为了方便生物研究人员对本文方法的使用,本文开发了一款面向蛋白质家族表示学习的可视化工具。该工具提供了简易的模型调试操作以及可视化的模型评估界面,使得生物研究人员不需要了解计算知识即可对模型进行修改和使用。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 课题背景

1.2 相关工作

1.2.1 蛋白质最适条件分析

1.2.2 蛋白质突变指导

1.3 问题挑战

1.4 本文贡献

1.5 论文组织架构

第2章面向最适条件的氨基酸序列表示学习

2.1 问题描述和模型框架

2.2 面向最适条件的氨基酸和序列位点向量的表示学习

2.2.1 单位点氨基酸与最适条件的关联性分析

2.2.2 多位点氨基酸与最适条件的关联性分析

2.2.3 联合目标构建及优化学习

2.3 数据集

2.3.1 GH11家族氨基酸序列集合

2.3.2 面向小样本的概率生成方法

2.3.3 数据预处理

2.4 表示向量的语义分析

2.4.1 面向保守区和非保守区的语义分析

2.4.2 面向氨基酸之间生物学差异的语义分析

第3章基于氨基酸序列向量的生物学分析

3.1 最适pH预测

3.1.1 对比方法及评估标准

3.1.2 结果分析

3.1.3 参数对模型的影响

3.1.4 生物学验证

3.2 突变指导

3.2.1 基于序列位点和氨基酸的相容性给出合理的突变推荐

3.2.2 结果分析

3.2.3 生物学验证

3.3 面向蛋白质活性和耐碱性的序列设计

3.3.1 设计原则

3.3.2 设计具有耐碱性的氨基酸序列

3.3.3 对比方法

3.3.4 评估方法及结果分析

第4章面向蛋白质家族的表示学习工具

4.1 需求分析

4.2 架构设计

4.3 服务端搭建

4.4 可视化应用开发环境及工具

4.5 功能描述

第5章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读学位期间发表的主要学术论文

攻读学位期间参加的科研项目

学位论文评阅及答辩情况表

文章来源

类型: 硕士论文

作者: 李相君

导师: 孙宇清

关键词: 氨基酸序列,最适条件,表示学习,定向突变,非保守区,可视化工具

来源: 山东大学

年度: 2019

分类: 基础科学,信息科技

专业: 生物学,自动化技术

单位: 山东大学

分类号: TP181;Q51

总页数: 65

文件大小: 4642K

下载量: 35

基于蛋白质序列的表示学习和最适条件分析

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢