论文摘要
蛋白质是具有复杂结构的化合物,是生命体细胞中重要的组成成分。酶是一类具有催化作用的蛋白质,其只能在例如:酸性环境,高温环境等特定的环境条件中发挥催化作用。能够使酶发挥最大催化作用的环境条件称为最适条件。自然界中的野生型酶不能在研究人员预期条件下发挥良好的催化作用。因此获得酶的最适条件,并利用蛋白质工程使突变体能够在预期环境中发挥催化作用,一直是生命科学研究的热点。生物研究人员通常使用梯度试验获得野生型酶的最适条件。然后,利用三级结构分析结构与最适条件的关系,通过定向突变获得野生型酶的多种突变体。最后,通过筛选找到能够在预期环境条件种发挥催化作用的突变体。但梯度试验过程繁琐,单次实验只能对单个酶进行实验,获得最适条件的效率较低。定向突变虽然能够获得满足需求的酶,但对野生型酶的突变是不可控的,生物研究人员需要对一种酶执行多种突变方案从中筛选预期的突变体。因此,使用传统的生物学方法获得满足预期的突变体酶是困难且低效的。针对上述问题,本文从酶的氨基酸序列出发,探讨酶的最适条件与氨基酸序列的关联关系。提出了一种将氨基酸以及序列结构信息转化为隐式空间中多维向量的表示学习方法。氨基酸和序列位点的向量中包含了氨基酸与序列位点的相容性关系以及氨基酸和序列位点与最适条件的关联关系。利用这些向量,本文设计了一个相容性得分来评估氨基酸与序列位点的相容性。本文利用相容性得分做了一下几点尝试:(1)分析酶的保守区和非保守区:若某些序列片段或位点与不同种类氨基酸的相容性得分均高于其他片段或位点,表明该序列片段或位点能够影响最适条件,则该序列片段或位点为非保守区;反之,则为保守区。(2)预测给定酶的最适条件:将氨基酸序列位点与该位点氨基酸的相容性得分作为该位点的特征值,将氨基酸序列转化为蛋白质的特征向量,利用回归模型预测酶的最适条件。(3)给定预期条件,对野生型酶进行突变指导:在非保守区中找到相容性得分最低的位点,通过替换氨基酸改善该位点的相容性得分,使替换后的突变体的最适条件更加接近预期条件。(4)给定预期条件,设计氨基酸序列:参考生物学知识与规范,将相容性得分转化成在某个位点出现某种氨基酸的概率。根据氨基酸的概率分布为每个位点选择合适的氨基酸,从而生成新的氨基酸序列。为了方便实际应用,本文爬取了CAZY数据库中糖化水解酶GH11家族的氨基酸序列,并从相关文献中收集125条氨基酸序列的最适pH。由于从机器学习的角度来看,本实验样本量较小,因此本文引入了一种面向小样本的概率生成方法来实现对小样本的表示学习。与生物传统方法相比,本文的表示学习方法速度更快,效果更好;与其他计算方法相比,本文方法输入更少且更加有效。为了方便生物研究人员对本文方法的使用,本文开发了一款面向蛋白质家族表示学习的可视化工具。该工具提供了简易的模型调试操作以及可视化的模型评估界面,使得生物研究人员不需要了解计算知识即可对模型进行修改和使用。
论文目录
文章来源
类型: 硕士论文
作者: 李相君
导师: 孙宇清
关键词: 氨基酸序列,最适条件,表示学习,定向突变,非保守区,可视化工具
来源: 山东大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 山东大学
分类号: TP181;Q51
总页数: 65
文件大小: 4642K
下载量: 35
相关论文文献
- [1].探究铜和浓硫酸反应的最适条件[J]. 中学生数理化(学习研究) 2016(10)
- [2].紫外分光光度法测定啤酒大麦籽粒脂氧合酶活力的研究[J]. 核农学报 2016(05)
- [3].一株生物表面活性剂产生菌的分离及其特性研究[J]. 微生物学通报 2009(08)
- [4].乳酸菌发酵米糠富锗条件的筛选[J]. 吉林畜牧兽医 2017(09)