基于生物学特征的蛋白质-DNA界面热点残基预测方法研究

基于生物学特征的蛋白质-DNA界面热点残基预测方法研究

论文摘要

蛋白质和DNA是组成生命体复杂结构和功能的重要生物大分子。在各种生命活动中,它们之间的相互作用,即蛋白质-DNA相互作用,都有着相当重要的作用。而在蛋白质-DNA相互作用中,少部分氨基酸残基贡献了绝大部分的结合自由能,这部分残基被称为热点残基。研究蛋白质-DNA复合物结合机制和稳定性的一个关键就是识别其相互作用界面上的热点残基问题。丙氨酸扫描作为一种分析蛋白质表面上的特定氨基酸残基功能的生物实验技术,已经广泛应用于鉴定蛋白质-DNA中残基的结合自由能。这种实验技术将蛋白质-DNA界面上的氨基酸残基突变成丙氨酸,然后通过计算自由能的变化来识别热点残基。但是通过生物实验方法鉴定界面热点残基代价昂贵、耗时耗力,因此有必要发展识别蛋白质-DNA相互作用界面热点残基的计算方法。已有的计算方法大多使用基于分子动力学模拟的方法计算蛋白质-DNA结合自由能,进而预测热点残基。这类方法在构建预测模型时容易受到部分蛋白质结构的限制,并且预测效率也较低。而基于机器学习的计算方法则可以有效地克服这些不足之处。本文的主要工作如下:1.提出了基于一般性生物学特征的蛋白质-DNA热点残基预测方法。我们合并dbAMEPNI和SAMPDI两部分数据并筛选得到了64个蛋白质-DNA复合物共214个蛋白质-DNA界面残基,其中150个作为训练集,64个作为测试集。我们按照序列、结构、网络和溶剂可及表面积四个类别一共提取了114维特征。在比较分析了四种不同的特征选择方法后,提取了 10个最优特征。接着分别使用支持向量机、朴素贝叶斯、K近邻算法和随机森林来构建模型。并根据比较结果,最终使用支持向量机在10个特征上构建了预测模型PrPDH(Prediction of Protein-DNA binding Hot spot)。在训练与测试数据集上的比较结果表明,PrPDH预测性能相比其他方法性能更好,在训练集上的F1和AUC分别是0.721和0.803,在测试集上的F1为0.706,AUC为0.764。PrPDH的在线预测网址为http://bioinfo.ahu.edu.cn:8080/PrPDH/。2.提出了基于不同状态邻居信息的蛋白质-DNA热点残基预测方法。从蛋白质-DNA结合机制出发,在已有的10个最优特征基础上,分析蛋白质-DNA界面残基在结合和非结合DNA状态下的氢键、溶剂可及表面积、深度和突出指数特征,计算残基在作为供体时结合DNA链上相邻核苷酸产生的氢键数目,同时引入界面邻居残基的信息,改进溶剂可及表面积和残基深度、突出指数特征的编码方式,从而体现该残基在两种状态下的特征变化村相对于邻居残基的变化强度。最终共得到41维特征。然后使用基于支持向量机的递归特征消除法(SVM-RFE)并根据特征之间的相关性去除冗余并选择8维特征,结合支持向量机构建PrPDH-V2模型。通过模型的性能比较表明,PrPDH-V2相比PrPDH和其他方法在性能上有着较大的提升,在训练集上的F1为0.787,AUC为0.871,在测试集上的F1和AUC分别是0.755和0.852。实验结果表明,这种改进的特征编码方式能够有效识别蛋白质-DNA相互作用界面上的热点残基。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 引言
  •   1.2 国内外研究现状
  •     1.2.1 研究背景及意义
  •     1.2.2 计算方法的研究现状
  •   1.3 本文研究内容及创新点
  •   1.4 论文的结构
  • 第二章 论文相关基础知识
  •   2.1 支持向量机
  •   2.2 特征选择
  •   2.3 模型评价指标
  • 第三章 基于一般性生物学特征预测蛋白质-DNA热点残基
  •   3.1 引言
  •   3.2 材料与方法
  •     3.2.1 数据收集与筛选
  •     3.2.2 特征提取
  •     3.2.3 特征选择
  •     3.2.4 模型构建
  •   3.3 结果与分析
  •     3.3.1 特征选择方法比较
  •     3.3.2 分类算法选择
  •     3.3.3 特征重要性分析
  •     3.3.4 与其他方法比较
  •   3.4 在线工具构建
  •   3.5 本章小结
  • 第四章 基于不同状态邻居信息特征预测蛋白质-DNA热点残基
  •   4.1 引言
  •   4.2 特征工程
  •     4.2.1 特征提取
  •     4.2.2 特征选择
  •   4.3 结果与分析
  •     4.3.1 特征分析
  •     4.3.2 模型比较
  •   4.4 本章小结
  • 第五章 总结与展望
  •   5.1 本文总结
  •   5.2 未来工作展望
  • 参考文献
  • 附录
  • 致谢
  • 攻读学位期间发表的学术论文
  • 文章来源

    类型: 硕士论文

    作者: 赵乐

    导师: 夏俊峰

    关键词: 支持向量机,蛋白质相互作用,热点残基,溶剂可及表面积,邻居残基

    来源: 安徽大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 安徽大学

    分类号: TP181;Q51

    总页数: 60

    文件大小: 3617K

    下载量: 55

    相关论文文献

    • [1].基于科学思维的“DNA是主要的遗传物质”教学设计[J]. 教育观察 2019(30)
    • [2].基于粪便DNA的贺兰山岩羊亲权鉴定和婚配制研究[J]. 生态学报 2019(22)
    • [3].通过调节蛋白酶K消化时长优化DNA提取方法[J]. 生物化工 2019(06)
    • [4].蛹虫草线粒体DNA与细胞核DNA进化关系的比较[J]. 微生物学报 2019(12)
    • [5].有毒有机物影响DNA酶解和抗生素抗性基因横向迁移[J]. 农业环境科学学报 2020(01)
    • [6].蓝莓栽培品种的DNA条形码[J]. 林业科学 2019(12)
    • [7].应用于多个沉香属物种鉴定的DNA条形码序列筛选[J]. 中国药学杂志 2019(23)
    • [8].抗核抗体和抗双链DNA检测在系统性红斑狼疮诊断中的意义[J]. 中国医疗器械信息 2019(23)
    • [9].幽门螺旋杆菌诱导的胃腺癌DNA甲基化基因修饰研究进展[J]. 中国老年保健医学 2019(06)
    • [10].DNA分析技术在法医物证鉴定中的应用[J]. 法制博览 2020(03)
    • [11].磁性纳米颗粒负载质粒DNA的研究[J]. 华南农业大学学报 2020(01)
    • [12].DNA智慧扶贫工作室教育扶贫策略与实践[J]. 科技风 2020(06)
    • [13].家畜冷冻精液DNA的纯化及影响因素分析[J]. 南京农业大学学报 2020(02)
    • [14].蝙蝠蛾拟青霉及金水宝胶囊的DNA条形码鉴定[J]. 中国实验方剂学杂志 2020(08)
    • [15].3种DNA分子标记法联合鉴别草珊瑚及其混伪品[J]. 中草药 2020(03)
    • [16].探讨无创DNA检测和羊水细胞染色体检查的意义[J]. 中国卫生标准管理 2020(03)
    • [17].乳头状甲状腺癌中线粒体DNA突变的研究[J]. 中国细胞生物学学报 2020(01)
    • [18].非标记表面增强拉曼光谱在DNA检测中的应用[J]. 激光生物学报 2020(01)
    • [19].彗星电泳检测草胺磷对蚯蚓体腔细胞DNA的损伤[J]. 广东农业科学 2020(01)
    • [20].基于DNA检测的肉制品鉴伪技术研究进展[J]. 食品工业科技 2020(08)
    • [21].绵羊血液中布氏杆菌DNA提取方法的比较研究[J]. 畜牧与兽医 2020(03)
    • [22].环境DNA在水体中存留时间的检测研究——以中国对虾为例[J]. 渔业科学进展 2020(01)
    • [23].云斑白条天牛成虫不同组织部位DNA提取方法比较[J]. 滨州学院学报 2019(06)
    • [24].三七片DNA条形码分子鉴定及方法学考察[J]. 中草药 2020(07)
    • [25].DNA倍体分析系统在脱落细胞学及术中病理诊断中的应用[J]. 中国农村卫生 2020(03)
    • [26].DNA免疫吸附治疗重度活动性系统性红斑狼疮的疗效观察[J]. 中国社区医师 2020(07)
    • [27].红肉猕猴桃再生体系的建立及DNA条形码鉴定[J]. 植物生理学报 2020(03)
    • [28].蛋白质精氨酸甲基转移酶1调控DNA损伤修复和细胞凋亡[J]. 海洋科学 2020(03)
    • [29].基于密度梯度离心技术分离稳定同位素DNA的方法研究[J]. 实验科学与技术 2020(02)
    • [30].基于DNA链置换的可满足性问题的计算模型[J]. 阜阳师范学院学报(自然科学版) 2020(01)

    标签:;  ;  ;  ;  ;  

    基于生物学特征的蛋白质-DNA界面热点残基预测方法研究
    下载Doc文档

    猜你喜欢