基于特征增强与属性依赖融合的蛋白质序列分类方法研究

基于特征增强与属性依赖融合的蛋白质序列分类方法研究

论文摘要

G 蛋白偶联受体(G Protein-Coupled Receptor,GPCRs)是人体中发现的最大的蛋白质超家族,它们的功能是介导细胞对各种环境刺激的反应,参与众多生理过程,如何实现对GPCRs的精确分类是一个热点问题。本文提出了两种解决蛋白质序列分类问题的新方法。与以往的分类方法相比,本文提出的基于多序列比对(Multiple Sequence Alignment,MSA)特征提取方法的半朴素贝叶斯分类算法在分类精度上有了显著提高。该算法主要是将MSA和半朴素贝叶斯分类器进行结合,其中MSA起到了特征增强的作用,用于提取更有价值的序列特征,考虑到特征之间并不是相互独立的,使用半朴素贝叶斯算法来建模特征之间相互依赖的特性。由于MSA是一个比较耗时的过程,为了提高待分类序列特征提取效率,本文还介绍了另一种基于MSA和氨基酸替换矩阵的特征提取的方法,该方法同样在MSA结果中提取特征子串,与之前的方法不同之处在于提取待分类序列特征时不再需要将其加入到各个类别中进行MSA操作。该方法考虑到氨基酸位点在进化的过程中可能发生替换的特性,在筛选特征子串的过程中加入氨基酸替换矩阵来建模这个过程。最后将基于MSA和替换矩阵的方法所提取的特征与多种分类器进行结合,并在GPCRs数据集上进行实验,结果显示该方法不仅在效率上有了很大提高,并且提高了分类精确度,在GPCRs的四个分类级别上分别达到了 99.685%、99.215%、98.822%、97.291%的分类准确率。综上所述,本文实现了两种高效的GPCR分类方法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 课题背景及研究意义
  •   1.2 国内外研究现状
  •   1.3 课题主要研究内容
  •   1.4 本文的创新点
  •   1.5 论文结构及内容安排
  • 第二章 相关知识
  •   2.1 G蛋白偶联受体家族
  •   2.2 序列比对
  •   2.3 N-gram语言模型
  •   2.4 朴素贝叶斯算法
  •   2.5 氨基酸替换矩阵
  •   2.6 本章小结
  • 第三章 基于MSA和半朴素贝叶斯的分类方法研究
  •   3.1 整体流程介绍
  •   3.2 确定多序列比对对象
  •   3.3 基于MSA和N-Gram的特征提取方法
  •   3.4 半朴素贝叶斯分类算法
  •   3.5 范围系数
  •   3.6 本章小结
  • 第四章 基于MSA和置换矩阵的特征提取方法研究
  •   4.1 特征提取目标
  •   4.2 特征提取流程
  •   4.3 MSA提取特征子序列
  •   4.4 特征筛选
  •   4.5 主序列提取
  •   4.6 构建学习上下文
  •   4.7 总结
  • 第五章 实验及分析
  •   5.1 基于MSA和半朴素贝叶斯方法的实验
  •     5.1.1 实验数据集
  •     5.1.2 评估标准
  •     5.1.3 结果及分析
  •   5.2 基于MSA和氨基酸替换矩阵的特征提取方法的实验
  •     5.2.1 数据集介绍
  •     5.2.2 结果及分析
  •   5.3 本章总结
  • 第六章 结论与展望
  •   6.1 主要研究成果
  •   6.2 工作展望
  • 参考文献
  • 致谢
  • 研究成果及发表的学术论文
  • 作者及导师简介
  • 附件
  • 文章来源

    类型: 硕士论文

    作者: 岳林

    导师: 凌诚,朱杰

    关键词: 蛋白偶联受体,多序列比对,半朴素贝叶斯,分类,替换矩阵

    来源: 北京化工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 北京化工大学

    基金: 国家自然科学基金

    分类号: Q51;TP181

    DOI: 10.26939/d.cnki.gbhgu.2019.000102

    总页数: 72

    文件大小: 4827K

    下载量: 11

    相关论文文献

    • [1].蛋白质序列与蛋白质结构关系的研究[J]. 河南教育学院学报(自然科学版) 2017(04)
    • [2].基于小波分析的蛋白质序列分形研究[J]. 科技信息 2009(33)
    • [3].基于数据挖掘的蛋白质序列分析研究[J]. 信息技术与信息化 2017(06)
    • [4].利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J]. 工业微生物 2014(03)
    • [5].一种新的蛋白质序列二维图形表示方法及应用[J]. 绥化学院学报 2013(11)
    • [6].蛋白质序列基于k-字的数值刻画及应用[J]. 浙江农业学报 2014(06)
    • [7].蛋白质序列图形变换及其相似性聚类分析[J]. 生命科学研究 2018(03)
    • [8].粒计算理论下的进化树建模与应用探讨[J]. 白城师范学院学报 2019(10)
    • [9].蛋白质序列的矩阵图谱表达[J]. 生命科学研究 2011(02)
    • [10].对称蛋白质序列与结构关系研究[J]. 生命科学 2010(11)
    • [11].蛋白质序列的一类新的图形表示[J]. 黑龙江生态工程职业学院学报 2008(06)
    • [12].甲型流感病毒蛋白质序列的长记忆模型[J]. 江南大学学报(自然科学版) 2012(06)
    • [13].蛋白质序列的特征周期研究[J]. 生物物理学报 2008(02)
    • [14].基于功率谱的蛋白质序列特征提取新方法[J]. 食品与生物技术学报 2018(11)
    • [15].AI背景下蛋白质序列音乐研究[J]. 艺术教育 2019(06)
    • [16].基于矩阵图谱表达法的蛋白质序列的相似性分析[J]. 计算机工程与应用 2011(07)
    • [17].DNA和蛋白质序列数据分析工具(第三版)[J]. 新疆农业科学 2012(07)
    • [18].甲型流感病毒HA蛋白质序列的预测[J]. 食品与生物技术学报 2013(08)
    • [19].P53基因蛋白质序列的相似性及其聚类分析[J]. 计算机与应用化学 2013(09)
    • [20].蛋白质序列在频率域上的一种特征提取方法[J]. 南京工业大学学报(自然科学版) 2013(06)
    • [21].基于加权决策树的蛋白质序列分类算法研究[J]. 计算机与数字工程 2012(05)
    • [22].蛋白质序列的图形表示及相似性分析[J]. 浙江农业学报 2010(05)
    • [23].一种新的蛋白质结构类预测方法[J]. 生物信息学 2012(04)
    • [24].荣昌猪SLA-DQB基因β1结构域突变分析及蛋白质序列模式预测[J]. 畜牧兽医学报 2012(08)
    • [25].基于TIGA_S4VM改进算法的蛋白质序列识别方法[J]. 山东大学学报(工学版) 2014(01)
    • [26].基于密码子特征的蛋白质序列图形表示[J]. 浙江理工大学学报(自然科学版) 2018(04)
    • [27].不同特征描述下H1N1病毒血凝素蛋白序列的比较分析[J]. 生命科学研究 2016(02)
    • [28].基于一种新的伪氨酸组成预测蛋白质折叠速率[J]. 大连交通大学学报 2015(03)
    • [29].基于极限学习机的蛋白质相互作用预测[J]. 枣庄学院学报 2017(05)
    • [30].一种基于最优局部信息融合的蛋白质亚细胞定位预测方法[J]. 中山大学学报(自然科学版) 2008(06)

    标签:;  ;  ;  ;  ;  

    基于特征增强与属性依赖融合的蛋白质序列分类方法研究
    下载Doc文档

    猜你喜欢