基于模型的聚类在蛋白质分类研究中的应用

基于模型的聚类在蛋白质分类研究中的应用

论文摘要

聚类分析作为数据挖掘的重要组成部分,在各个研究领域都发挥着极大的作用,近年来更受到了高度的重视。了解并掌握其原理,将其妥善运用在各种数据分析中是十分必要的。作为聚类的重要方法,基于模型的聚类已经被广泛用于聚类应用中,包括手写识别、文本聚类、图像分割等多个领域。生物信息学近年来得到了极大的发展,作为其中重要的组成部分,蛋白质序列数据的研究也成为了人们关注的重点。鉴于此,本文将基于模型的聚类方法应用在蛋白质序列的分类研究上,以弥补前人常用聚类方法的不足,注入新的思想。本文首先回顾了基于模型的聚类方法的发展历程和国内外学者的研究成果。随后重点阐述了聚类分析的理论知识:简要介绍了聚类分析的含义,详细总结了目前聚类常用的经典算法、高级算法和多源数据算法的内涵,着重阐释了基于模型的聚类方法所涉及的混合模型、参数估计的期望最大化算法和模型选择准则方面的理论知识,并简单分析了基于模型的聚类方法存在的优势和局限性,最后总结了当前聚类分析的实际应用情况。接下来,利用多种具体方法,建立不同的模型,进行参数估计,从而对蛋白质序列进行分类研究。将聚类分析的理论运用在了一个预测蛋白质定位位点的具体实例中:该数据集包含1484个酵母氨基酸序列,共有8个属性变量,10个具体的定位位点。采用k-均值法和基于模型的聚类方法对问题进行处理和分析,其中k-均值法以聚为5类和聚为8类加以说明,基于模型的聚类方法则分别运用基于高斯混合模型法(mclust)、子空间聚类法(hddc)和混合法(Rmixmod)进行运算并得到结果。最后,将理论结果与实际含义相结合,对不同方法的运算结果进行详细的探讨并加以评判。首先,可以清楚地看到,基于模型的聚类方法对蛋白质序列做分类可以得到比较好的效果:分类清晰,各类之间差异显著,类的含义更具有代表性;在聚类的簇的个数选择方面有明确的理论支持;以概率形式对每一类进行表示,每一类的特征也可以用相应的参数来表达,将类别问题转化为最优化模型的问题,在对每一类的性质进行更专业的研究时,可以更好地应用统计的思想和方法,提供一种新的思路。其次,基于模型的聚类方法与k-均值法相比,也有明确的优势:它很好地弥补了k-均值法在聚类个数选择上的欠缺,分类结果的代表性也更为明确和合理。再次,为了从基于模型的聚类方法中选出最为合适的聚类算法,采用了三种不同的具体方法,通过比较这三种方法的结果,针对这一具体问题,基于高斯混合模型法和混合法所得结果比子空间聚类法更为合理,且基于高斯混合模型法操作起来更为简便,对于初学者来说也更容易理解。可以说,基于模型的聚类方法,为相关问题的研究提供了一个新的思路和发展方向,相信在生物信息学领域会有很好的应用前景。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  •   第一节 选题背景及研究意义
  •     一、选题背景
  •     二、研究意义
  •   第二节 文献综述
  •     一、基于模型的聚类
  •     二、生物序列中的聚类应用
  •   第三节 研究内容
  •   第四节 研究方法
  •   第五节 论文结构安排
  • 第二章 聚类分析理论概述
  •   第一节 聚类分析
  •   第二节 聚类方法
  •     一、经典方法
  •     二、高级算法
  •     三、多源数据算法
  •   第三节 基于模型的聚类
  •     一、混合模型
  •     二、期望最大化算法
  •     三、模型选择
  •   第四节 基于模型的聚类方法的优势与局限
  •     一、基于模型的聚类方法的优势
  •     二、基于模型的聚类方法的局限性
  •   第五节 聚类分析实际应用情况
  • 第三章 聚类分析在蛋白质分类中的应用
  •   第一节 数据介绍
  •   第二节 描述性统计分析
  •   第三节 k-均值聚类
  •   第四节 基于模型的聚类
  •     一、基于高斯混合模型法(mclust)
  •     二、子空间聚类法(hddc)
  •     三、混合法(Rmixmod)
  •   第五节 结果评述
  • 第四章 结语
  •   第一节 结论
  •   第二节 不足与展望
  • 参考文献
  • 附录
  • 致谢
  • 在读期间完成的研究成果
  • 文章来源

    类型: 硕士论文

    作者: 曹延姗

    导师: 费宇

    关键词: 聚类分析,基于模型的聚类,蛋白质,生物信息学

    来源: 云南财经大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 云南财经大学

    分类号: Q51;TP311.13

    DOI: 10.27455/d.cnki.gycmc.2019.000428

    总页数: 71

    文件大小: 3864K

    下载量: 94

    相关论文文献

    • [1].基于谱系聚类法的用户击键特征识别[J]. 电脑编程技巧与维护 2010(04)
    • [2].应用改进后的欧氏聚类法对延安市区饮用水源的水质污染分析[J]. 兰州理工大学学报 2008(01)
    • [3].对两阶聚类法自动确定聚类数规则的求证[J]. 统计与决策 2010(20)
    • [4].基于共词聚类法国外手术患者压力性损伤研究热点分析[J]. 解放军护理杂志 2020(07)
    • [5].一种新的聚类分析方法——自然聚类法[J]. 系统科学与数学 2016(05)
    • [6].二阶段聚类法在地质遗迹分类与开发中的应用[J]. 华东地质 2016(01)
    • [7].基于二阶聚类法的高职院校教师结构分析——以江阴职业技术学院为例[J]. 职业教育研究 2014(09)
    • [8].两步聚类法在汽车市场研究中的应用[J]. 软件导刊 2014(10)
    • [9].基于在线聚类法的药物疗效评价模型研究[J]. 武汉理工大学学报(信息与管理工程版) 2008(02)
    • [10].基于因子-聚类法对西部各省经济实力的综合评价[J]. 哈尔滨师范大学自然科学学报 2020(02)
    • [11].基于邻体聚类法的我国丹顶鹤分布区重要性评估[J]. 安徽农业科学 2013(18)
    • [12].裂缝分析中直接聚类法和灰色关联度联合应用[J]. 人民黄河 2010(11)
    • [13].基于改进爬山聚类法的模糊神经网络边坡稳定性判别模型[J]. 水利与建筑工程学报 2016(04)
    • [14].基于类平均聚类法的普通高等专科学校办学规模区域差异研究[J]. 西昌学院学报(自然科学版) 2015(03)
    • [15].基于有序聚类法的土壤水分剖面划分[J]. 西北农林科技大学学报(自然科学版) 2011(02)
    • [16].共词聚类法和主题词聚类法挖掘专题热点的效果评价——以鼻咽部肿瘤为例[J]. 中华医学图书情报杂志 2009(05)
    • [17].文献计量领域中两种聚类方法的比较研究[J]. 科技情报开发与经济 2009(24)
    • [18].多属性交叉聚类法的理论与应用[J]. 科技管理研究 2017(02)
    • [19].基于ward聚类法的企业事故预防与控制水平研究[J]. 企业导报 2012(09)
    • [20].基于共词聚类法的中医药伦理审查研究热点探析[J]. 中国医学伦理学 2018(07)
    • [21].全局集成聚类法的应用研究[J]. 郑州轻工业学院学报(自然科学版) 2012(02)
    • [22].灰关联聚类法评价补中益气汤对大鼠气虚发热的效果[J]. 广东药学院学报 2012(04)
    • [23].一种Vague集上的直接聚类法[J]. 计算机工程与应用 2010(31)
    • [24].灰关联聚类法评价补中益气汤对大鼠气虚发热的效果[J]. 中国实验方剂学杂志 2010(18)
    • [25].结合R型聚类法和TOPSIS法的浙江省城市旅游竞争力指标体系优化[J]. 长江大学学报(自科版) 2016(10)
    • [26].基于污染密集指数甄别污染密集型行业及其聚类法验证[J]. 科技和产业 2017(04)
    • [27].多维有序聚类法在地质数据分类中的应用[J]. 计算机应用 2015(S1)
    • [28].两维图论聚类法在农业区划中的应用——以山东省十七地市为例[J]. 安徽农学通报(上半月刊) 2009(03)
    • [29].基于K-means聚类法的茶叶嫩芽识别研究[J]. 中国农机化学报 2015(05)
    • [30].基于主成分聚类法的福建城镇化水平的测度[J]. 科学技术与工程 2011(11)

    标签:;  ;  ;  ;  

    基于模型的聚类在蛋白质分类研究中的应用
    下载Doc文档

    猜你喜欢