基于规则的跨平台基因表达数据分类研究

基于规则的跨平台基因表达数据分类研究

论文摘要

为了探索关于人类自身的编码而启动的人类基因组计划经过近三十年的努力已基本完成。随之而来产生了大量的生物分子数据,这些高维的数据内具有丰富的信息,其背后隐藏着人类尚未充分了解的关于自身的知识。利用数学、统计学与计算机科学相关方法帮助生物学家从海量信息中发现有价值的信息,促进人类医学研究领域的进步,这一迫切需求促进了生物信息学这一学科的快速发展。cDNA微阵列和寡核苷酸芯片等高通量检测技术应用至今已经积累了大量来自不同平台的数据,从现有数据中得到分类模式并应用于新的样本对基因表达数据挖掘工作具有重要意义。由于基因表达数据集的大都具有小样本,高维度的特性,在同一个平台上的少数样本数据相对于高维特征来讲是极其有限的。数据集样本数量的稀疏性在与特征的高维度性相叠加造成了维度灾难,导致难以从单个小样本数据集上提取鲁棒的关键信息。如果能够将GEO多个平台上的基因表达数据结合起来,通过增大样本数据量缓和维度灾难问题,这对于相关的研究工作是十分有益的。然而基因表达数据所涉及到的生物学实验是一个多步骤的复杂过程,由于其中生物样本的来源、芯片制作所采用的技术手段、设备标准的不同,多个平台的基因表达数据之间存在难以消除的系统性尺度差异。经典的归一化方法依赖于数据平台信息的统计量。本文针对分类模式难以在不同平台间迁移的问题,使用独立于平台信息的特征间相对表达关系作为模型的基础分类模式来适应跨平台基因数据的多样性,消除其平台特性造成的样本尺度差异进而推广相关研究工作的适用范围。更进一步,基于对特征对分类模型的非对称性分析提出了偏序模式作为基础的分类模式,构建能够引入更多规则的层级规则树分类模式来从样本覆盖的角度提升模型的分类性能。对于跨平台特性带来的大规模数据问题,基于分类规则为基因间相对大小关系的特性,本文设计了相应的数据转换和基于相对偏移的规则预筛选策略,来实现算法的快速挖掘。在真实基因表达数据集上的对比实验结果,验证了算法的准确度、稳定性以及高于现有方法两个数量级的运行效率,可以有效应对跨平台基因表达数据挖掘所带来的挑战。从高维数据中发现与数据尺度无关的模型算法的研究不仅可以应用于基因表达数据分类,在社交网络、推荐系统、金融分析等多个领域都取得了良好的效果。基因表达数据上的跨平台分类算法于上述领域的数据特性与研究与有很多共同之处,因此基于偏序模式的跨平台基因表达数据分类算法可以推广到更多的应用场景,有助于跨平台数据领域内的算法研究。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景及意义
  •   1.2 国内外研究现状
  •   1.3 主要工作
  •   1.4 章节安排
  • 第二章 相关理论与方法
  •   2.1 基因表达数据
  •   2.2 传统降维方法
  •     2.2.1 PCA
  •     2.2.2 自动编码机
  •   2.3 归一化方法
  •     2.3.1 Min-Max归一化
  •     2.3.2 Z-score标准化
  •   2.4 模型及规则评估准则
  •     2.4.1 分类模型评估
  •     2.4.2 分类规则评估
  •   2.5 本章小结
  • 第三章 基于特征对的分类模型
  •   3.1 传统TSP算法
  •   3.2 K-TSP算法
  •   3.3 特征对模型非对称性分析
  •   3.4 本章小结
  • 第四章 基于偏序模式的分类模型
  •   4.1 基于相对偏移的降维算法
  •     4.1.1 数据转换
  •     4.1.2 相对偏移表
  •   4.2 基于偏序模式的层级分类模型
  •     4.2.1 层级规则树
  •     4.2.2 K-HRT模型
  •   4.3 基于偏序模式的逻辑回归模型
  •   4.4 本章小结
  • 第五章 实验结果及分析
  •   5.1 实验数据
  •   5.2 无平台信息实验
  •   5.3 平台迁移实验
  •   5.4 生物学解释
  •   5.5 本章小结
  • 总结与展望
  • 参考文献
  • 攻读学位期间发表的论文
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 侯永杰

    导师: 蔡瑞初

    关键词: 基因表达数据,分类,特征选择,跨平台,规则学习

    来源: 广东工业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 广东工业大学

    分类号: Q811.4;TP311.13

    DOI: 10.27029/d.cnki.ggdgu.2019.000500

    总页数: 53

    文件大小: 1371K

    下载量: 20

    相关论文文献

    • [1].基于阿尔茨海默病的基因表达数据改进的一维聚类方法[J]. 四川师范大学学报(自然科学版) 2015(04)
    • [2].多步骤决策树方法在基因表达数据上的应用研究[J]. 中国卫生统计 2017(01)
    • [3].基于大脑不同区域的阿尔茨海默症基因表达数据分析[J]. 上海交通大学学报 2013(06)
    • [4].癌症基因表达数据的熵度量分类方法[J]. 安徽大学学报(自然科学版) 2010(02)
    • [5].蛋白质网络和基因表达数据与癌症转移的预测[J]. 国际药学研究杂志 2008(02)
    • [6].基于遗传算法和学习向量化网络的基因表达数据的阈值分析[J]. 中国海洋大学学报(自然科学版) 2013(12)
    • [7].基于非负矩阵分解的大脑不同区域基因表达数据分析[J]. 中国生物医学工程学报 2012(06)
    • [8].浅谈模式识别中的支持向量机技术分析肿瘤基因表达数据[J]. 科技资讯 2011(33)
    • [9].两种基于偏最小二乘法的分类模型对肿瘤基因表达数据行多分类的比较研究[J]. 中国卫生统计 2009(05)
    • [10].基于层级规则树的跨平台基因表达数据分类[J]. 计算机工程 2019(07)
    • [11].基因表达数据横向荟萃分析方法综述[J]. 数理统计与管理 2018(02)
    • [12].基于矩阵分解技术的显著基因提取及基因表达数据分析[J]. 生物医学工程学杂志 2014(03)
    • [13].基因表达数据分析中的特征基因提取[J]. 微计算机信息 2008(09)
    • [14].免疫聚类算法在基因表达数据分析中的应用[J]. 北京邮电大学学报 2010(02)
    • [15].基因表达数据在数据库中的预处理[J]. 电脑知识与技术 2009(16)
    • [16].基于人工蜂群和SVM的基因表达数据分类[J]. 山东大学学报(工学版) 2018(03)
    • [17].基于稀疏极大边界特征的癌症基因表达数据分析[J]. 郑州师范教育 2012(04)
    • [18].基于DE-CStacking集成的基因表达数据分类算法[J]. 小型微型计算机系统 2019(08)
    • [19].从肿瘤基因表达数据挖掘分类规则的研究[J]. 中国生物医学工程学报 2009(05)
    • [20].微阵列基因表达数据的选择及方法[J]. 现代交际 2015(08)
    • [21].基于差异性和准确性的加权调和平均度量的基因表达数据选择性集成算法[J]. 计算机应用 2018(05)
    • [22].基因表达数据分类算法及应用探讨[J]. 洛阳理工学院学报(自然科学版) 2014(03)
    • [23].PSO和Cholesky分解的KELM的基因表达数据分类[J]. 中国计量学院学报 2016(02)
    • [24].基于压缩感知的癌症基因表达数据分类[J]. 中国计量学院学报 2012(01)
    • [25].应用于癌症基因表达数据的OMB双向聚类算法[J]. 计算机工程与应用 2011(28)
    • [26].从基因表达数据中挖掘最大的行常量双聚类[J]. 计算机应用研究 2011(12)
    • [27].小波包分解和模糊聚类下的基因表达数据分析[J]. 计算机工程与应用 2009(19)
    • [28].基于肿瘤基因表达数据的简单有效的基因选择算法(英文)[J]. 中国科学技术大学学报 2009(08)
    • [29].基于基因表达数据的双聚类分析研究[J]. 河南科技 2018(34)
    • [30].基因表达数据中的局部模式挖掘研究综述[J]. 计算机研究与发展 2018(11)

    标签:;  ;  ;  ;  ;  

    基于规则的跨平台基因表达数据分类研究
    下载Doc文档

    猜你喜欢