基于主成分分析的基因表达谱数据降维方法研究及可视化

基于主成分分析的基因表达谱数据降维方法研究及可视化

论文摘要

“21世纪是生物技术的世纪”,随着时代的发展,基因测序技术及其他生物信息学技术正在改变着世界。其中基因表达谱数据收集和处理技术已经越来越成熟和多样,海量数据的规模和复杂度在不断增加,例如:基因组数据库、核酸和蛋白质结构序列数据库、生物大分子空间结构信息等。然而随着“大数据时代”的来临,问题也随之而来,如此大规模的数据带来的更多的是高维、海量和不完整性等巨大挑战。关于基因表达谱数据降维技术的创新与研究也在不断地更新迭代,并取得了可观的成果。主成分回归分析作为一种经典的算法得到了非常广泛的应用,并且针对不同领域演变出了许多改进和变种算法。但是它们主要是针对样本数据本身进行优化和改进,并没有将其与分类标签结合起来,这就容易导致丢失感兴趣目标信息,无法良好地发现数据潜在的内部结构关系,进而影响预测和分类性能。针对此类问题,课题研究了有监督主成分回归(Supervised Principal Component Regression SPCR)和基于Y-aware的主成分回归方法,验证了其相对于PCR方法的优越性。通过实验发现,SPCR方法随着保留主成分数量的增多,分类效果逐渐变差,而Y-aware PCR则恰恰相反,主成分数较少时,分类精度略差于SPCR,但在保留的主成分数为35左右之后,分类精度要明显好于SPCR。针对此情况,提出了基于SPCR与Y-aware PCR的加权融合(Y-SPCR)算法。最后将其应用在四种不同的高维基因数据上进行降维和分类,测试比较算法性能。实验结果表明,在分类准确率方面,Y-SPCR方法有效克服了上述两种方法各自的缺点,在不同特征数下算法运行性能稳定,平均准确率达到82%,相对传统PCR方法平均准确率提升约13%左右,相对于SPCR与Y-aware PCR方法其平均准确率提升约5%左右,分类效果理想。最后,实验对基因数据降维后的结果进行可视化设计,把降维后的数据空间结构通过友好的前端界面更加直观形象地展示出来。帮助人们以更加灵活多样的方式观察高维数据样本内潜在的结构关系。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题背景及研究的目的和意义
  •   1.2 国内外研究现状分析
  •     1.2.1 基因表达谱数据发展现状
  •     1.2.2 数据降维技术研究现状
  •     1.2.3 主成分分析研究现状
  •     1.2.4 降维可视化技术研究现状
  •   1.3 主要研究内容及组织结构
  • 第2章 主成分回归算法分析及改进
  •   2.1 引言
  •   2.2 主成分回归相关算法
  •     2.2.1 主成分回归
  •     2.2.2 有监督的主成分回归
  •     2.2.3 Y-aware主成分回归
  •   2.3 基于SPCR与 Y-AWARE的加权融合算法
  •   2.4 本章小结
  • 第3章 基因数据下Y-SPCR算法实验结果及分析
  •   3.1 引言
  •   3.2 实验准备
  •     3.2.1 环境搭建
  •     3.2.2 数据选取
  •   3.3 数据预处理
  •     3.3.1 数据标准化
  •     3.3.2 填补缺失值
  •   3.4 分类模型评估方法
  •     3.4.1 F1 分数
  •     3.4.2 ROC曲线
  •     3.4.3 AUC值
  •   3.5 实验结果
  •     3.5.1 分类准确率
  •     3.5.2 运行时耗
  •     3.5.3 算法F1 分数
  •     3.5.4 ROC曲线、AUC值结果
  •   3.6 Y-SPCR算法分析
  •     3.6.1 标准高斯分布下Y-SPCR算法分析
  •     3.6.2 Y-SPCR算法权值系数影响分析
  •   3.7 本章小结
  • 第4章 降维可视化结果展示
  •   4.1 引言
  •   4.2 基本结构及流程
  •   4.3 数据处理
  •     4.3.1 K-means
  •     4.3.2 DBSCAN
  •     4.3.3 层次聚类
  •     4.3.4 t-SNE
  •   4.4 可视化相关技术及实现
  •     4.4.1 相关技术
  •     4.4.2 界面实现
  •   4.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 赵准

    导师: 李杰

    关键词: 数据降维,主成分回归,分类,可视化

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学

    专业: 数学,生物学

    单位: 哈尔滨工业大学

    分类号: O212.4;Q811.4

    DOI: 10.27061/d.cnki.ghgdu.2019.000949

    总页数: 60

    文件大小: 2236K

    下载量: 359

    相关论文文献

    • [1].数据降维技术研究现状及其进展[J]. 情报理论与实践 2013(02)
    • [2].基于深度学习的遥感数据降维分类方法研究[J]. 电子技术与软件工程 2017(13)
    • [3].基于互信息可信度的主成分分析数据降维[J]. 湖北民族学院学报(自然科学版) 2019(04)
    • [4].应用谱回归和图正则最小二乘回归的数据降维[J]. 计算机工程与应用 2017(05)
    • [5].基于Min-Hash数据降维的伴随关系研究[J]. 中国电子科学研究院学报 2020(10)
    • [6].基于局部敏感哈希的多维海量数据处理[J]. 科技创新与应用 2019(02)
    • [7].基于数据降维的机器学习分类应用问题探讨[J]. 现代信息科技 2018(02)
    • [8].面向智能电网的大数据降维管理方案[J]. 计算技术与自动化 2019(04)
    • [9].基于机器学习的电网大数据降维方法[J]. 计算机与网络 2018(18)
    • [10].B2C模式多层购物体系时镜反转商品数据降维挖掘[J]. 科技通报 2013(10)
    • [11].关于LLE算法的监督型参数设置方法及应用[J]. 信息技术 2019(06)
    • [12].高维电子病历的数据降维策略与实证研究[J]. 数据分析与知识发现 2018(01)
    • [13].基于K-F方法的微博博主特征分类与判别研究[J]. 科技创新导报 2018(16)
    • [14].基于Python的高速动车组车载数据降维方法实现[J]. 软件 2020(01)
    • [15].改进的入侵检测数据降维方法[J]. 计算机工程与应用 2011(25)
    • [16].基于保距与保拓扑的流形学习算法[J]. 长江大学学报(自然科学版)理工卷 2010(02)
    • [17].稀疏保留判决分析在人脸表情识别中的应用[J]. 计算机工程 2011(14)
    • [18].基于E-t-SNE的混合属性数据降维可视化方法[J]. 计算机工程与应用 2020(06)
    • [19].基于核熵成分分析的数据降维[J]. 计算机工程 2012(02)
    • [20].基于属性加权的主成分分析算法[J]. 济南大学学报(自然科学版) 2015(06)
    • [21].一种潜在信息约束的非负矩阵分解方法[J]. 数据采集与处理 2014(01)
    • [22].基于流形学习的数据降维算法[J]. 电子技术与软件工程 2014(24)
    • [23].大气腐蚀数据降维最优维度研究[J]. 装备环境工程 2020(03)
    • [24].流形学习算法概述[J]. 武汉船舶职业技术学院学报 2013(02)
    • [25].改进的非线性数据降维方法及其应用[J]. 计算机工程与应用 2011(02)
    • [26].基于稀疏保留投影的人脸表情识别[J]. 计算机工程 2011(08)
    • [27].多元线性模型和数据降维用于评价复杂体系中各因素的影响程度[J]. 计算机与应用化学 2017(02)
    • [28].高新技术企业的股票分类算法综述[J]. 经贸实践 2015(08)
    • [29].一种改进的ISOMAP分类算法[J]. 计算机应用与软件 2015(08)
    • [30].抗噪的有监督局部保留投影降维算法[J]. 计算机应用研究 2012(05)

    标签:;  ;  ;  ;  

    基于主成分分析的基因表达谱数据降维方法研究及可视化
    下载Doc文档

    猜你喜欢