基于一种双聚类算法的成分数据缺失值填补

基于一种双聚类算法的成分数据缺失值填补

论文摘要

“数据的缺失问题”是科学实验和调查研究中普遍存在的问题。数据的缺失会影响统计数据的质量,增加数据分析过程的复杂性,因此,对缺失值进行填补具有重要的理论价值和现实意义。成分数据是一类满足特殊性质的复杂多维数据,广泛存在于社会、经济、技术等诸多领域,用来反映例如产业结构、居民消费结构、岩石矿物组成等。由于成分数据受到“非负性”和“定和性”条件的约束,所张成的空间是单形空间,从而针对欧氏空间普通数据的传统统计分析方法不能直接应用于成分数据。双聚类算法实现在行和列两个维度上对数据矩阵中的对象和属性进行同时聚类,通过利用对象和属性来提取其联合信息,有效地挖掘出数据矩阵中隐藏的局部特征信息。本文基于双聚类算法,利用使得双聚类簇内均方残差越低的成分数据在簇内属性上具有较高的一致性特点来填补成分数据的缺失值,根据等距对数比变换的度量不变性特点,提出经过等距对数比变换后基于双聚类算法的成分数据缺失值填补法(ICDBIA)。通过模拟和实例分析,并与Hron等(2010)提出基于Aitchison距离的k-近邻填补法(KNN)和迭代回归填补法(LISR)进行比较,得出ICDBIA填补法在成分数据缺失值填补的有效性,为成分数据缺失值的填补提供新的思路。考虑到实际中往往忽视成分数据的数据特性,视成分数据为欧氏空间的普通数据的情况,因而本文也相应提出原始的不加变换的CDBIA填补法作为比较方法,研究得到ICDBIA填补法一致优于CDBIA填补法的填补效果。因而在成分数据的分析中应注意成分数据的数据特性。本文主要内容包括五章:第一章:绪论。对成分数据的研究背景、意义及国内外研究现状进行概述,同时对本论文的主要内容及创新点进行阐述。第二章:理论基础。对成分数据统计理论、双聚类算法的一些理论知识进行一定的阐述,主要介绍成分数据的基础包括成分数据的相关定义、Aitchison几何和成分数据的对数比变换、KNN填补法和LISR填补法简介以及双聚类算法相关定义、双聚类算法的基本类型。第三章:成分数据缺失值填补方法。提出本文的等距对数比变换,给出基于双聚类算法的缺失值填补定理,结合该定理提出CDBIA方法和ICDBIA方法,并结合实例来进行实现。第四章:模拟与实证分析。通过模拟和实证分析,将本文提出的ICDBIA算法分别和KNN、LISR以及CDBIA进行比较缺失值的填补效果。第五章:总结与展望。总结本文的研究,并对后续研究进行展望。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   第一节 研究背景和意义
  •   第二节 国内外研究现状
  •   第三节 本文的研究框架及创新点
  • 第二章 理论基础
  •   第一节 成分数据基础
  •   第二节 双聚类算法基础概念
  •   第三节 评价标准
  •   第四节 本章小结
  • 第三章 成分数据缺失值填补方法
  •   第一节 本文的等距对数比变换
  •   第二节 基于双聚类算法的缺失值填补定理
  •   第三节 CDBIA方法
  •   第四节 ICDBIA方法
  •   第五节 具体例子
  •   第六节 本章小结
  • 第四章 模拟与实证分析
  •   第一节 模拟分析
  •   第二节 实证分析
  •   第三节 本章小结
  • 第五章 总结与展望
  • 参考文献
  • 附录
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 徐鹏雅

    导师: 胡玉琴

    关键词: 成分数据,缺失值填补,变换,方法

    来源: 浙江财经大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 浙江财经大学

    分类号: O21

    总页数: 56

    文件大小: 2183K

    下载量: 128

    相关论文文献

    • [1].量表分析中的缺失值估算[J]. 现代预防医学 2009(01)
    • [2].基于时空融合的缺失值填补算法[J]. 计算机工程与设计 2020(01)
    • [3].临床研究中缺失值的类型和处理方法研究[J]. 中国卫生统计 2011(03)
    • [4].一种基于机器学习的属性缺失值模糊填补方法[J]. 计算机与现代化 2008(12)
    • [5].基于灰色关联分析的类中心缺失值填补方法[J]. 四川大学学报(自然科学版) 2020(05)
    • [6].基于同分布无偏样本的伪缺失值检测方法[J]. 计算机与现代化 2010(04)
    • [7].有效解决数据缺失问题的聚集查询算法[J]. 计算机工程与应用 2018(24)
    • [8].单核苷酸多态性数据缺失值填补方法研究[J]. 中国公共卫生 2014(12)
    • [9].缺失值文献综述[J]. 现代商贸工业 2012(23)
    • [10].基于随机森林模型的成分数据缺失值填补法[J]. 应用概率统计 2017(01)
    • [11].不同缺失场景下各缺失值不同处理方法的结果比较[J]. 四川大学学报(医学版) 2018(03)
    • [12].一种基于KNN-SVR的基因表达缺失值的估计方法[J]. 国防科技大学学报 2009(01)
    • [13].LSTM在输变电设备缺失值填补中的应用[J]. 电测与仪表 2019(05)
    • [14].基于Map-Reduce的大数据缺失值填充算法[J]. 计算机研究与发展 2013(S1)
    • [15].WSN中基于线性回归和最大似然的缺失值估计模型[J]. 周口师范学院学报 2016(05)
    • [16].基于关系马尔可夫模型的枚举型缺失值估计[J]. 上海交通大学学报 2013(08)
    • [17].一种基于Epanechnikov二次核的成分数据缺失值填补法[J]. 应用概率统计 2014(06)
    • [18].一种基于K近邻和多元回归的传感器缺失值预测算法[J]. 公路交通科技 2019(03)
    • [19].APT-KNN:一种面向分类问题的高效缺失值填充算法[J]. 计算机应用与软件 2011(04)
    • [20].基于统计相关的缺失值数据处理研究[J]. 统计与决策 2016(12)
    • [21].三种常用的缺失值填充方法[J]. 硅谷 2011(23)
    • [22].缺失值情况下基于决策树算法的长白山植被识别的研究[J]. 长春工程学院学报(自然科学版) 2018(04)
    • [23].一种缺失值填充方法的研究[J]. 黑龙江生态工程职业学院学报 2016(05)
    • [24].运用Gibbs抽样解决数据缺失[J]. 统计与决策 2011(12)
    • [25].基于聚类的连续型数据缺失值充填方法[J]. 计算机工程 2019(09)
    • [26].一种基于支持向量机的缺失值填补算法[J]. 计算机应用与软件 2013(05)
    • [27].灰色建模中数据缺失值处理方法探讨[J]. 测绘通报 2013(07)
    • [28].SPSS在问卷数据校验中的应用研究[J]. 科技资讯 2008(08)
    • [29].时序基因表达缺失值的加权双向回归估计算法[J]. 数据采集与处理 2013(02)
    • [30].灰色建模中数据缺失值处理方法探讨[J]. 辽宁省交通高等专科学校学报 2013(02)

    标签:;  ;  ;  ;  

    基于一种双聚类算法的成分数据缺失值填补
    下载Doc文档

    猜你喜欢