基于基尼指数的超高维分类数据特征筛选研究

基于基尼指数的超高维分类数据特征筛选研究

论文摘要

超高维数据的收集与存储,因科学技术的飞速发展已不再是问题.那么随之就面临着如何分析此类数据的困难.众所周知,超高维数据,即数据维度特别大,且往往呈现为样本量的指数级增长趋势.而传统的统计分析与推断方法已经不再适用于此类数据.通常,针对超高维数据,我们会有稀疏性原则假设仅有为数不多的预测变量对响应变量产生重要影响.在这样的稀疏性假设下,有很多学者提出了多种超高维变量降维的方法.其中一种方法是将超高维变量的降维分两部进行,首先使用一种高效便捷的变量筛选方法,快速准确地筛选重要预测变量,将数据维度降到一个可控的规模之内,一般会小于样本量个数;随后再使用一些比较成熟的变量选择方法对前面筛选出的数据做进一步降维,以期达到良好的数据降维效果.本文将着重于第一部分的快速降维,基于数据的分布情况,利用决策树中基尼指数的指标,提出一种针对超高维分类数据的特征筛选方法.并且将其推广到响应变量随机缺失的数据中,建立针对缺失数据的特征筛选方法.在第二章中,本文提出了一个新的超高维两分类数据的特征筛选方法.该方法利用决策树中的基尼指数指标,考虑响应变量基尼指数与加入一个预测变量后的条件基尼指数之间的差异.由此构建了基于基尼指数的超高维两分类数据的特征筛选方法(GB-SIS-2).随后,通过大样本理论证明了GB-SIS-2方法满足确定性筛选性质.另外,GB-SIS-2方法还是一种无模型假设的方法,即不需要事先指定预测变量与响应变量之间的相依关系.相对于许多特征筛选方法基于模型假设出发这一点,GB-SIS-2方法不会出现模型假定错误的问题.同时,本文还通过几组不同参数假设的蒙特卡罗数值模拟,比较了该方法与其他几种特征筛选方法的筛选效果.从结果可以看出,该方法在很大程度上都要优于其他筛选方法,由此也验证了其有限样本性质.最后微博博主分类的实例数据,也能够说明该方法的实用性与有效性.在第三章中,本文将第二章中的两分类基尼指数特征筛选法推广到了超高维多分类数据当中,构建了多分类基尼指数特征筛选法(GB-SIS-M).多分类基尼指数特征筛选同样被证明具有第二章中GB-SIS-2方法的所有性质与优点.本章也通过几组不同参数假设的蒙特卡罗数值模拟与基因位点的实例数据,证实了GB-SIS-M方法同样具有良好的有限样本性质.在第四章中,考虑到在超高维数据中缺失数据也占有了很大一部分比重,并且现有的对于超高维缺失数据特征筛选这一部分的研究比较缺乏.所以本章考虑将上面提出的GB-SIS方法,结合传统解决缺失数据问题的逆概率加权法(IPW),构建一个基于基尼指数的响应变量随机缺失下的超高维分类数据特征筛选方法(GB-MAR).对于缺失数据的分析,逆概率加权法相较于完全数据法(CC),能更大程度上保留信息,从而使得筛选更加准确.GB-MAR方法同样是一个无模型假设的筛选方法,在几组蒙特卡罗数值模拟中,我们能清晰地看到GB-MAR的筛选效果明显优于基于完全数据法的GB-CC筛选法,并且GB-MAR并不受缺失比例的影响,这体现了其具有的强稳定性.最后在邮件分类的实例中,GB-MAR的方法筛选出的效果与完整数据下的GB-F方法并无很大差别,显示了GB-MAR方法的使用价值与有效性.

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 超高维特征筛选的研究背景与现状
  •   1.2 响应变量随机缺失的超高维特征筛选的研究背景与现状
  •   1.3 研究内容和创新点
  • 第二章 基于基尼指数的超高维两分类数据的特征筛选
  •   2.1 基尼指数与纯度增益
  •   2.2 基尼-两分类筛选过程与确定性性质
  •   2.3 数值模拟
  •   2.4 实例分析
  •   2.5 理论证明
  •   2.6 本章小结
  • 第三章 基于基尼指数的超高维多分类数据的特征筛选
  •   3.1 基尼-多分类筛选过程与确定性性质
  •   3.2 预测变量不同类别数下的GB-SIS-M推广
  •   3.3 数值模拟
  •   3.4 实例分析
  •   3.5 理论证明
  •   3.6 本章小结
  • 第四章 基于基尼指数的响应变量随机缺失超高维特征筛选
  •   4.1 完全数据分析法与逆概率加权法
  •   4.2 基于逆概率加权的筛选过程与确定筛选性质
  •   4.3 数值模拟
  •   4.4 实例分析
  •   4.5 理论证明
  •   4.6 本章小结
  • 第五章 结论与展望
  •   5.1 结论
  •   5.2 展望
  • 参考文献
  • 个人简介
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 陈凯文

    导师: 来鹏

    关键词: 超高维数据,缺失数据,特征筛选,基尼指数,筛选确定性

    来源: 南京信息工程大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 南京信息工程大学

    分类号: O212

    DOI: 10.27248/d.cnki.gnjqc.2019.000084

    总页数: 72

    文件大小: 2411K

    下载量: 54

    相关论文文献

    • [1].地理国情监测地表覆盖分类数据的质量控制[J]. 北京测绘 2020(05)
    • [2].地表覆盖分类数据对区域森林叶面积指数反演的影响[J]. 遥感学报 2010(05)
    • [3].基于分类数据的可视化改善方法[J]. 现代计算机(专业版) 2018(08)
    • [4].一种适用于混合型分类数据的聚类算法[J]. 计算机工程与应用 2019(01)
    • [5].整车分类数据配置关系中两种程序设置方法的应用[J]. 客车技术与研究 2017(02)
    • [6].基于中分辨率遥感影像的地表覆盖分类数据精度评定方法研究[J]. 科技创新与应用 2020(19)
    • [7].浅议地理国情普查地表覆盖分类数据的质量检查[J]. 测绘与空间地理信息 2017(08)
    • [8].基于中分影像的不同时相地表覆盖分类数据精度评价[J]. 测绘与空间地理信息 2018(11)
    • [9].稀疏二分类数据贝叶斯Meta分析方法及实现[J]. 中国循证儿科杂志 2020(04)
    • [10].结构方程模型中关于有序分类数据的处理方法[J]. 统计与决策 2012(18)
    • [11].基线风险变化与二分类数据效应量选择[J]. 中国循证心血管医学杂志 2016(11)
    • [12].二分类数据缺失多重填补分析及应用[J]. 中国卫生统计 2014(03)
    • [13].中国金融发展对分类商品贸易竞争力的影响——基于1980年~2009年分类数据的实证研究[J]. 经济经纬 2012(02)
    • [14].基于精确度考虑的二分类数据样本量估计[J]. 数理医药学杂志 2015(06)
    • [15].非独立多分类数据的统计分析方法及SAS程序[J]. 现代预防医学 2014(17)
    • [16].任意类型的分类数据的快速排序[J]. 电脑与信息技术 2011(05)
    • [17].基于属性值集中度的分类数据聚类有效性内部评价指标[J]. 工程科学学报 2019(05)
    • [18].电脑文件轻松管理 自动组织、分类数据[J]. 网友世界 2010(07)
    • [19].改进的分类数据聚类中心初始化方法[J]. 计算机应用 2018(S1)
    • [20].分类数据选择录入效率高[J]. 电脑爱好者 2013(04)
    • [21].结合场景分类数据的高分遥感图像语义分割方法[J]. 计算机应用与软件 2020(06)
    • [22].融合地表覆盖分类数据的LIDAR点云详细分类[J]. 江西测绘 2015(04)
    • [23].应用SAS软件宏命令实现二分类数据的Meta分析[J]. 中国循证心血管医学杂志 2014(02)
    • [24].基于出口商品分类数据的外贸增长方式转变——以福建省为例[J]. 前沿 2008(06)
    • [25].基于信息论方法的分类数据相似性度量[J]. 计算机与现代化 2018(05)
    • [26].基于MapReduce的并行k-modes算法[J]. 智能计算机与应用 2015(01)
    • [27].粗糙集理论的统计扩展及应用[J]. 统计与决策 2008(13)
    • [28].地理国情普查中地表覆盖分类数据典型问题解析[J]. 测绘与空间地理信息 2015(08)
    • [29].我国不同规模奶牛场的技术效率及其影响因素分析——基于新分类数据和随机距离函数[J]. 技术经济 2011(01)
    • [30].粮价与CPI[J]. 中国粮食经济 2015(02)

    标签:;  ;  ;  ;  ;  

    基于基尼指数的超高维分类数据特征筛选研究
    下载Doc文档

    猜你喜欢