类不平衡数据的再平衡策略和变量选择

类不平衡数据的再平衡策略和变量选择

论文摘要

类不平衡数据指的是在类别上有偏斜的数据,近年来类不平衡数据的处理已成为统计研究的一个热点。现实生活中许多数据往往都呈现出高度不平衡的特性,如何提高类不平衡数据中的分类性能是我们亟需解决的问题。通常地,传统的分类算法是以数据集平衡状态为前提的,它们对于平衡数据或均匀分布的数据其分类效果良好,但是对类不平衡数据的分类表现出较差的效果。为了解决该问题,本文从再平衡的角度对类不平衡数据展开研究,以期来提高少数类样本的识别率,进而提高类不平衡数据的分类性能。此外,当数据同时呈现出高维和不平衡性的双重特性时,会使数据的预处理过程变得更加困难,高维中的变量选择问题仍然是一个挑战,针对该问题,提出了基于Subsampling的稀疏正则逻辑回归(SRLRS)的稳健变量选择方法。本文研究的主要内容包括两方面,一是基于再平衡的思想处理类不平衡数据,二是类不平衡数据的变量选择。主要工作与创新点包括以下几个方面:一、对类不平衡数据的预处理方法进行了总结,分析了基于支持向量机分类器的数据特征及面临的问题。对高维数据的变量选择方法进行归纳和总结,并对各种方法的优缺点进行分析。二、基于再平衡策略的理论和实验分析,对典型的再平衡改进方法如何提高类不平衡数据的分类性能进行理论分析,即对重采样技术及其改进算法的局限性进行归纳总结。对再平衡方法预处理前后两种情况下的分类性能进行对比性研究。在真实数据实验研究中,对建立的模型确定最优参数,在代谢组学数据中选取部分非均衡样本数据集,进行预测性能比较。研究结果均表明进行再平衡方法处理后够提高分类器的分类性能。三、提出了基于精确率-召回率曲线(PRC)为评价准则的稀疏正则逻辑回归(SRLRS)的稳健变量选择方法。目前,针对高维类不平衡数据的变量选择方法相对较少,尤其是将稀疏正则化变量选择方法应用到代谢组学的中的研究更少。SRLRS考虑到了类不平衡数据的特征,在交叉验证时使用分层交叉验证,并在Subsampling抽样中使留半-留一法(LHO-LOO)。模拟研究和真实数据研究显示了SRLRS结合PRC准则的变量选择方法很适合处理类不平衡数据。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景和意义
  •   1.2 国内外研究现状
  •     1.2.1 数据预处理层面的解决策略
  •     1.2.2 算法层面的解决策略
  •   1.3 论文的结构安排
  • 第二章 类不平衡数据处理的方法理论
  •   2.1 支持向量机
  •     2.1.1 线性可分支持向量机
  •     2.1.2 线性不可分支持向量机
  •     2.1.3 非线性支持向量机
  •   2.2 类不平衡数据分类评价准则
  •     2.2.1 G-Mean准则及F-Measure准则
  •     2.2.2 ROC、PRC曲线及其下的面积AUROC和AUPRC
  •   2.3 基于再平衡的类不平衡数据预处理策略
  •     2.3.1 SMOTE算法
  •     2.3.2 BSMOTE算法
  •     2.3.3 ADSYN算法
  •     2.3.4 MWMOTE算法
  •   2.4 类不平衡数据中常用的变量选择方法
  •     2.4.1 过滤法
  •     2.4.2 封装法
  •     2.4.3 嵌入法
  • 第三章 基于再平衡策略的类不平衡数据实验研究
  •   3.1 再平衡方法
  •   3.2 实验结果及分析
  •     3.2.1 算法参数选取
  •     3.2.2 模拟研究
  •     3.2.3 代谢组学数据处理
  •   3.3 结论
  • 第四章 类不平衡数据的变量选择
  •   4.1 稀疏正则逻辑回归
  •   4.2 算法
  •     4.2.1 交互验证
  •     4.2.2 Subsampling抽样和LHO-LOO
  •     4.2.3 最优的 AUPRC 面积
  •     4.2.4 参数调整
  •   4.3 模拟数据及结果
  •     4.3.1 模拟数据一
  •     4.3.2 模拟数据二
  •   4.4 真实数据及结果
  •     4.4.1 鼻咽癌数据集(NPC)
  •     4.4.2 颅脑损伤数据(TBI)
  •   4.5 总结
  • 第五章 总结与展望
  •   5.1 讨论与总结
  •   5.2 展望
  • 致谢
  • 参考文献
  • 附录A 攻读学位期间发表论文
  • 文章来源

    类型: 硕士论文

    作者: 徐枫

    导师: 付光辉

    关键词: 类不平衡数据,再平衡,变量选择,数据预处理

    来源: 昆明理工大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 昆明理工大学

    分类号: O212.1

    DOI: 10.27200/d.cnki.gkmlu.2019.000374

    总页数: 83

    文件大小: 2885K

    下载量: 32

    相关论文文献

    • [1].基于最大局部密度间隔的特征选择方法[J]. 计算机工程与设计 2019(03)

    标签:;  ;  ;  ;  

    类不平衡数据的再平衡策略和变量选择
    下载Doc文档

    猜你喜欢