论文摘要
类不平衡数据指的是在类别上有偏斜的数据,近年来类不平衡数据的处理已成为统计研究的一个热点。现实生活中许多数据往往都呈现出高度不平衡的特性,如何提高类不平衡数据中的分类性能是我们亟需解决的问题。通常地,传统的分类算法是以数据集平衡状态为前提的,它们对于平衡数据或均匀分布的数据其分类效果良好,但是对类不平衡数据的分类表现出较差的效果。为了解决该问题,本文从再平衡的角度对类不平衡数据展开研究,以期来提高少数类样本的识别率,进而提高类不平衡数据的分类性能。此外,当数据同时呈现出高维和不平衡性的双重特性时,会使数据的预处理过程变得更加困难,高维中的变量选择问题仍然是一个挑战,针对该问题,提出了基于Subsampling的稀疏正则逻辑回归(SRLRS)的稳健变量选择方法。本文研究的主要内容包括两方面,一是基于再平衡的思想处理类不平衡数据,二是类不平衡数据的变量选择。主要工作与创新点包括以下几个方面:一、对类不平衡数据的预处理方法进行了总结,分析了基于支持向量机分类器的数据特征及面临的问题。对高维数据的变量选择方法进行归纳和总结,并对各种方法的优缺点进行分析。二、基于再平衡策略的理论和实验分析,对典型的再平衡改进方法如何提高类不平衡数据的分类性能进行理论分析,即对重采样技术及其改进算法的局限性进行归纳总结。对再平衡方法预处理前后两种情况下的分类性能进行对比性研究。在真实数据实验研究中,对建立的模型确定最优参数,在代谢组学数据中选取部分非均衡样本数据集,进行预测性能比较。研究结果均表明进行再平衡方法处理后够提高分类器的分类性能。三、提出了基于精确率-召回率曲线(PRC)为评价准则的稀疏正则逻辑回归(SRLRS)的稳健变量选择方法。目前,针对高维类不平衡数据的变量选择方法相对较少,尤其是将稀疏正则化变量选择方法应用到代谢组学的中的研究更少。SRLRS考虑到了类不平衡数据的特征,在交叉验证时使用分层交叉验证,并在Subsampling抽样中使留半-留一法(LHO-LOO)。模拟研究和真实数据研究显示了SRLRS结合PRC准则的变量选择方法很适合处理类不平衡数据。
论文目录
文章来源
类型: 硕士论文
作者: 徐枫
导师: 付光辉
关键词: 类不平衡数据,再平衡,变量选择,数据预处理
来源: 昆明理工大学
年度: 2019
分类: 基础科学
专业: 数学
单位: 昆明理工大学
分类号: O212.1
DOI: 10.27200/d.cnki.gkmlu.2019.000374
总页数: 83
文件大小: 2885K
下载量: 32
相关论文文献
- [1].基于最大局部密度间隔的特征选择方法[J]. 计算机工程与设计 2019(03)