非均衡分类中的自适应重抽样方法

非均衡分类中的自适应重抽样方法

论文摘要

非均衡数据,是指数据的两个或多个类别存在严重非均衡,如征信数据中违约样本和非违约样本比例常常存在失衡的情况。回顾近三十年的研究,这种问题的解决方案主要为欠采样,过采样和算法层面的改进,过采样方法这些年来较为流行,主要有简单随机重抽样和以SMOTE为代表的生成新样本方法,欠采样由于损失信息的特点导致在现今的研究中较为罕见,算法层面的改进则因为复杂度较高而相对不具备外推性。本文主要从抽样角度对该问题进行考虑,传统的抽样方法,无论是基于抽取式的还是生成式,都无法根据数据集的空间结构特点进行优化,这样导致抽样时无法利用样本中已有数据的空间结构信息。所以本文根据以数据空间结构特征进行抽样的思路,依据降噪自动编码器的良好训练性质,对数据集进行重抽样。本文中我们使用两种方式来衡量所提出方法的有效性,一种方法是通过直观抽样,即在知道原始分布的情况下,比较所提出抽样方法和其他抽样方法的有效性,这是从直观层面对所提出方法进行有效性验证。另一种方法是利用最终的分类结果指标作为判断分类方法优劣的依据。这两种方法相辅相成,在两个角度说明了本文所提出方法具有一定的有效性。最后应用该抽样方法到分类问题中,解决非均衡问题分类中存在的现实问题,并在最终的探索性数据分析中对该领域具体数据分析进行了探讨。

论文目录

  • 摘要
  • Abstract
  • 1. 绪论
  • 2. 文献综述
  • 3. 方法描述
  •   3.1 依赖的工具和概念
  •     3.1.1 自动编码器和降噪自动编码器
  •     3.1.2 递归神经网络
  •     3.1.3 字符型变量处理
  •     3.1.4 几种不同的激活函数
  •   3.2 基于DAE的抽样方法
  • 4. 模拟数据结果
  •   4.1 抽样模拟
  •   4.2 分类模拟
  • 5. 真实数据分析
  •   5.1 对比研究
  •   5.2 德国信贷数据分析
  •     5.2.1 探索性数据分析
  •     5.2.2 分类结果
  • 6. 总结与展望
  • 附录:搭建DAE使用的代码,以便重复实现结果
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 罗永祥

    导师: 刘婧媛

    关键词: 非均衡数据,自动编码器,重抽样

    来源: 厦门大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 厦门大学

    分类号: O212.2

    总页数: 57

    文件大小: 3417K

    下载量: 16

    相关论文文献

    • [1].抽样方法[J]. 新世纪智能 2020(45)
    • [2].数学抽样方法特点分析[J]. 数学大世界(中旬) 2019(06)
    • [3].例析三种抽样方法及其应用[J]. 数学学习与研究 2017(01)
    • [4].详解抽样方法的综合应用[J]. 中学生数理化(学习研究) 2017(07)
    • [5].三种抽样方法的异同点[J]. 新高考(高二版) 2008(09)
    • [6].浅谈抽样方法[J]. 小学生(教学实践) 2012(04)
    • [7].对我国肉制品抽样方法及标准现状的分析[J]. 农产品加工(学刊) 2010(03)
    • [8].例析三种抽样方法[J]. 中学生数理化(学习研究) 2019(02)
    • [9].聚焦高考中的抽样方法[J]. 中学生数理化(高一版) 2014(Z1)
    • [10].审计统计抽样方法的选择探析[J]. 现代商业 2012(32)
    • [11].基于数据挖掘的启发式抽样方法研究[J]. 微计算机信息 2009(12)
    • [12].大数据时代下抽样方法问题探讨[J]. 经贸实践 2018(13)
    • [13].抽样方法的几种创新应用[J]. 中学生数理化(高一数学) 2019(02)
    • [14].“二调”总体蓄积量抽样精度几种抽样方法的比较[J]. 内蒙古林业调查设计 2019(01)
    • [15].医学研究中的抽样方法[J]. 西部医学 2019(04)
    • [16].也谈监督检查的抽样方法——与王立新商榷怎样确定样本量n[J]. 中国质量技术监督 2008(01)
    • [17].生活中的抽样方法[J]. 中学生数理化(高一数学) 2019(02)
    • [18].计算动态系统网格通量场的驿站重要抽样方法[J]. 计算物理 2010(05)
    • [19].一种供电服务热线话务质检抽样方法[J]. 现代工业经济和信息化 2019(03)
    • [20].食品抽样工作中存在问题与解决办法[J]. 现代食品 2019(11)
    • [21].木结构古建筑现场抽样方法与检测流程研究[J]. 北方工业大学学报 2019(05)
    • [22].基于粒子群的可靠度重要抽样方法[J]. 机械设计与制造 2013(06)
    • [23].重抽样方法在投资组合理论中的应用与实证分析[J]. 数学的实践与认识 2013(15)
    • [24].分子模拟中的增强抽样方法[J]. 化学进展 2012(06)
    • [25].总体与样本[J]. 检验医学与临床 2017(19)
    • [26].全国营造林综合核查技术体系与抽样方法[J]. 中南林业调查规划 2011(04)
    • [27].市场调研误区[J]. 中国中小企业 2008(01)
    • [28].抽样技术在数值模拟模型的替代模型建立过程中的应用[J]. 科学技术创新 2019(32)
    • [29].多级抽样折合的小子样计数抽样方法[J]. 火力与指挥控制 2008(10)
    • [30].基于流形排序的动态过抽样方法研究[J]. 计算机应用研究 2017(06)

    标签:;  ;  ;  

    非均衡分类中的自适应重抽样方法
    下载Doc文档

    猜你喜欢