论文摘要
欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。
论文目录
文章来源
类型: 期刊论文
作者: 牛壮,李凤莲,张雪英,樊宇宙,魏鑫
关键词: 非平衡数据集,聚类算法,欠抽样,去冗余,多决策树预测模型
来源: 计算机工程 2019年06期
年度: 2019
分类: 信息科技,基础科学
专业: 数学,自动化技术
单位: 太原理工大学信息与计算机学院
基金: 山西省自然科学基金(201801D121138),山西省重点研发计划(201803D31045),山西省科技重大专项(20181102008)
分类号: O212.2;TP181
DOI: 10.19678/j.issn.1000-3428.0050618
页码: 218-224
总页数: 7
文件大小: 1449K
下载量: 246
相关论文文献
- [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
- [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
- [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
- [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
- [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
- [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
- [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
- [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
- [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
- [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
- [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
- [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
- [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
- [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
- [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
- [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
- [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
- [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
- [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
- [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
- [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
- [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
- [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
- [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
- [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
- [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
- [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
- [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
- [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
- [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)
标签:非平衡数据集论文; 聚类算法论文; 欠抽样论文; 去冗余论文; 多决策树预测模型论文;