不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。
类型: 期刊论文
作者: 严远亭,吴亚亚,赵姝,张燕平
关键词: 不完整数据,缺失值填充,邻域信息,数据挖掘,机器学习,填充方法,单一填充,多重填充
来源: 智能系统学报 2019年06期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 安徽大学计算机科学与技术学院
基金: 国家自然科学基金项目(61806002,61872002,61673020,61876001,61602003),安徽省自然科学基金项目(1708085QF143,1808085MF197),安徽大学博士科研启动基金项目(J01003253)
分类号: TP311.13
页码: 1225-1232
总页数: 8
文件大小: 1915K
下载量: 154
本文来源: https://www.lunwen66.cn/article/72de74df51b674b5738bcb49.html