论文摘要
大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐。我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据。仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率。
论文目录
文章来源
类型: 期刊论文
作者: 张荃,陈晖
关键词: 重复数据,数据清洗,相似度,最小哈希
来源: 通信技术 2019年11期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 中国人民解放军陆军工程大学
分类号: TP311.13
页码: 2653-2658
总页数: 6
文件大小: 2024K
下载量: 171