基于最小哈希的重复数据清洗方法

论文摘要

大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐。我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据。仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率。

论文目录

0 引言

1 相关工作

1.1 重复数据定义

1.2 重复数据清洗基本思路

2 重复数据清洗算法

2.1 基于datacleaner和Jaccard系数的重复数据清洗

2.2 基于minhash算法的重复数据清洗

2.2.1 minhash算法简介

2.2.2 minhash算法应用

2.3 数据转换

3 实验验证

3.1 数据来源

3.2 基于datacleaner模块的重复数据算法实现

3.2.1 数据编码

3.2.2 数据清洗

3.3 基于minhash的重复数据算法实现

3.3.1 数据转换

3.3.2数据清洗

3.4 算法比较

3.4.1 时间复杂度

3.4.2 查全率

4 结语

文章来源

类型: 期刊论文

作者: 张荃,陈晖

关键词: 重复数据,数据清洗,相似度,最小哈希

来源: 通信技术 2019年11期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用

单位: 中国人民解放军陆军工程大学

分类号: TP311.13

页码: 2653-2658

总页数: 6

文件大小: 2024K

下载量: 171

基于最小哈希的重复数据清洗方法

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢