基于最小哈希的重复数据清洗方法

基于最小哈希的重复数据清洗方法

论文摘要

大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果。主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐。我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据。仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率。

论文目录

  • 0 引言
  • 1 相关工作
  •   1.1 重复数据定义
  •   1.2 重复数据清洗基本思路
  • 2 重复数据清洗算法
  •   2.1 基于datacleaner和Jaccard系数的重复数据清洗
  •   2.2 基于minhash算法的重复数据清洗
  •     2.2.1 minhash算法简介
  •     2.2.2 minhash算法应用
  •   2.3 数据转换
  • 3 实验验证
  •   3.1 数据来源
  •   3.2 基于datacleaner模块的重复数据算法实现
  •     3.2.1 数据编码
  •     3.2.2 数据清洗
  •   3.3 基于minhash的重复数据算法实现
  •     3.3.1 数据转换
  •     3.3.2数据清洗
  •   3.4 算法比较
  •     3.4.1 时间复杂度
  •     3.4.2 查全率
  • 4 结语
  • 文章来源

    类型: 期刊论文

    作者: 张荃,陈晖

    关键词: 重复数据,数据清洗,相似度,最小哈希

    来源: 通信技术 2019年11期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 中国人民解放军陆军工程大学

    分类号: TP311.13

    页码: 2653-2658

    总页数: 6

    文件大小: 2024K

    下载量: 171

    相关论文文献

    标签:;  ;  ;  ;  

    基于最小哈希的重复数据清洗方法
    下载Doc文档

    猜你喜欢