基于拓扑数据分析技术的造假数据检测

论文摘要

在大数据时代,数据价值剧增,而数据安全问题却出现了诸多新型特征。首先是数据价值的提高,使得网络攻击者更倾向于篡改数据库中的数据,而不是盗走其中数据争取赎金等。前美国国家安全局局长基斯亚历山大指出,数据篡改将会是“网络空间战争”的最新工具。另外,由于数据信息密度低,使得有效信息定位困难,导致网络攻击者有更多的可能将造假数据隐藏于正常数据之中。除此之外,随着深度学习的发展,最近还出现了一种新型数据篡改问题--针对深度学习算法的对抗样本。对抗样本是在原始样本上施加微小扰动后使得深度学习模型作出错误判断的样本,具有与原始样本差别小、且篡改方式多样的特性。以上问题的存在使得数据真实性的校验变得更为迫切,但中国信息通信研究院在《大数据安全白皮书》中指出,目前还没有严格的数据真实性鉴别和检测于段。鉴于不能直接基于数值进行检测,本文提出利用数据的相互关系来找寻数据在小幅度、多样性篡改下都不变的本质属性。为了找到篡改数据的本质属性,本文提出将拓扑数据分析技术（Topological Data Analysis,简称TDA）引入以上的篡改数据检测。TDA是一项基于拓扑学、计算机科学、统计学和计算几何的数据处理技术。不同于关注数据值本身的常规数据处理方法,拓扑数据分析技术更为关注数据的形状特征,且这些形状特征不随数据的微小扰动而改变。本文将利用复形作为真假数据类别判断的形状载体,复形是原始数据空间的一种近似,它有着同原始数据空间相似的拓扑特征。在实际处理中,我们通过固定系统参数,使不同类别数据具有不同的复形,并在这组固定参数下进行新数据的类别推断,进而得到不被篡改影响的判别结果。本文设计了针对不同数据量的判别方法,在第三章的真假币数据集上,本文通过人工识别拓扑特征的方式,找到了能够有效判断真假数据类别且在不同篡改下保持不变的拓扑特征,并利用这些拓扑特征对造假测试集类别进行了成功推断。在第四章的CIFAR10数据集的子集上,本文通过卷积神经网络实现了大数据量情况下图片复形的自动识别,最终模型成功对该实验涉及的三种对抗样本进行了有效防御,面对不同攻击时,该模型较之对抗训练防御方法还表现出了更为通用的特性。以上实验结果均显示:1)在特定参数下,不同类别数据的复形呈现不同特征;2)数据整体上的篡改不能改变数据的复形;3)TDA的检测结果不受攻击方式的影响。这充分说明了基于TDA的检测方法的有效性和对于不同篡改方式的通用性。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 数据安全问题

1.2 拓扑数据分析技术（TDA）

1.3 研究内容与主要贡献

1.4 论文结构

第二章背景知识

2.1 数据安全分析

2.2 TDA

2.2.1 TDA概述

2.2.2 复形构造

2.3 Mapper

2.3.1 Mapper概述

2.3.2 Mapper构造复形

2.4 卷积神经网络

2.4.1 卷积神经网络概述

2.4.2 卷积神经网络结构

2.5 对抗样本

第三章基于TDA的小幅度数据造假检测

3.1 研究背景

3.2 基于Mapper的检测

3.2.1 寻找有效参数

3.2.2 基于复形的类别判断

3.3 实验及结果

3.3.1 数据集和实验设置

3.3.2 实验结果

3.4 本章小结

第四章 TDA在对抗样本防御中的应用

4.1 研究背景

4.2 基于Mapper的防御

4.2.1 理论依据

4.2.2 防御步骤

4.3 实验及结果

4.3.1 实验设置

4.3.2 实验结果

4.4 本章小结

第五章全文总结和展望

参考文献

致谢

攻读学位期间发表的学术论文

文章来源

类型: 硕士论文

作者: 郭韵

导师: 龙环

关键词: 数据安全,拓扑数据分析,复形

来源: 上海交通大学

年度: 2019

分类: 基础科学,信息科技

专业: 数学,计算机软件及计算机应用,计算机软件及计算机应用

单位: 上海交通大学

分类号: O189.1;TP311.13;TP309

DOI: 10.27307/d.cnki.gsjtu.2019.002985

总页数: 66

文件大小: 4228K

下载量: 18

基于拓扑数据分析技术的造假数据检测

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢