论文摘要
在大数据时代,数据缺失的情况经常发生甚至是不可避免,不完备数据会影响到数据统计分析。若数据完备效果不佳,数据信息不能得到充分有效的利用。因此,缺失数据的处理是数据质量的关键影响问题,不完备数据的完备也是一项具有价值的研究。本文首先综述了国内外关于不完备数据的研究方法,阐述了统计学、聚类、智能化三类完备化方法的相关理论。其次,通过构造函数集实验证明了数据分布特征对数据完备化效果影响较大;再介绍了数据完备的BP神经网络方法,是利用DBSCAN密度聚类方法对样本数据进行分类,分析其分布特征,剔除噪声数据选择训练样本,运用BP神经网络拟合数据属性间的非线性关系,预测数据缺失值;最后,分别对小麦种子和鸢尾花卉两个多元数据集的数据进行处理,选择一定的观察值作为实验数据,将完备的实验数据某一属性或者某些属性作为缺失项,运用最小二乘法、K近邻、考虑数据分布的BP网络方法和不考虑数据分布特征的BP网络方法进行完备化实验,预测缺失项的数值,计算准确率,比较四种方法的完备化效果。通过实例数据集分析可知,考虑数据分布特征的BP神经网络数据完备准确率最优。
论文目录
摘要ABSTRACT第1章 绪论 1.1 研究的背景和意义 1.1.1 研究背景 1.1.2 选题的意义 1.2 国内外研究现状 1.2.1 基于统计学方法的数据完备化研究 1.2.2 基于聚类方法的数据完备化研究 1.2.3 基于智能化方法的数据完备化研究 1.3 论文研究思路 1.3.1 研究内容 1.3.2 研究方法和技术路线第2章 数据完备化理论方法 2.1 最小二乘法 2.2 K近邻 2.2.1 定义 2.2.2 过程描述 2.2.3 缺陷 2.3 BP神经网络算法 2.3.1 基本原理 2.3.2 网络结构第3章 数据分布对数据完备化的影响 3.1 多元数据分布特征 3.1.1 集中趋势分析 3.1.2 离散程度分析 3.1.3 分布形状分析 3.1.4 均匀分布与非均匀分布 3.2 基于密度聚类的数据分析方法 3.2.1 DBSCAN相关定义 3.2.2 算法描述 3.3 数据分布的影响分析 3.3.1 检验数据集构造 3.3.2 数据分类 3.3.3 数据覆盖检验第4章 考虑分布特征的BP神经网络数据完备化方法 4.1 BP神经网络方法概述 4.1.1 数学模型 4.1.2 学习算法 4.2 BP神经网络工具箱 4.3 数据完备化过程设计 4.3.1 样本分类分析 4.3.2 样本噪声处理 4.3.3 数据输入设计 4.3.4 数据缺失预测 4.4 数据完备化质量评价 4.4.1 准确率计算 4.4.2 误差分析第5章 多元数据完备化实验 5.1 实验设计 5.1.1 数据准备 5.1.2 环境与参数设置 5.1.3 样本数据分类 5.2 单项数据缺失完备化方法比较分析 5.2.1 小麦种子单项数据缺失完备实验 5.2.2 鸢尾花卉单项数据缺失完备实验 5.3 多项数据缺失完备化方法比较分析 5.3.1 小麦种子多项数据缺失完备实验 5.3.2 鸢尾花卉多项数据缺失完备实验 5.4 实验总结第6章 研究结论与展望 6.1 研究结论 6.2 创新点 6.3 研究展望致谢参考文献附录1 攻读硕士学位期间发表的论文附录2 数据附录3 BP神经网络算法程序论文大摘要
文章来源
类型: 硕士论文
作者: 田丹
导师: 汪勇
关键词: 数据完备,密度聚类,样本分布,神经网络,机器学习
来源: 武汉科技大学
年度: 2019
分类: 基础科学,信息科技
专业: 数学,计算机软件及计算机应用
单位: 武汉科技大学
分类号: TP311.13;O212.1
总页数: 68
文件大小: 2386K
下载量: 45
相关论文文献
标签:数据完备论文; 密度聚类论文; 样本分布论文; 神经网络论文; 机器学习论文;