高维数据下改进Logistic回归模型及其应用研究

高维数据下改进Logistic回归模型及其应用研究

论文摘要

当今社会,信息技术的进步使数据获取的成本不断降低,海量数据不断涌现,数据的维度也不断增加.一般来说数据的维度越高,计算复杂度会越大,数据中的噪声与冗杂特征产生的负面影响也会越来越严重,并且数据量越多,模型的计算时间也会越长.因此,如何降低数据的维度,提高数据分类准确率和计算效率,已经成为了机器学习领域的重要问题.本文构建了基于随机梯度下降和随机投影的改进Logistic回归模型.模型主要由三个部分构成:第一个部分,从降低数据集维度大小的角度改进,在这部分中,主要对比分析了主成分分析和随机投影两种不同的降维方法,将它们分别和Logistic回归结合进行算例分析,选取计算速度更快的随机投影为降维方法;第二个部分,从降低数据集量大小的角度改进,该部分选取随机投影降维后的数据,分别应用在基于批量梯度下降和随机梯度下降的Logistic回归模型上,选取收敛速度相对更快的随机梯度下降为参数更新方法;第三个部分,在随机梯度下降基础上加入Lasso进一步筛选特征,对前两个部分优化组合,进一步改进Logistic回归模型的准确性.我们选取三个模拟数据集进行仿真实验,在验证改进模型的有效性后,将其应用于实际数据中.改进Logistic回归算法模型可以很好的提升计算效率和准确性,能够广泛应用于各个领域高维数据的分类研究,比如金融和图像等领域.在本文中,由于实际猫狗图像的数据集的维度较高,而且相比金融领域来说,数据更容易获得,因此我们选取猫狗图片为实验对象,并通过对猫狗图像对模型的应用,得到分类模型的准确率达到79.2%,同时在计算效率方面也有显著提升.从以上实验分析,我们从算法的准确性和计算效率可以得出结论:第一、随机投影在维度很高的数据集中,不仅可以保持分类精度还可以大大的降低模型训练时间,能够广泛应用在图像、文本等高维数据集;第二、本文组合优化得到的Logistic回归模型可以在降维基础上,进一步消除无用特征,尤其是对于大规模稀疏型特征,可以使模型预测结果更加准确.第三、本文使用了基于随机梯度下降的优化算法,对于大规模数据集来说,比传统的批量梯度下降方法的运算速度更快.

论文目录

  • 摘要
  • abstract
  • 引论
  •   一、研究背景和研究意义
  •   二、国内外研究现状
  •   三、本文的研究思路和组织框架
  •   四、本文的创新点
  • 第一章 Logistic回归模型及相关基础理论
  •   第一节 特征提取方法介绍
  •     一、主成分分析
  •     二、随机投影
  •     三、Lasso的基本理论
  •   第二节 梯度下降方法介绍
  •     一、批量梯度下降
  •     二、随机梯度下降
  •   第三节 机器学习分类算法介绍
  •     一、常见机器学习分类算法介绍
  •     二、Logistic回归模型基本原理
  •     三、批量梯度下降求解Logistic回归模型
  • 第二章 改进Logistic回归模型的构建
  •   第一节 改进Logistic回归模型的框架
  •     一、模型结构
  •     二、改进Logistic回归模型介绍
  •   第二节 收敛速度的优化与改进
  •     一、主成分分析和随机投影计算速度理论对比分析
  •     二、批量梯度下降和随机梯度下降收敛速度理论对比分析
  •   第三节 加入Lasso的随机近端梯度下降求解Logistic回归模型
  •     一、随机梯度下降求解Logistic回归模型
  •     二、近端梯度下降求解Lasso问题
  •     三、随机近端梯度下降求解Lasso-logistic模型参数
  • 第三章 改进Logistic回归模型的数值模拟
  •   第一节 改进Logistic回归模型的评估方法
  •     一、K折交叉验证
  •     二、模型评价标准
  •   第二节 不同算法求解Logistic回归模型的模拟实验
  •     一、实验数据来源
  •     二、基于随机投影和PCA的实验
  •     三、基于批量梯度下降和随机梯度下降的实验
  •     五、基于模拟实验的结论
  • 第四章 高维数据下的应用实证
  •   第一节 猫狗图片数据集的预处理
  •     一、猫狗分类图片数据集
  •     二、灰度化处理
  •     三、图片放缩处理
  •     四、图片数据归一化
  •   第二节 改进Logistic回归模型训练过程
  •     一、图片数据降维
  •     二、模型参数估计方法的优化
  •     三、加入惩罚项优化Logistic回归模型
  •     四、猫狗图片分类的结果分析
  • 结论与展望
  •   一、结论
  •   二、展望
  • 参考文献
  • 在读期间发表的学术论文与取得的其他研究成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 魏倩

    导师: 张广玉

    关键词: 高维数据,回归,随机投影,随机梯度下降,组合算法

    来源: 中南财经政法大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 中南财经政法大学

    分类号: O212.1

    总页数: 58

    文件大小: 1403K

    下载量: 44

    相关论文文献

    • [1].基于分层索引的高维数据对象检索[J]. 指挥信息系统与技术 2019(06)
    • [2].高维数据流异常节点动态跟踪仿真研究[J]. 计算机仿真 2020(10)
    • [3].高维数据的交互式沉浸可视化——以城市生活质量数据为例[J]. 装饰 2019(06)
    • [4].基于大数据的高维数据挖掘探究[J]. 通讯世界 2018(03)
    • [5].智能电网中高维数据聚类方法研究[J]. 智能计算机与应用 2016(01)
    • [6].浅谈高维数据变量选择现状与方法[J]. 数码世界 2016(07)
    • [7].基于高维数据流的异常检测算法[J]. 计算机工程 2018(01)
    • [8].大数据环境下的高维数据挖掘在入侵检测中的有效应用[J]. 电脑编程技巧与维护 2016(22)
    • [9].一种高维数据流的稳健监控方法[J]. 天津职业技术师范大学学报 2016(02)
    • [10].基于大数据的高维数据挖掘研究[J]. 信息与电脑(理论版) 2015(15)
    • [11].浅谈高维数据挖掘的现状与方法[J]. 福建电脑 2014(07)
    • [12].高维数据空间的一种网格划分方法[J]. 计算机工程与应用 2011(05)
    • [13].面向精细农业的高维数据本征维数估计方法研究进展[J]. 中国科学:信息科学 2010(S1)
    • [14].数学建模中的高维数据挖掘技术优化研究[J]. 计算机测量与控制 2017(09)
    • [15].采用高维数据聚类的目标跟踪(英文)[J]. 红外与激光工程 2016(04)
    • [16].非规则流中高维数据流典型相关性分析并行计算方法[J]. 软件学报 2012(05)
    • [17].基于控制过度遗漏发现概率的高维数据流异常诊断[J]. 数理统计与管理 2020(03)
    • [18].相关高维数据流在线监控方法研究[J]. 天津职业技术师范大学学报 2016(03)
    • [19].高维数据挖掘技术在教学质量监控与评价的应用研究[J]. 全国商情(理论研究) 2010(11)
    • [20].一种高维数据聚类遗传算法[J]. 计算机工程与科学 2010(08)
    • [21].基于联合树的隐私高维数据发布方法[J]. 计算机研究与发展 2018(12)
    • [22].基于正则化回归的变量选择方法在高维数据中的应用[J]. 实用预防医学 2018(06)
    • [23].一种支持高维数据查询的并行索引机制[J]. 华中科技大学学报(自然科学版) 2011(S1)
    • [24].矩阵奇异值分解及其在高维数据处理中的应用[J]. 数学的实践与认识 2011(15)
    • [25].高维数据变量选择方法综述[J]. 数理统计与管理 2017(04)
    • [26].高维数据空间索引方法的研究[J]. 电脑知识与技术 2009(16)
    • [27].基于聚类融合算法的高维数据聚类的研究[J]. 电子测量技术 2008(04)
    • [28].高维数据固有维数的自适应极大似然估计[J]. 计算机应用 2008(08)
    • [29].基于超网络和投影降维的高维数据流在线分类算法[J]. 计算机应用与软件 2020(10)
    • [30].面向高维数据的安全半监督分类算法[J]. 计算机系统应用 2019(05)

    标签:;  ;  ;  ;  ;  

    高维数据下改进Logistic回归模型及其应用研究
    下载Doc文档

    猜你喜欢