快速稀疏多元逻辑回归与分布式并行化

快速稀疏多元逻辑回归与分布式并行化

论文摘要

近年来,稀疏多元逻辑回归(Sparse Multinomial Logistic Regression,SMLR)因为具有在分类的同时嵌入特征选择的作用而被广泛应用于高光谱图像分类、多类物体识别、疾病诊断等领域。由于SMLR目标函数中含有?1正则项,导致无法直接求得解析解,因此通常采用迭代的方式对其进行求解。SMLR问题最早采用迭代重加权最小二乘法(Iterative Reweighted Least Squares,IRLS)进行求解,但其算法对特征维度和类别数较敏感。在处理高维数据集或者类别数较多的数据集时,IRLS算法具有较高的计算复杂度,因此人们对于采用更高级的优化算法求解SMLR的需求变得越来越迫切。为了提高串行求解SMLR的分类准确率和求解速度,本文基于交替方向乘子法(Alternating Direction Multiplier Method,ADMM),设计并提出了快速稀疏多元逻辑回归算法(Fast Sparse Multinomial Logistic Regression,FSMLR)。实验结果表明,FSMLR算法的分类准确率在多个数据集上均取得了最优,在运行时间上也远优于IRLS算法。考虑到目前SMLR问题的串行优化算法已经难以满足处理大规模数据所需的时间和内存要求,本文基于分布式凸优化问题,针对大规模样本的场景提出了基于样本划分的分布式SMLR算法(Sample Partitioning based Distributed SMLR,SP-SMLR);针对大规模特征的场景,提出了基于特征划分的分布式SMLR(Feature Partitioning based Distributed SMLR,FP-SMLR)算法。SP-SMLR算法和FP-SMLR算法利用了ADMM算法的可分解性,通过将SMLR的单一目标函数拆分为多个目标函数进行求解从而实现了任务并行化。另外,原始大规模数据集被以多种方式划分为多个子数据集,各任务基于子数据集进行优化,从而实现数据并行化,极大地降低了分布式环境中任务的数据通信成本。本文使用Spark分布式计算框架实现了SP-SMLR和FP-SMLR算法,并在多组真实的大规模数据集上进行了实验。大数据实验表明,本文提出的分布式并行化SMLR算法能够对大规模样本及特征进行扩展,能够以较快的速度进行求解并保持较高的求解精度。

论文目录

  • 摘要
  • abstract
  • 注释表
  • 第1章 引言
  •   1.1 选题背景及意义
  •   1.2 国内外研究现状
  •     1.2.1 稀疏优化问题
  •     1.2.2 分布式优化问题
  •   1.3 论文研究内容
  •   1.4 论文的结构安排
  • 第2章 相关技术分析
  •   2.1 待求解问题介绍
  •   2.2 迭代软阈值收缩算法
  •   2.3 快速自适应收缩阈值法
  •     2.3.1 自适应步长目录
  •     2.3.2 回溯线性搜索
  •     2.3.3 停止准则
  •   2.4 交替方向乘子法
  •   2.5 本章小结
  • 第3章 稀疏多元逻辑回归串行求解算法
  •   3.1 迭代重加权最小二乘法
  •   3.2 快速稀疏多元逻辑回归算法
  •     3.2.1 算法描述
  •   3.3 实验与结果分析
  •     3.3.1 实验设置
  •     3.3.2 优化算法实验及分析
  •     3.3.3 传统算法实验及分析
  •   3.4 本章小结
  • 第4章 稀疏多元逻辑回归并行求解算法
  •   4.1 稀疏多元逻辑回归的一致性优化求解
  •   4.2 多元稀疏逻辑回归的共享优化求解
  •   4.3 求解算法收敛性分析
  •   4.4 求解算法计算复杂度分析
  •   4.5 实验与结果分析
  •     4.5.1 实验设置
  •     4.5.2 样本划分实验及分析
  •     4.5.3 特征划分实验及分析
  •     4.5.4 大规模算法实验及分析
  •   4.6 本章小结
  • 第5章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间从事的科研工作及取得的成果
  • 文章来源

    类型: 硕士论文

    作者: 杜萌

    导师: 雷大江

    关键词: 大数据,稀疏多元逻辑回归,交替方向乘子法,分布式并行化

    来源: 重庆邮电大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 重庆邮电大学

    分类号: O212.1

    DOI: 10.27675/d.cnki.gcydx.2019.000094

    总页数: 64

    文件大小: 1329K

    下载量: 38

    相关论文文献

    • [1].一种处理非均衡数据的非迭代核逻辑回归方法[J]. 中国科学技术大学学报 2019(12)
    • [2].基于稀疏逻辑回归的电力线路缺陷在线检测系统设计[J]. 电子设计工程 2020(15)
    • [3].基于信息量和逻辑回归耦合模型的滑坡易发性评价[J]. 科学技术与工程 2020(21)
    • [4].基于有序逻辑回归模型的成都地区流动人口幸福感分析[J]. 经贸实践 2016(15)
    • [5].基于逻辑回归的绿色建筑项目参与意愿分析[J]. 工程管理学报 2019(01)
    • [6].关于西安市大学生落户意愿的调查分析——基于逻辑回归法的研究分析[J]. 现代交际 2018(13)
    • [7].上市公司财务预警的T逻辑回归模型[J]. 井冈山大学学报(自然科学版) 2015(02)
    • [8].基于逻辑回归的“拍照赚钱”任务分析模型[J]. 中国高新区 2018(03)
    • [9].基于分层逻辑回归的小企业信用评价模型[J]. 统计与决策 2016(07)
    • [10].基于逻辑回归模型的微博转发预测[J]. 小型微型计算机系统 2016(08)
    • [11].基于逻辑回归模型的来宾市岩溶塌陷敏感性评价[J]. 安全与环境工程 2014(06)
    • [12].基于逻辑回归模型的中文垃圾短信过滤[J]. 黑龙江工程学院学报(自然科学版) 2010(04)
    • [13].基于逻辑回归的大学生生活质量评价模型研究[J]. 运城学院学报 2019(03)
    • [14].基于广义有序逻辑回归的沥青路面使用性能评价[J]. 厦门理工学院学报 2018(05)
    • [15].基于逻辑回归的“但见一证便是”探讨[J]. 中华中医药杂志 2017(11)
    • [16].基于非线性预处理及逻辑回归的异常检测算法[J]. 信息技术与网络安全 2018(03)
    • [17].基于信息论与逻辑回归的滑坡定量空间预测[J]. 新疆有色金属 2018(01)
    • [18].逻辑回归模型在医疗设备报废评估辅助决策系统中的应用[J]. 智慧健康 2016(04)
    • [19].论道德之应该的逻辑回归[J]. 道德与文明 2016(03)
    • [20].制造业上市公司信用风险实证研究——基于逻辑回归方法分析[J]. 金融经济 2016(14)
    • [21].逻辑回归解决文本分类问题[J]. 通讯世界 2018(08)
    • [22].顾及局部与结构特征的稀疏多项式逻辑回归高光谱图像分类方法[J]. 测绘通报 2019(06)
    • [23].逻辑回归模型在银行信贷业务中的应用[J]. 金融纵横 2019(05)
    • [24].林地变化驱动力研究中逻辑回归模型的应用[J]. 世界林业研究 2016(03)
    • [25].基于逻辑回归模型的瓦斯浓度异常值检测与预警[J]. 陕西煤炭 2020(04)
    • [26].稀疏多元逻辑回归问题优化算法研究[J]. 重庆邮电大学学报(自然科学版) 2019(03)
    • [27].基于逻辑回归模型的电力客户停电敏感度评分卡研究与实现[J]. 电力需求侧管理 2018(03)
    • [28].基于多分变量逻辑回归的短波广播效果估算方法[J]. 广播与电视技术 2015(S1)
    • [29].基于逻辑回归模型的垃圾短信过滤系统的研究[J]. 数字技术与应用 2013(02)
    • [30].基于逻辑回归模型的雷电潜势预报方法[J]. 广东气象 2011(04)

    标签:;  ;  ;  ;  

    快速稀疏多元逻辑回归与分布式并行化
    下载Doc文档

    猜你喜欢