基于Q-学习算法的序列决策模型研究

基于Q-学习算法的序列决策模型研究

论文摘要

序列决策问题作为一种广泛存在的决策问题,在各个领域都具有重要的应用。强化学习技术为解决序列决策问题提供了一种强有力工具,本文主要针对于强化学习的典型算法——Q-学习算法进行了改进研究,并给出了改进Q-学习算法在增量分类问题和群体决策问题两个领域的应用。在分类问题中,当用于训练分类器的分类信息不是一次性获得,而是以序列的形式给出的时候,增量学习提供了一个重要的解决方法。然而,在增量学习中,样本的标记顺序会严重影响分类器的性能,特别是在分类器分类能力较弱的情况下,因为增量学习方法容易过早地将噪声数据添加到训练集上,从而影响分类器的精度。为解决这个问题,本文提出一种基于Q-学习算法的增量分类模型。该模型利用强化学习中经典的Q-学习算法来合理选择样本增量序列,削弱噪声数据的负面影响,并实现在学习过程中自主标记样本的功能。同时,为了克服当新增未标记样本集规模较大时,由Q-学习算法中的状态空间与动作空间的增大而带来的计算复杂度和存储空间呈指数增大这一问题,本文进一步给出了批量增量分类模型,有效降低了模型的计算复杂度并节约了存储空间。实验验证基于Q-学习算法的增量分类模型融合了增量学习及强化学习的思想,具有分类精度高,实时性强等优点。多阶段群体决策问题作为一类典型的序列决策问题,其决策环境面临的大部分是不确定状态空间,甚至是未知环境空间(例如状态转移概率矩阵完全未知),为了寻求具有较高共识度的多阶段群体最优策略,决策者需要通过对环境的动态交互来获得进一步的信息,因此,我们通过对Q-学习算法进行改进,建立多阶段群体决策Q-学习算法基本算法模型,并改进该算法的迭代过程,从中学习得到群体最优策略。同时,证明了基于Q-学习算法得到的多阶段群体最优策略也是群体共识度最高的策略。最后,实例说明了算法的合理性及可行性。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   1.1 研究背景和意义
  •   1.2 国内外研究现状
  •     1.2.1 基于增量学习的分类算法研究现状
  •     1.2.2 多阶段群体决策的研究现状
  •     1.2.3 Q-学习算法的研究现状
  •   1.3 主要研究内容
  •   1.4 论文组织结构
  •   1.5 本章小结
  • 第二章 相关知识
  •   2.1 增量学习
  •   2.2 多阶段群体决策模型
  •   2.3 强化学习
  •   2.4 Q-学习算法
  •     2.4.1 Q-学习算法原理
  •     2.4.2 收敛性分析
  •   2.5 本章小结
  • 第三章 基于Q-学习算法的增量分类模型
  •   3.1 基于Q-学习算法的增量分类模型
  •   3.2 算法
  •   3.3 实验结果
  •   3.4 本章小结
  • 第四章 基于改进Q-学习算法的多阶段群体决策模型
  •   4.1 基于Q-学习算法的多阶段群体决策模型
  •   4.2 基于Q-学习算法的多阶段群体决策算法
  •   4.3 基于Q-学习算法的多阶段群体决策模型共识度分析
  •   4.4 计算实例
  •   4.5 本章小结
  • 第五章 总结和展望
  •   5.1 工作总结
  •   5.2 展望
  • 参考文献
  • 致谢
  • 攻读学位期间取得的研究成果
  • 文章来源

    类型: 硕士论文

    作者: 刘凌云

    导师: 邢红杰

    关键词: 序列决策,学习算法,增量学习,多阶段群体决策

    来源: 河北大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,自动化技术

    单位: 河北大学

    基金: “国家自然科学基金面上项目”和“河北省自然科学面上基金项目”的资助,项目名称分别为:基于信息理论学习的单类分类关键问题研究(No. 61672205),基于信息理论学习的前馈神经网络学习方法研究(No. F2017201020),基于贝叶斯强化学习技术的群体共识决策模型(No. F2018201115)河北省教育厅科学技术研究重点项目资助(ZD2019021)。

    分类号: O225;TP181

    总页数: 45

    文件大小: 843K

    下载量: 120

    相关论文文献

    • [1].《算法设计与分析》课程的问题驱动递进启发式教学方法探讨[J]. 科技风 2020(01)
    • [2].融合分治法与支持向量机的“算法设计与分析”教学模式研究[J]. 科教文汇(中旬刊) 2020(02)
    • [3].对分课堂在“算法设计与分析”课程的教学实践[J]. 教育教学论坛 2020(20)
    • [4].算法设计与分析课程以赛励教的教学模式及效果分析[J]. 高教学刊 2020(06)
    • [5].算法在新闻实践过程中的伦理问题[J]. 三明学院学报 2019(05)
    • [6].算法“塑造世界”客观吗[J]. 中国报业 2018(11)
    • [7].算法设计与分析课程全方位实践教学改革探索[J]. 计算机教育 2017(02)
    • [8].基于实践性教学的《算法设计与分析》教学研究[J]. 曲靖师范学院学报 2015(06)
    • [9].在算法设计与分析课程教学中融入计算思维[J]. 价值工程 2016(08)
    • [10].算法设计与分析教学常见问题分析[J]. 电脑知识与技术 2014(24)
    • [11].算法设计与分析课程的教学与实践探索与研究[J]. 科教文汇(上旬刊) 2015(03)
    • [12].构建“算法设计与分析”趣味课堂[J]. 科教文汇(下旬刊) 2013(06)
    • [13].结合科研的计算机辅助几何设计教学[J]. 数学学习与研究 2017(17)
    • [14].聚焦核心素养案例研讨专题二:体验编程计算,初步了解算法[J]. 中国信息技术教育 2017(08)
    • [15].建构主义教学模式与算法设计与分析课程教学[J]. 甘肃科技 2013(24)
    • [16].计算思维与实践编程能力培养并重的算法设计与分析教学[J]. 电脑知识与技术 2020(04)
    • [17].面向算法设计与分析课程的翻转课堂教学模式研究[J]. 计算机教育 2016(08)
    • [18].算法设计与分析课程教学方法探讨[J]. 大学教育 2014(18)
    • [19].《算法设计与分析》的实践方法探索[J]. 新课程研究(中旬刊) 2010(12)
    • [20].算法设计与分析课程教学改革探讨[J]. 黑龙江教育学院学报 2014(08)
    • [21].《算法设计与分析》教学中采用学生讲课模式的改革探索[J]. 轻工科技 2013(06)
    • [22].《算法设计与分析》课程教学改革[J]. 福建电脑 2013(09)
    • [23].计算几何——算法设计与分析实验课改革[J]. 科技创新导报 2012(03)
    • [24].“算法设计与分析”课程教学与实践方法探讨[J]. 计算机教育 2012(06)
    • [25].计算机博弈与“算法设计与分析”实验教学[J]. 中国电力教育 2012(20)
    • [26].《算法设计与分析》课程中“回溯法”教学探讨[J]. 安庆师范学院学报(自然科学版) 2012(03)
    • [27].《算法设计与分析》课程教学方法探索[J]. 陕西教育(高教版) 2011(Z1)
    • [28].算法设计策略与计算思维[J]. 企业科技与发展 2010(08)
    • [29].关于“算法设计与分析”课程的教学探讨与实践[J]. 中国电力教育 2010(S2)
    • [30].《算法设计与分析》实践教学探讨[J]. 福建电脑 2009(10)

    标签:;  ;  ;  ;  

    基于Q-学习算法的序列决策模型研究
    下载Doc文档

    猜你喜欢