基于勒贝格采样的随机系统最优控制研究

基于勒贝格采样的随机系统最优控制研究

论文摘要

随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化领域科学者的研究热点。虽然,每个领域的科学研究对系统结构都有着各自的问题描述。但是,大多数研究方法都是围绕系统的最优性能为出发点,即寻找“最优策略”对系统性能进行优化。在性能势理论的基础上,本文将采用勒贝格采样技术,针对随机系统的优化问题进行策略研究。结合前人的观点,本文主要做了以下三方面的工作:1.针对随机动态系统的最优控制问题,采用策略迭代的方法进行求解。首先,基于性能势理论和反馈控制系统的最优性方程,给出了模型问题的策略迭代算法。然后,结合MATLAB仿真环境,在不需要辨识系统所有参数的情况下,运用该算法中的策略评价,可以从构造的样本路径上估计性能势。最后,实施策略改进以寻到最优策略来优化系统性能。2.针对勒贝格采样系统的最优控制问题,利用马尔可夫决策过程中的时间集结方法进行求解。首先,基于上一个工作中的最优控制问题的一般模型,给出了勒贝格采样系统的数学模型。然后,结合勒贝格采样技术、时间集结法、策略迭代算法和解析法对该模型进行求解,可以得出系统的最优性能以及相应的最优策略。最后,将勒贝格采样系统与传统的周期采样系统作比较,通过MATLAB仿真对比,得出勒贝格采样方法不仅可以改善系统性能,也能减小系统资源消耗。从而,在某种程度上解决了该类系统的“维数灾”问题。3.针对上述两类系统的优化问题,结合强化学习技术,解决了离散事件动态系统的最优控制问题。首先,基于样本路径和Q学习技术,给出了一阶连续时间随机动态系统的优化算法。然后,在性能势的基础上,引入一种在线策略迭代方法,又称SARSA算法,来求解该类系统的最优控制问题。最后,通过数值算例,与周期采样作比较,基于勒贝格采样的策略明显优于周期采样的策略。因此,勒贝格采样的方法更适用于实际的控制系统。

论文目录

  • 致谢
  • 摘要
  • Abstract
  • 主要符号表
  • 1 绪论
  •   1.1 研究背景
  •     1.1.1 随机系统最优控制
  •     1.1.2 马尔可夫系统与性能势理论
  •     1.1.3 基于学习和优化的方法
  •   1.2 研究的意义与课题来源
  •   1.3 课题研究现状
  •   1.4 论文主要研究内容和结构
  • 2 预备知识
  •   2.1 马尔可夫决策过程
  •     2.1.1 马尔可夫性与系统状态
  •     2.1.2 马尔可夫过程
  •     2.1.3 半马尔可夫过程
  •     2.1.4 标准马尔可夫决策过程与策略
  •   2.2 性能势
  •     2.2.1 构造样本路径
  •     2.2.2 性能势
  •   2.3 策略迭代
  •   2.4 勒贝格采样技术
  •   2.5 本章小结
  • 3 基于策略迭代的最优控制
  •   3.1 引言
  •   3.2 控制系统的模型建立
  •   3.3 在线学习和优化方法
  •     3.3.1 状态空间的离散化
  •     3.3.2 策略迭代方法
  •     3.3.3 性能势和相关参数的估计
  •   3.4 数值算例
  •   3.5 本章小结
  • 4 基于勒贝格采样的最优控制
  •   4.1 引言
  •   4.2 问题描述
  •   4.3 基于勒贝格采样系统的最优控制
  •     4.3.1 勒贝格采样系统
  •     4.3.2 时间集结法
  •     4.3.3 策略迭代算法
  •     4.3.4 解析法
  •   4.4 周期采样系统的优化控制
  •   4.5 仿真结果与分析
  •   4.6 本章小结
  • 5 基于样本路径的学习与优化
  •   5.1 引言
  •   5.2 问题描述
  •   5.3 Q学习因子
  •   5.4 SARSA算法
  •   5.5 仿真结果与分析
  •   5.6 本章小结
  • 6 结论与展望
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 文章来源

    类型: 硕士论文

    作者: 朱萌萌

    导师: 宋运忠

    关键词: 随机动态系统,勒贝格采样系统,性能势,策略迭代,算法,最优控制

    来源: 河南理工大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 河南理工大学

    基金: 国家自然科学基金项目(61340041,61374079)

    分类号: O232

    DOI: 10.27116/d.cnki.gjzgc.2019.000217

    总页数: 77

    文件大小: 2722K

    下载量: 13

    相关论文文献

    • [1].黎曼-勒贝格定理几何意义的实验教学法探讨[J]. 数学学习与研究 2017(07)
    • [2].蒙古国新总统额勒贝格道尔吉[J]. 名人传记(上半月) 2009(09)
    • [3].勒贝格外测度的一个重要性质[J]. 甘肃联合大学学报(自然科学版) 2011(05)
    • [4].蒙古新总统额勒贝格道尔吉[J]. 国际资料信息 2009(12)
    • [5].蒙古国总统额勒贝格道尔吉访问陕西[J]. 陕西画报 2016(01)
    • [6].复合函数的勒贝格可积性研究[J]. 重庆文理学院学报(自然科学版) 2010(01)
    • [7].额勒贝格道尔吉:蒙古国新总统[J]. 瞭望 2009(22)
    • [8].复合函数的勒贝格可积性研究[J]. 吉林广播电视大学学报 2012(04)
    • [9].蒙古国总统额勒贝格道尔吉会见王毅外长[J]. 世界知识 2014(14)
    • [10].基于勒贝格采样的非线性系统优化控制[J]. 复杂系统与复杂性科学 2019(01)
    • [11].瑞士米勒贝格核电厂获准退役[J]. 国外核新闻 2018(07)
    • [12].小波级数的部分和在勒贝格点处的收敛性与收敛速度[J]. 山西师范大学学报(自然科学版) 2009(02)
    • [13].蒙古国游牧文化困厄的启示[J]. 南风窗 2015(24)
    • [14].图说天下[J]. 党员干部之友 2014(09)
    • [15].习近平主席同蒙古国总统额勒贝格道尔吉互致贺电[J]. 世界知识 2014(10)
    • [16].应用傅里叶级数展开定理证明推广的黎曼—勒贝格引理[J]. 河南科学 2013(03)
    • [17].关于五个积分极限定理的等价性[J]. 宁波教育学院学报 2008(06)
    • [18].里斯关于矩量问题研究的目的和意义[J]. 科学技术哲学研究 2015(06)
    • [19].瑞士公众支持米勒贝格核电厂继续运行[J]. 国外核新闻 2014(06)
    • [20].瑞士组建合资公司以实现核电的以新代旧[J]. 国外核新闻 2008(01)
    • [21].财经大事记[J]. 中国海关 2014(09)
    • [22].勒贝格控制收敛定理及其应用[J]. 品牌(下半月) 2015(03)
    • [23].蒙古国:东北亚舞台上的新秀[J]. 世界知识 2013(24)
    • [24].勒贝格控制收敛定理的应用[J]. 中国新技术新产品 2010(23)
    • [25].习近平主席同蒙古国总统额勒贝格道尔吉就中蒙建交65周年互致贺电[J]. 世界知识 2014(21)
    • [26].一座瑞士核电站获准无限期运行[J]. 国外核新闻 2013(04)
    • [27].瑞士核能已成为“过去式”[J]. 质量探索 2012(04)
    • [28].我区推进“中蒙俄经济走廊”建设的着力点[J]. 北方经济 2015(08)
    • [29].Vitali集与Bernstein集之间的关系[J]. 通讯世界 2019(04)
    • [30].积分极限定理的等价性[J]. 牡丹江大学学报 2008(09)

    标签:;  ;  ;  ;  ;  ;  

    基于勒贝格采样的随机系统最优控制研究
    下载Doc文档

    猜你喜欢