性能势论文-黄浩晖,杨宛璐,陈玮

性能势论文-黄浩晖,杨宛璐,陈玮

导读:本文包含了性能势论文开题报告文献综述及选题提纲参考文献,主要关键词:强化学习,性能势,启发式搜索,半马尔科夫决策过程

性能势论文文献综述

黄浩晖,杨宛璐,陈玮[1](2014)在《基于性能势的A*平均奖赏强化学习算法研究》一文中研究指出强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。GA*-learning在基于性能势的平均奖赏强化学习算法(G-learning)中加入启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。把GA*-learning运用到通过简化的机器人足球领域——keepaway,仿真结果验证了算法能有效提高系统的性能和收敛速度。(本文来源于《计算机仿真》期刊2014年07期)

黄浩晖[2](2014)在《基于性能势的智能体学习与规划方法研究》一文中研究指出强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优化算法。然而,近年来随着人工智能应用领域的扩展,求解具有不确定性的大规模规划问题成为了人工智能理论发展的难点之一。针对智能体决策问题研究中的“维数灾难”,本文提出了一种结合启发式搜索的学习方法,并通过RoboCup机器人足球2D仿真平台,分析该算法的模型及其有效性。本文主要的工作如下:●首先,对强化学习、性能势理论及启发式搜索方法进行了基本介绍,对它们的发展状况做了阐述,并分析在求解问题过程中各自的优势及缺点,同时说明了这些方法在机器人足球中的研究意义。●针对强化学习和性能势理论在求解大规模规划问题中求解过程不稳定和收敛速度过慢的缺点,本文提出了一个新的算法——基于性能势的A*平均强化学习算法。它结合性能势理论与启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。最后通过强化学习标准测试工具箱中的Grid-World实验场景对算法的有效性进行了测试和分析。●本文基于RoboCup机器人足球2D仿真平台中通过简化的机器人足球领域——keepaway,根据Option理论设计了智能体的动作生成器,结合GA*-learning算法并应用到智能体的决策过程中,使球员的个人技术得以提高。综上所述,本文根据强化学习与性能势相关理论,提出了基于性能势的A*平均强化学习算法,并通过一系列实验数据分析,验证了该算法的有效性。同时,我们把本文的研究成果应用到2D仿真队伍GDUT_TiJi的代码设计中,并参加了2013年的中国机器人大赛暨RoboCup公开赛和2013年RoboCup世界杯赛,分别获得了一等奖和第9名。(本文来源于《广东工业大学》期刊2014-05-01)

杨宛璐[3](2014)在《基于性能势的改进平均奖赏强化学习算法研究》一文中研究指出强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态实时、分布式控制、不确定环境中的合作和对抗等特点,是人工智能、控制决策和智能机器人领域发展的一项重要研究。传统的强化学习算法在解决RoboCup智能体策略问题时,仍存在算法收敛速度慢,环境不确定性强、参数敏感性高等问题。针对强化学习算法存在的上述问题,本文提出了相应的改进方法。本文主要的工作和创新点如下:首先,本文对强化学习发展进程、强化学习基础理论及主要算法和性能势理论进行基本介绍,并对其在求解过程中的优缺点进行分析。其次,传统平均强化学习在求解智能体的个体技术过程中会产生求解速度过慢、局部最优等问题。为了提高球员的个体技术性能,我们采用性能势强化学习算法对球员个体踢球技术进行离线训练。通过实验验证,结果表明这一算法在这一问题上收敛速度和成功率都优于传统强化学习算法。最后,我们提出了基于性能势强化学习的多智能体协作算法。该方法不仅要解决多智能体系统状态空间的问题,还要考虑多个智能体同时学习及回报值问题。本文将改进的多智能体G学习算法运用在Keepaway平台上,体现了良好的性能表现。本文工作都是基于RoboCup2D机器人足球仿真球队GDUT_TiJi架构上实现的,在完成球队代码的实现后,我们分别参加了2013RoboCup2D Soccer Simulation WorldCup和2013年中国机器人大赛暨Robocup公开赛,并获得了理想成绩。(本文来源于《广东工业大学》期刊2014-05-01)

杨宛璐,陈玮,黄浩晖,王广涛[4](2014)在《性能势算法研究及在RoboCup中的应用》一文中研究指出强化学习是人工智能领域中解决学习控制的一种重要方法。在强化学习算法中,平均奖赏强化学习是以平均奖赏值作为参照标准,适用于解决具有循环特性或不具终结状态的问题,其存在参数和环境的敏感及收敛速度慢等问题,并且强调的是单个智能体的独立学习。针对上述问题,考虑单个智能体与其它智能体的关系及影响,将一种改进的基于性能势强化学习算法———G-learning引入到多智能体系统中,设计出一种新的强化学习算法,将新设计的强化学习算法应用在RoboCup的Keepaway平台上。仿真结果表明了在选择较好参考状态的条件下有效提高了强化学习算法在Keepaway平台的性能表现。(本文来源于《计算机工程与设计》期刊2014年03期)

鲍秉坤,殷保群,奚宏生[5](2009)在《基于性能势的Markov控制过程双时间尺度仿真算法》一文中研究指出在基于性能势的随机逼近方法中引入双时间尺度的概念,提出了离散时间Markov控制过程的基于性能势的双时间尺度仿真梯度算法,弥补了传统算法中每步更新算法更新频率过快和更新环更新算法更新频率过慢的不足,并利用叁个数值例子来说明双时间尺度更新算法在计算复杂度、收敛速度和收敛精度上的优势。(本文来源于《系统仿真学报》期刊2009年13期)

程文娟,唐昊,李豹,周雷[6](2009)在《一种MDP基于性能势的并行Q学习算法》一文中研究指出在性能势理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法。提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给出了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。仿真实验表明并行Q学习算法的有效性。(本文来源于《系统仿真学报》期刊2009年09期)

徐琰恺[7](2008)在《控制系统的学习和优化:马尔可夫性能势理论与方法》一文中研究指出本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于性能势这一核心概念,可以将学习和优化领域的各种研究内容和成果放到统一的框架中。进一步,还可以提出相当多的理论和算法。传统的最优控制方法,只能处理比较简单的,或者比较特殊的情况,而对于一般化的问题难以求解。将学习和优化领域的各种理论与方法应用到这些问题上,可以得到相当多的用传统方法无法得到的成果。本文首先将马尔可夫性能势理论扩展到连续的状态空间。成功的建立起动态系统和马尔可夫系统之间的联系。基于此,导出了动态控制系统的性能势表达式。在有了性能势这个核心概念以后,学习与优化领域的各种方法,如策略迭代方法、强化学习方法都可以成功的运用到动态控制系统中,以寻找最优的反馈控制策略。性能势理论和方法的优势,在于重新发掘了系统结构信息,并且很容易设计出在线学习的优化算法。本文重点考虑了在叁类系统中,性能势理论和方法的应用。分别是跳变线性二次(JLQ)系统的分层控制问题,基于事件的控制问题和带有约束的最优控制问题。对每一类问题,应用马尔可夫模型建模,将原问题转化为等价马尔可夫决策过程的优化问题。应用性能势的概念,可以发现一些有用的信息。针对跳变线性二次模型的上层优化问题,我们提出了模态的性能势表达式,由此可以求解传统方法无法处理的JLQ系统的分层控制问题。采用时间集结的思路,首次给出了Lebesgue采样系统的最优控制模型,并提出解析的和基于样本路径的算法,同时可以将时间集结的想法应用于熔炉加热过程这一工程系统中。采用性能梯度方法,研究了带有约束的最优控制问题,提出了在线的学习优化算法。(本文来源于《清华大学》期刊2008-06-01)

蒋兆春,殷保群,李俊[8](2007)在《基于耦合技术计算Markov链性能势的仿真算法》一文中研究指出在对遍历Markov链的性能灵敏度分析中,可以用计算Markov链的实现因子来代替计算Markov链的性能势。给出了一种基于耦合技术的仿真方法来估计实现因子。使用经过优化的耦合矩阵,通过仿真来快速获得实现因子的估计。这种方法有两个优点:一是不用去求稳态分布,二是能减少仿真中的计算时间。(本文来源于《系统仿真学报》期刊2007年15期)

程燕[9](2007)在《不确定SMDP基于性能势的鲁棒控制研究》一文中研究指出半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型,其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中,状态的转移概率和性能函数是影响系统性能的两个重要因素。然而实际应用中,由于建模上的困难和外界环境的干扰,系统的状态转移概率往往难以精确得知,系统的即时性能也可能因某些不确定参数的影响而产生波动。为适应这类不确定SMDP系统在最优控制上的需要,本文在性能势理论的基础上研究了一类受不确定参数影响的SMDP鲁棒控制问题,着重讨论参数极坏情况下使系统性能达到最优的鲁棒控制策略求解算法。根据嵌入链结构的不同,SMDP可划分为遍历链、单链和多链叁种模型。本文从最简单的遍历链模型出发,首先给出不相关不确定参数下的求解最优鲁棒策略的策略迭代算法,并讨论了策略迭代的收敛性;对参数相关的情况,本文详细介绍了遗传算法在SMDP鲁棒控制过程中的应用。在一般的多链模型中,由于多个常返类和瞬态的存在,要求解其最优策略是相当困难的。通过一些假设性条件的限制,本文研究了平均准则下一类特殊多链SMDP的最优性方程,并给出了相应的策略迭代算法。考虑到系统状态数目的增加将导致优化时间过长,为提高效率,本文在参数相关的多链鲁棒控制过程中引入并行遗传算法,通过多个处理机上的协同寻优来加速搜索,文中我们还详细讨论了迁移算子的两种具体实现方式。由于单链结构是多链的一种特例,上述有关算法也可运用于解决单链SMDP的鲁棒控制问题。文章通过一些数值例子来说明相关算法的应用,并根据实验结果分析了各种鲁棒决策算法的优化效果。(本文来源于《合肥工业大学》期刊2007-05-01)

李豹[10](2007)在《大规模Markov决策过程基于性能势的并行算法研究与应用》一文中研究指出随着科技的发展,在当今社会中,广泛存在着一类复杂的随机动态系统,即离散事件动态系统(DEDS)。Markov决策过程(MDP)是DEDS建模常见的方法,其性能优化问题一直是学者研究的重要方向。Markov性能势理论的提出,为MDP的分析和研究提供了一种新的理论框架。在性能势理论的基础上,我们不仅可以建立基于已知模型参数的理论计算来寻求最优策略,而且可以在模型参数未知时利用基于样本轨道的仿真和在线学习算法来求解。在实际大规模的Markov系统中,串行执行优化算法的时间往往很长,甚至问题求解不可行。采用并行计算是提高MDP执行效率最直接最有效的一种方式。一方面,并行求解能真正缩减算法的计算时间;另一方面,在MDP仿真优化时,并行仿真不仅能加快收敛速度,还有可能得到更为精确的解。因此MDP并行计算的实现对实际大规模MDP的性能优化具有重要的指导作用,本论文主要对MDP并行算法展开研究,研究内容包括基于性能势的MDP理论迭代算法和仿真优化方法的并行化实现。对于MDP理论计算的并行化实现,文章给出了并行数值迭代算法,该算法将状态空间划分为若干个状态子空间,每个处理节点只在一个状态子空间上运算,从而降低优化求解时间。针对随机划分状态空间方法易使处理节点间负载严重不平衡,并行效率低下的问题,论文提出了一种启发式的划分策略。该划分策略将处理器等待时间作为目标函数,通过极小化所有处理器的等待时间来划分和分配状态空间。实验结果表明采用启发式划分方法的并行性能要优于采用随机划分方法。对于MDP仿真算法的并行化实现,论文讨论了并行Q学习和NDP并行优化方法。首先,文章在性能势理论框架内,提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,探讨了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。在NDP并行优化中,论文以神经网络集成有关理论为出发点,采用多个神经元网络并行仿真学习来提高NDP优化效率,提出了两种NDP并行优化算法。文中还给出了叁种生成差异度不同的神经元网络的方法,并通过求解实例对比了这叁种方法的优化效果。此外,文章还研究了Rollout算法及其并行求解方法。首先,我们给出了基于NDP的在线Rollout算法,提出了状态划分和行动划分的Rollout并行算法,分析了两种并行算法的实用场合,并用于解决多类商品库存控制和多级仓库库存控制问题。(本文来源于《合肥工业大学》期刊2007-05-01)

性能势论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能势理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系统进行在线优化和求解。当系统状态转移矩阵、奖励函数等参数未知时,强化学习通常被用来对系统的最优策略进行学习,该特点使其能够很好地与性能势理论相结合,从而得出更有效率的在线优化算法。然而,近年来随着人工智能应用领域的扩展,求解具有不确定性的大规模规划问题成为了人工智能理论发展的难点之一。针对智能体决策问题研究中的“维数灾难”,本文提出了一种结合启发式搜索的学习方法,并通过RoboCup机器人足球2D仿真平台,分析该算法的模型及其有效性。本文主要的工作如下:●首先,对强化学习、性能势理论及启发式搜索方法进行了基本介绍,对它们的发展状况做了阐述,并分析在求解问题过程中各自的优势及缺点,同时说明了这些方法在机器人足球中的研究意义。●针对强化学习和性能势理论在求解大规模规划问题中求解过程不稳定和收敛速度过慢的缺点,本文提出了一个新的算法——基于性能势的A*平均强化学习算法。它结合性能势理论与启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。最后通过强化学习标准测试工具箱中的Grid-World实验场景对算法的有效性进行了测试和分析。●本文基于RoboCup机器人足球2D仿真平台中通过简化的机器人足球领域——keepaway,根据Option理论设计了智能体的动作生成器,结合GA*-learning算法并应用到智能体的决策过程中,使球员的个人技术得以提高。综上所述,本文根据强化学习与性能势相关理论,提出了基于性能势的A*平均强化学习算法,并通过一系列实验数据分析,验证了该算法的有效性。同时,我们把本文的研究成果应用到2D仿真队伍GDUT_TiJi的代码设计中,并参加了2013年的中国机器人大赛暨RoboCup公开赛和2013年RoboCup世界杯赛,分别获得了一等奖和第9名。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

性能势论文参考文献

[1].黄浩晖,杨宛璐,陈玮.基于性能势的A*平均奖赏强化学习算法研究[J].计算机仿真.2014

[2].黄浩晖.基于性能势的智能体学习与规划方法研究[D].广东工业大学.2014

[3].杨宛璐.基于性能势的改进平均奖赏强化学习算法研究[D].广东工业大学.2014

[4].杨宛璐,陈玮,黄浩晖,王广涛.性能势算法研究及在RoboCup中的应用[J].计算机工程与设计.2014

[5].鲍秉坤,殷保群,奚宏生.基于性能势的Markov控制过程双时间尺度仿真算法[J].系统仿真学报.2009

[6].程文娟,唐昊,李豹,周雷.一种MDP基于性能势的并行Q学习算法[J].系统仿真学报.2009

[7].徐琰恺.控制系统的学习和优化:马尔可夫性能势理论与方法[D].清华大学.2008

[8].蒋兆春,殷保群,李俊.基于耦合技术计算Markov链性能势的仿真算法[J].系统仿真学报.2007

[9].程燕.不确定SMDP基于性能势的鲁棒控制研究[D].合肥工业大学.2007

[10].李豹.大规模Markov决策过程基于性能势的并行算法研究与应用[D].合肥工业大学.2007

标签:;  ;  ;  ;  

性能势论文-黄浩晖,杨宛璐,陈玮
下载Doc文档

猜你喜欢