平均型强化学习论文-臧兆祥,李昭,王俊英,但志平

平均型强化学习论文-臧兆祥,李昭,王俊英,但志平

导读:本文包含了平均型强化学习论文开题报告文献综述及选题提纲参考文献,主要关键词:平均奖赏,强化学习,R-学习算法,学习分类元系统(LCS)

平均型强化学习论文文献综述

臧兆祥,李昭,王俊英,但志平[1](2016)在《基于平均奖赏强化学习算法的零阶分类元系统》一文中研究指出零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。(本文来源于《计算机工程与应用》期刊2016年21期)

黄浩晖,杨宛璐,陈玮[2](2014)在《基于性能势的A*平均奖赏强化学习算法研究》一文中研究指出强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。GA*-learning在基于性能势的平均奖赏强化学习算法(G-learning)中加入启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。把GA*-learning运用到通过简化的机器人足球领域——keepaway,仿真结果验证了算法能有效提高系统的性能和收敛速度。(本文来源于《计算机仿真》期刊2014年07期)

杨宛璐[3](2014)在《基于性能势的改进平均奖赏强化学习算法研究》一文中研究指出强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态实时、分布式控制、不确定环境中的合作和对抗等特点,是人工智能、控制决策和智能机器人领域发展的一项重要研究。传统的强化学习算法在解决RoboCup智能体策略问题时,仍存在算法收敛速度慢,环境不确定性强、参数敏感性高等问题。针对强化学习算法存在的上述问题,本文提出了相应的改进方法。本文主要的工作和创新点如下:首先,本文对强化学习发展进程、强化学习基础理论及主要算法和性能势理论进行基本介绍,并对其在求解过程中的优缺点进行分析。其次,传统平均强化学习在求解智能体的个体技术过程中会产生求解速度过慢、局部最优等问题。为了提高球员的个体技术性能,我们采用性能势强化学习算法对球员个体踢球技术进行离线训练。通过实验验证,结果表明这一算法在这一问题上收敛速度和成功率都优于传统强化学习算法。最后,我们提出了基于性能势强化学习的多智能体协作算法。该方法不仅要解决多智能体系统状态空间的问题,还要考虑多个智能体同时学习及回报值问题。本文将改进的多智能体G学习算法运用在Keepaway平台上,体现了良好的性能表现。本文工作都是基于RoboCup2D机器人足球仿真球队GDUT_TiJi架构上实现的,在完成球队代码的实现后,我们分别参加了2013RoboCup2D Soccer Simulation WorldCup和2013年中国机器人大赛暨Robocup公开赛,并获得了理想成绩。(本文来源于《广东工业大学》期刊2014-05-01)

陶钊榕[4](2013)在《平均报酬准则下的逆向强化学习算法研究》一文中研究指出强化学习中报酬函数主要是根据经验人为设定的,难以保证最优性,学徒学习同样需要求取报酬函数。逆向强化学习通过学习演示轨迹或专家策略去构造潜在报酬函数,为报酬函数的自动构造提供了有效方法,避免了人为经验判断的主观性,因而逆向强化学习具有重要的研究意义。目前逆强化学习主要集中在折扣准则的马尔可夫决策过程中,平均准则下的逆强化学习尚没有得到普遍的关注,因而本文主要讨论平均准则下的逆向强化学习算法,解决报酬函数的自动构造问题。本文主要从两方面进行研究:一方面是在小状态空间环境下,基于灵敏度的思想,通过分析平均准则下的性能差公式,对其进行学习优化,得到了基于灵敏度的逆向强化学习算法。另一方面是在大状态空间或者报酬函数很难一一列举的环境下,通过特征基函数线性组合的方法描述报酬函数值,并结合最大边际思想、零和博弈思想、自然梯度思想,得到了平均准则下的叁种逆向强化学习算法:最大边际、结合零和博弈思想、自然梯度叁个逆向强化学习算法。本文采用方格迷宫和无人车仿真实验平台对四种算法进行仿真,主要通过叁方面验证算法的有效性:所求策略和专家策略采取错误动作的状态数目、平均报酬值之差、自动构造的报酬函数值。同时分析了算法对专家策略和环境的依赖程度,并对以上算法的优越性进行分析和比较。(本文来源于《哈尔滨工业大学》期刊2013-12-01)

郝鹃,余建军,周文慧[5](2013)在《基于平均强化学习的订单生产方式企业订单接受策略》一文中研究指出从收益管理思想出发,采用平均强化学习算法研究不确定环境下订单生产(MTO)方式企业的订单接受问题。以最大化平均期望收益为优化目标,采用多级价格机制,把订单类型、价格和提前期的不同组合作为系统状态划分标准,结合平均强化学习原理,提出了具有学习能力的订单接受算法(RLOA)。仿真结果表明,RLOA算法具有学习和选择性接受订单的能力,与其他订单接受规则相比,在平均收益、订单类型接受状况和适应性等方面都有较好表现。(本文来源于《计算机应用》期刊2013年04期)

李建军,任建功,李衍杰[6](2012)在《一种基于Schweitzer变换的平均报酬强化学习算法》一文中研究指出针对平均报酬下的Markov决策过程(MDP)模型,本文提出了一种基于Schweitzer变换的相对值迭代强化学习(RVI-RL)算法。该算法通过引入Schweitzer变换和相对值迭代思想,给出了等价的平均报酬最优性方程和新的动作值函数,不仅避免了学习过程中对最优平均报酬的估计,而且改善了学习算法的收敛速度。最后,通过自主机器人导航仿真实验,证明了算法的有效性和实用性。(本文来源于《第叁十一届中国控制会议论文集B卷》期刊2012-07-25)

李瑾,刘全,杨旭东,杨凯,翁东良[7](2012)在《一种改进的平均奖赏强化学习方法在RoboCup训练中的应用》一文中研究指出强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏强化学习收敛速度缓慢这一问题,提出了一种改进的平均奖赏强化学习方法.同时,为了处理大状态空间、提高泛化能力,算法采用神经网络作为近似函数.算法在RoboCup中实验的训练表明该算法具有较快的收敛速度和较强的泛化能力.(本文来源于《苏州大学学报(自然科学版)》期刊2012年02期)

刘全,傅启明,龚声蓉,伏玉琛,崔志明[8](2011)在《最小状态变元平均奖赏的强化学习方法》一文中研究指出针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。(本文来源于《通信学报》期刊2011年01期)

陶隽源,孙金玮,李德胜[9](2008)在《基于线性平均的强化学习函数估计算法》一文中研究指出提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题。该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程。该算法利用强化学习算法的标准问-题Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值。(本文来源于《吉林大学学报(工学版)》期刊2008年06期)

王巍巍,陈兴国,高阳[10](2008)在《一种结合Tile Coding的平均奖赏强化学习算法》一文中研究指出平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.(本文来源于《模式识别与人工智能》期刊2008年04期)

平均型强化学习论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。GA*-learning在基于性能势的平均奖赏强化学习算法(G-learning)中加入启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。把GA*-learning运用到通过简化的机器人足球领域——keepaway,仿真结果验证了算法能有效提高系统的性能和收敛速度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

平均型强化学习论文参考文献

[1].臧兆祥,李昭,王俊英,但志平.基于平均奖赏强化学习算法的零阶分类元系统[J].计算机工程与应用.2016

[2].黄浩晖,杨宛璐,陈玮.基于性能势的A*平均奖赏强化学习算法研究[J].计算机仿真.2014

[3].杨宛璐.基于性能势的改进平均奖赏强化学习算法研究[D].广东工业大学.2014

[4].陶钊榕.平均报酬准则下的逆向强化学习算法研究[D].哈尔滨工业大学.2013

[5].郝鹃,余建军,周文慧.基于平均强化学习的订单生产方式企业订单接受策略[J].计算机应用.2013

[6].李建军,任建功,李衍杰.一种基于Schweitzer变换的平均报酬强化学习算法[C].第叁十一届中国控制会议论文集B卷.2012

[7].李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报(自然科学版).2012

[8].刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报.2011

[9].陶隽源,孙金玮,李德胜.基于线性平均的强化学习函数估计算法[J].吉林大学学报(工学版).2008

[10].王巍巍,陈兴国,高阳.一种结合TileCoding的平均奖赏强化学习算法[J].模式识别与人工智能.2008

标签:;  ;  ;  ;  

平均型强化学习论文-臧兆祥,李昭,王俊英,但志平
下载Doc文档

猜你喜欢