导读:本文包含了群体强化学习论文开题报告文献综述及选题提纲参考文献,主要关键词:机器博弈,深度强化学习,超参数自适应,群体
群体强化学习论文文献综述
周银达[1](2019)在《基于群体的深度强化学习超参数自适应方法研究》一文中研究指出机器博弈是人类智能行为的模仿与提升,是人工智能技术理想的实验床,被称为“人工智能的果蝇”,具有广泛的应用前景。深度强化学习是目前求解机器博弈问题的有效手段和主流方法,但是深度强化学习方法目前还存在一些问题,其中,超参数设定问题由于直接影响学习的效率,因而具有重要的研究价值。本文研究深度强化学习的超参数自适应方法,主要工作和研究成果如下:一、对面向机器博弈的深度强化学习方法进行了系统地调研。针对领域base-line失效问题,本文依据领域标准实验方法和评估方式,给出了最新的baseline结果。此外,对主流深度强化学习算法进行了实验研究和分析,包括算法样本效率、算法采样效率等,并由此发现了一些新的现象,得出了一些新的结论。二、提出了一种基于群体的高效在线深度强化学习超参数自适应训练方法。区别于传统的有监督学习,深度强化学习是一个高动态-非平稳的优化过程。深度强化学习的性能对其超参数配置的选择十分敏感,例如学习率,折扣系数和步长等。对深度强化学习而言,超参数最理想的状态应该是随着学习过程的推进,进行自适应地调整,而不是从始至终使用一组固定的超参数配置。对此本文提出了一种基于群体的高效在线深度强化学习超参数自适应训练方法,该方法是PBT的一种改进版本。受遗传算法的启发,重组操作被引入到群体中以加速群体向更好的临时最优超参数配置收敛。通过一系列的实验研究证明,本文所述方法可以使模型性能获得进一步的提升。叁、提出了一种基于群体的两阶段超参数自适应训练方法。在先前研究的基础上,本文提出了一个猜想:在学习模型对环境知之甚少的早期阶段,频繁的超参数变化对模型的有效学习没有帮助,而使用一组合理的固定超参数配置进行学习将有助于模型尽可能快速稳定地获得必要的知识。本文认为这对于强化学习的早期阶段尤为重要。我们首先通过实验验证了所提出猜想的合理性,在此基础上提出了一种基于群体的两阶段超参数自适应训练方法。实验结果表明,本文提出的方法可以使基于群体的超参数自适应方法获得显着的性能提升。(本文来源于《中国科学技术大学》期刊2019-06-02)
严耀华,程显毅,韩飞[2](2008)在《基于个性的群体强化学习算法》一文中研究指出本文以RoboCup为平台,提出群体强化学习算法,该算法将个性行为绑定到信息Agent上,让具有不同个性的Agent充当合适的角色,基于共同的目标,Agent可能产生共同的意图,规划出共同的行为,使追求个体目标与整体目标能合理协调,性能分析表明本文算法适用于动态、实时、有干扰、对抗的环境中。(本文来源于《微计算机信息》期刊2008年36期)
群体强化学习论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文以RoboCup为平台,提出群体强化学习算法,该算法将个性行为绑定到信息Agent上,让具有不同个性的Agent充当合适的角色,基于共同的目标,Agent可能产生共同的意图,规划出共同的行为,使追求个体目标与整体目标能合理协调,性能分析表明本文算法适用于动态、实时、有干扰、对抗的环境中。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
群体强化学习论文参考文献
[1].周银达.基于群体的深度强化学习超参数自适应方法研究[D].中国科学技术大学.2019
[2].严耀华,程显毅,韩飞.基于个性的群体强化学习算法[J].微计算机信息.2008