维数灾论文_闫其粹

导读:本文包含了维数灾论文开题报告文献综述、选题提纲参考文献及外文文献翻译，主要关键词:神经网络,负荷,俄罗斯方块,高斯,分配,过程,动态。

维数灾论文文献综述

闫其粹^[1]（2010）在《解决强化学习中维数灾问题的方法研究》一文中研究指出针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数估计等不同的角度来给出解决方法,提出了基于启发式奖赏函数的分层强化学习算法和基于神经网络的强化学习算法。同时,在所提理论的基础上,分别开发了俄罗斯方块、Mountain car和Grid World等实验平台,将上述算法应用到实验中,通过实验分析,进一步验证所提算法在解决“维数灾”问题方面的正确性和有效性。本文的主要研究成果概括为以下五个方面:(1)提出了一种基于启发式奖赏函数的分层强化学习算法,并从理论上证明了该算法的收敛性。该算法通过在子任务中加入启发式奖赏信息,使Agent的探索速度大大提高。该算法不仅可以部分解决“维数灾”问题,而且可以加快任务的收敛速度。(2)开发了俄罗斯方块游戏的实验平台,并将基于启发式奖赏函数的分层强化学习算法应用于该平台。实验结果验证了该算法不仅能够大幅度的减少环境状态空间,能在一定程度上缓解“维数灾”问题,而且还具有很好的收敛速度。(3)针对“维数灾”问题,提出了将神经网络应用于强化学习中的一种新算法QL-BP算法。该算法利用神经网络强大的函数逼近能力,使学习系统不需要遍历每个状态或状态-动作对就可以给出正确的值函数,空间复杂度显着降低。(4)针对QL-BP算法在实验初期因为样本误差较大而出现的震荡、收敛速度慢以及在学习后期会出现过拟合现象等问题,提出了一种改进的QL-BP算法。实验表明改进的QL-BP算法收敛速度更快,学习后期的过拟合现象也基本消除。(5)开发了Mountain car和Grid World实验平台,在这两个实验平台上应用QL-BP算法以及改进的QL-BP算法。通过实验,验证了这两种算法在空间复杂度方面明显优于Q(λ)算法,一定程度上解决了“维数灾”问题。(本文来源于《苏州大学》期刊2010-04-01）

周文云^[2]（2009）在《强化学习维数灾问题解决方法研究》一文中研究指出本文针对强化学习任务中存在的一个普遍且重要的问题“维数灾”困难,即状态空间的大小随着特征数量的增加而发生指数级的增长,提出两种方法从不同的角度来解决“维数灾”困难和优化强化学习方法。同时,在所提理论的基础上,以Eclipse为开发平台,在SWT的基础上,开发了俄罗斯方块游戏,将其作为算法的实验平台,从而对相应的方法进行实验效果的验证。同时又将强化学习理论应用到Ad Hoc网络路由选择算法中,集中解决了路由效率、能源开销、安全性等相关问题。本文的主要研究成果概括为以下四个方面:(1)分析研究了强化学习中的“维数灾”问题,并在此基础上提出了一种大规模离散空间中的高斯强化学习方法。实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高。(2)针对强化学习的“维数灾”问题和算法收敛速度过慢的困难,提出了一种基于动作分值的分层强化学习奖赏优化方法。使用了动作分值和分层思想的强化学习方法可以达到优化奖赏函数和加快收敛速度的效果。实验结果表明,使用了该方法的强化学习算法能显着提高算法的收敛速度和实验效果。(3)以俄罗斯方块游戏为实验平台,将上述方法应用于其中,分析各个算法的优劣和各类参数的性能比较,并提出可以进一步改进的实验效果的若干思想。(4)以Ad Hoc网络为应用平台,将相关的强化学习方法应用于Ad Hoc网络路由选择过程中,从综合的角度来解决Ad Hoc网络中存在的路由效率、能源开销、安全性、自适应性等路由选择问题。(本文来源于《苏州大学》期刊2009-05-01）

向凌,周建中,杨敬涛^[3]（2004）在《一种消除动态规划法中维数灾的新方法》一文中研究指出常规的动态规划法优化水电站厂内负荷分配时 ,容易出现维数灾。限于计算机的计算速度和存储空间 ,维数灾会导致负荷分配不能满足实时控制的要求 ,有时还发生负荷不能分配的情况。基于实际应用 ,提出了一种新的维数灾消除方法 ,可以大大加快计算速度(本文来源于《电力系统及其自动化学报》期刊2004年03期）

维数灾论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文针对强化学习任务中存在的一个普遍且重要的问题“维数灾”困难,即状态空间的大小随着特征数量的增加而发生指数级的增长,提出两种方法从不同的角度来解决“维数灾”困难和优化强化学习方法。同时,在所提理论的基础上,以Eclipse为开发平台,在SWT的基础上,开发了俄罗斯方块游戏,将其作为算法的实验平台,从而对相应的方法进行实验效果的验证。同时又将强化学习理论应用到Ad Hoc网络路由选择算法中,集中解决了路由效率、能源开销、安全性等相关问题。本文的主要研究成果概括为以下四个方面:(1)分析研究了强化学习中的“维数灾”问题,并在此基础上提出了一种大规模离散空间中的高斯强化学习方法。实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高。(2)针对强化学习的“维数灾”问题和算法收敛速度过慢的困难,提出了一种基于动作分值的分层强化学习奖赏优化方法。使用了动作分值和分层思想的强化学习方法可以达到优化奖赏函数和加快收敛速度的效果。实验结果表明,使用了该方法的强化学习算法能显着提高算法的收敛速度和实验效果。(3)以俄罗斯方块游戏为实验平台,将上述方法应用于其中,分析各个算法的优劣和各类参数的性能比较,并提出可以进一步改进的实验效果的若干思想。(4)以Ad Hoc网络为应用平台,将相关的强化学习方法应用于Ad Hoc网络路由选择过程中,从综合的角度来解决Ad Hoc网络中存在的路由效率、能源开销、安全性、自适应性等路由选择问题。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。