导读:本文包含了再励学习论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:机器人,神经网络,双足,动态,算法,模糊,飞行器。
再励学习论文文献综述
杨威,赵金,张华军[1](2011)在《基于再励学习的交流调速系统模糊神经网络控制》一文中研究指出针对矢量控制交流调速系统,该文提出并设计了一种基于再励学习的模糊神经网络速度控制器。详细介绍了基于遗传算法的神经网络权重在线训练方法,仿真对比了输入空间的划分即模糊子集数量对模糊神经网络控制器的训练及其控制效果的影响。仿真结果表明该速度控制器能通过在线训练方式获得最优参数以适应被控对象的参数变化,能使系统获得优良的动态和静态性能。(本文来源于《微电机》期刊2011年01期)
张华军,赵金[2](2010)在《基于遗传算法和神经网络预测的再励学习》一文中研究指出提出一种基于遗传算法和神经网络预测法相结合的再励学习方法,利用遗传算法对全局进行最优解搜索,将进化过程中产生的数据用来训练神经网络预测器,当再励学习逼近最优解时,利用预测网络估计动作网络的参数、结构与系统响应之间的映射关系,用预测网络逼近最优解的能力引导遗传算法在局部向最优解快速逼近,以解决遗传算法局部振荡问题,从而实现快速学习的能力。将其应用于矢量控制交流电机的速度环控制器自学习中,仿真实验验证了该算法的有效性。(本文来源于《计算机工程》期刊2010年01期)
林雄,于洪,孙志雄,韩建文[3](2009)在《再励学习及其在移动机器人行为规划中的应用》一文中研究指出再励学习(Reinforcement Learning,RL)是一种成功地结合动态编程和控制问题的机器智能方法,它将动态编程和有监督学习方法结合到机器学习系统中,通常用于解决预测和控制两类问题。提出了以矢量形式表示的评估函数,为了实现多维再励学习,用一专门的神经网络(Q网络)实现评判网络,研究其在移动机器人行为规划中的应用。(本文来源于《工业控制计算机》期刊2009年08期)
毛勇,李实,王家廞,贾培发,杨泽红[4](2008)在《基于再励学习的被动动态步行机器人》一文中研究指出为了研究仿人、能量高效的双足机器人步行,研制了由MACCEPA(mechanically adjustable compliance and controllable equilibrium position actuator)柔性驱动器驱动的半被动双足机器人,并实现了其动力学仿真系统。提出一种基于再励学习的步行控制方法。该方法首先采用Q-学习方法学习机器人在理想环境中的稳定步行步态及其控制策略,然后将此步态和控制策略作为模糊优胜学习方法的参考步态和参考控制策略并在线学习模糊网络的优胜值参数。仿真结果表明:利用学习训练的结果控制柔性驱动器在步行相转换时的动作,机器人可以实现稳定动态步行。(本文来源于《清华大学学报(自然科学版)》期刊2008年01期)
毛勇,李实,王家廞,贾培发,杨泽红[5](2008)在《基于再励学习的被动动态步行机器人》一文中研究指出为了研究仿人、能量高效的双足机器人步行,研制了由MACCEPA(mechanically adjustable compliance and controllable equilibrium position actuator)柔性驱动器驱动的半被动双足机器人,并实现了其动力学仿真系统。提出一种基于再励学习的步行控制方法。该方法首先采用Q-学习方法学习机器人在理想环境中的稳定步行步态及其控制策略,然后将此步态和控制策略作为模糊优胜学习方法的参考步态和参考控制策略并在线学习模糊网络的优胜值参数。仿真结果表明:利用学习训练的结果控制柔性驱动器在步行相转换时的动作,机器人可以实现稳定动态步行。(本文来源于《清华大学学报(自然科学版)网络.预览》期刊2008年01期)
沈超,井元伟[6](2007)在《飞行器姿态的再励学习跟踪控制》一文中研究指出针对飞行器姿态系统讨论了飞行器的俯仰姿态跟踪问题.将再励学习神经网络引入飞行器姿态系统,通过内部再励信号在线修改控制器参数来达到预期的控制效果.在保证姿态系统对实时性要求的前提下,对原有的再励学习方法进行适当改进,改进后的学习方法使跟踪精度有一定改善.仿真结果表明,该改进方法能够更精确地跟踪飞行器姿态,且具有一定的自学习和自适应能力.(本文来源于《2007中国控制与决策学术年会论文集》期刊2007-07-01)
陈岩,杨华江,沈林成[7](2007)在《基于再励学习蚁群算法的多约束QoS路由方法》一文中研究指出本文研究了多约束QoS路由问题,给出基于模糊评判的路由模型,实现了多QoS约束的综合优化;同时提出一种再励学习蚁群路由算法对该问题进行求解,算法通过对蚂蚁搜索路径进行评价产生再励信号,并根据再励信号采取了不同的信息素更新策略,提高了算法的寻优能力和收敛速度。仿真实验表明,该算法能快速得到较大程度满足业务QoS要求的路径。(本文来源于《计算机科学》期刊2007年05期)
毛勇[8](2007)在《半被动双足机器人的设计与再励学习控制》一文中研究指出被动动态步行是双足步行研究领域中的一个重要分支,其研究目的是对于步行现象本质特性的发掘,研究手段包括步态合成和步态分析方法。其中,步态合成方法通过研制机器人实体的方式,将研究者感兴趣的步行特性逐步引入机器人,它强调对于步行过程中机构自然动力学特性的充分利用。本文通过研制一型2D半被动双足机器人对这一问题进行了研究。结果证明了由与人类肌肉-骨骼驱动器具有类似特性的柔性驱动器驱动的半被动双足机器人可以实现鲁棒、高效的动态步行。本文工作的主要贡献包括:1.提出了一种基于非线性动力学系统稳定性分析的数值方法,对机器人简化模型的机械参数进行了优化。较之以往方法本方法所采用的模型与机器人实体更为接近,并且同时对多个无量纲机械参数进行寻优,所得结论可用于指导机器人设计。2.在对已有柔性驱动方式研究的基础上,为机器人进行了驱动器选型。3.设计了一型2D半被动双足机器人。机器人由MACCEPA柔性驱动器驱动,以模仿人类步行中肌肉-骨骼驱动器的作用。在步行过程中机器人的关节刚度和关节力矩可分别独立得到控制。与大部分已有半被动双足机器人相比本文设计的机器人可实现更加拟人的步态,但同时步行控制的复杂度更高。4.提出了一种基于再励学习的控制方法,将机器人步行的控制问题分解为参考步态学习问题与非理想环境下的步行控制问题。为了解决第1个子问题,提出了一种基于步行相模型的Q-学习方法,通过定义一种步行相模型将步行的先验知识与Q-学习方法相结合,降低了学习问题的状态-动作空间规模。为了解决第2个子问题,设计了一种基于模糊优胜学习结构的学习控制器,利用模糊推理系统的强泛化能力控制机器人在有环境扰动或模型参数误差的条件下实现了稳定动态步行。同时,提出了一种数值仿真算法,对学习控制器的优胜参数集进行初始化,提高了控制器的学习效率。(本文来源于《清华大学》期刊2007-04-01)
孟江华,朱纪洪,孙增圻[9](2007)在《结构化状态空间中的递阶再励学习方法》一文中研究指出在状态空间满足结构化条件的前提下,通过状态空间的维度划分直接将复杂的原始MDP问题递阶分解为一组简单的MDP或SMDP子问题,并在线对递阶结构进行完善.递阶结构中嵌入不同的再励学习方法可以形成不同的递阶学习.所提出的方法在具备递阶再励学习速度快、易于共享等优点的同时,降低了对先验知识的依赖程度,缓解了学习初期回报值稀少的问题.(本文来源于《控制与决策》期刊2007年02期)
孟江华,朱纪洪,孙增圻[10](2006)在《递阶再励学习中Option的自动发现与生成》一文中研究指出Option的自动发现与生成是递阶再励学习的难点之一,论文提出探索密度检测(ED)法,通过检测状态空间中的探索密度来发现并构建Option。和现有的方法相比具有和任务无关、不需要先验知识等优点;能很好地工作于完全未知的环境中;并且构造出的Option,在同一环境下不同任务间可以直接共享。(本文来源于《计算机工程与应用》期刊2006年33期)
再励学习论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
提出一种基于遗传算法和神经网络预测法相结合的再励学习方法,利用遗传算法对全局进行最优解搜索,将进化过程中产生的数据用来训练神经网络预测器,当再励学习逼近最优解时,利用预测网络估计动作网络的参数、结构与系统响应之间的映射关系,用预测网络逼近最优解的能力引导遗传算法在局部向最优解快速逼近,以解决遗传算法局部振荡问题,从而实现快速学习的能力。将其应用于矢量控制交流电机的速度环控制器自学习中,仿真实验验证了该算法的有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
再励学习论文参考文献
[1].杨威,赵金,张华军.基于再励学习的交流调速系统模糊神经网络控制[J].微电机.2011
[2].张华军,赵金.基于遗传算法和神经网络预测的再励学习[J].计算机工程.2010
[3].林雄,于洪,孙志雄,韩建文.再励学习及其在移动机器人行为规划中的应用[J].工业控制计算机.2009
[4].毛勇,李实,王家廞,贾培发,杨泽红.基于再励学习的被动动态步行机器人[J].清华大学学报(自然科学版).2008
[5].毛勇,李实,王家廞,贾培发,杨泽红.基于再励学习的被动动态步行机器人[J].清华大学学报(自然科学版)网络.预览.2008
[6].沈超,井元伟.飞行器姿态的再励学习跟踪控制[C].2007中国控制与决策学术年会论文集.2007
[7].陈岩,杨华江,沈林成.基于再励学习蚁群算法的多约束QoS路由方法[J].计算机科学.2007
[8].毛勇.半被动双足机器人的设计与再励学习控制[D].清华大学.2007
[9].孟江华,朱纪洪,孙增圻.结构化状态空间中的递阶再励学习方法[J].控制与决策.2007
[10].孟江华,朱纪洪,孙增圻.递阶再励学习中Option的自动发现与生成[J].计算机工程与应用.2006