张进[1]2003年在《基于智能体的多机器人协作的仿真系统》文中指出智能体(Agent)的概念起源于分布式人工智能(DAI),其相关的理论和技术,尤其是多智能体系统(MAS)和面向Agent的编程(AOP),已经越来越广泛地被应用于知识表示、DAI、Internet数据开采等与AI密切相关的领域,基于MAS的多机器人系统即是多智能体概念在机器人学领域的一个具体应用。本文基于MAS的理论,以一个机器人巡逻街区的仿真模型为例,研究了多机器人系统的协作技术。 本文首先研究了Agent系统的概念和模型结构,逐步分析了MAS的特点和相关技术,然后建立了既适合于单独承担任务,同时也支持协作需求的Agent体系结构模型,并详细描述了多个Agent协作执行一项任务的工作流程。随后,本文围绕着一个机器人巡逻街区的仿真模型,重点研究了多机器人协作中的路径规划技术,并运用运筹学中动态规划的思想和Dijkstra算法及相关图论知识解决了路径规划中的路由优化问题和冲突消解问题。最后,本文在一个基于虚拟现实的叁维仿真环境中,对该仿真模型进行了模拟实验,验证了前面提出的解决方案。
杨璐[2]2006年在《基于智能体的多机器人协作研究及仿真》文中指出智能体(Agent)的概念起源于分布式人工智能(DAI),其相关的理论和技术,尤其是多智能体系统(MAS)和面向Agent的编程(AOP),已经越来越广泛地被应用于知识表示、DAI、Internet数据挖掘等与AI密切相关的领域,基于MAS的多机器人系统即是多智能体概念在机器人学领域的一个具体应用。本文基于MAS的理论,以一个机器人巡逻街区的仿真模型为例,研究了多机器人系统的协作技术。 本文首先介绍了Agent系统的概念和特点,逐步分析了MAS的概念和主要研究内容,然后引出了本文的核心——基于MAS的多机器人协作。涉及到多机器人协作的技术可研究内容很多,在文中,介绍了一些主要的协作模式和协作机制,然后给出了一个可扩展的、基于规则的Agent体系结构和一个既适用于一般协作任务也适用于动态协作任务的多Agent的协作模型。随后,本文围绕着多机器人巡逻街区的仿真模型,运用图论的知识建立街道巡逻系统的数学模型,分析这个多机器人巡逻街区系统要解决两个协作问题,一是合作巡逻问题,一是增援问题。然后运用动态规划的思想和Dijkstra算法重点研究了多机器人协作完成巡逻任务的协作策略和增援问题中的增援算法,将多种协作策略进行对比。最后,本文在一个二维仿真环境中,对多机器人巡逻街区这一任务进行了模拟实验,验证了前面给出的各种解决方案的优缺点和适用环境。
龚荣[3]2011年在《基于Agent的多机器人协作研究与仿真》文中研究说明多机器人协作是多机器人技术领域的重点研究内容,多机器人围捕运动是研究多机器人协作技术的一个典型平台。随着机器人由传统的“工业机器人”经“‘有感觉’的机器人”到“智能机器人”的实现,多机器人协作技术成为众多学者关注的研究方向,多机器人协作围捕成为研究的热点问题之一,其中,目标机器人的逃逸策略和围捕机器人的围捕策略,以及如何更有效的实现成功围捕,是该问题的重点研究内容。本文研究了多机器人对移动目标的协作围捕问题,针对机器人的规模、速度、初始条件、围捕运动状态、围捕成功条件进行了分析和讨论,并对目标机器人和追捕机器人的运动做出动态性调整,提出了夹角最大原则的逃逸策略,确定了迎面阻截与虚拟势点相结合的围捕策略,并分别对提出的逃逸策略和围捕策略与原有策略进行仿真比较,结果表明:本中提出的逃逸策略提高了目标机器人逃逸的成功率,延长了被成功围捕的平均时间;文中提出的追捕机器人的围捕策略提高了围捕成功率,缩短了成功围捕的时间,表明了课题所提出的动态调整策略的有效性。为了科学合理分配多机器人系统的资源,高效有组织的完成任务,本中对多机器人协作任务分配问题进行了研究,将智能体联盟机制应用到多机器人协作系统的任务分配问题中,针对多机器人系统围捕任务的分配问题,从单一围捕任务分配和多围捕任务协调分配两个方面分别进行分析,对目标机器人和追捕机器人的速度、数量、距离和任务组中各成员的相对位置影响任务分配的因素进行讨论,建立数学模型,运用遗传算法进行优化求解,并进行了仿真实验,仿真结果在一定程度上表明了文中所提出的多机器人协作围捕任务分配模型的有效性。
李珺[4]2010年在《基于强化学习的多机器人追捕问题研究》文中指出多机器人协调与协作问题是多机器人系统研究的热点之一。多机器人追捕问题是研究多智能体机器人系统中多机器人协调与协作问题的理想平台。它主要研究多个追捕者捕获运动的多个逃跑者的动态过程中通过相互间的协作与协调使追捕者间避免冲突,获利最大的最优协作追捕算法。同时它涵盖了实时视觉处理、无线通讯、实时动态路径规划、多机器人分布式协调与控制、多机器人规划与学习、机器人团队之间的竞争与合作等多学科、多领域知识。强化学习是学习如何把状态映射到动作,并且使得用数字表示的奖励信号最大的一种学习方法。将强化学习应用到多机器人追捕问题中,使追捕机器人能够主动的试探环境,在与环境交互的动态过程中获得知识,不断地提高系统自身的性能,通过积累经验明确系统当前性能与目标性能之间的距离,实施改进操作,提高系统追捕效率。本文以多个机器人追捕多个逃跑目标的过程为背景,探索多体机器人的协作机制为导向,提高多体机器人的协作效率为目的,研究了多个理性智能体在动态复杂环境下的协调与协作算法。研究主要包括如下几个方面:第一,提出了利用多机器人强化学习方法解决多机器人追捕问题的求解方案。根据多逃跑者追捕的需要,分析了协作联盟形成方法,引入关联规则数据挖掘方法进行任务分配,通过对比智能体各项属性及任务需求,针对各逃跑者建立相应的追捕联盟,基于不同状态下的奖励差异提出了一种分段式强化学习方法,利用其作为已知环境下追捕问题的模型求解追捕联盟的协作追捕策略。针对多机器人强化学习将会出现随着智能体数目增加导致的行为状态空间组合爆炸问题,利用降低多智能体系统的规模解决该问题,给出了基于任务规划多智能体强化学习方法及基于案例推理的多智能体强化学习方法,为本文研究未知环境下多机器人追捕行为策略提供了理论基础。第二,研究已知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的协作追捕策略问题。首先对传统的主从式协作机制进行改进,通过对追捕区域分区减轻系统的负载,接着利用择优函数选择团队成员,形成追捕团队,然后预测逃跑目标下一时刻的位置决定追捕者的行为选择算法。通过分析上述方法的不足之处提出了一种基于关联规则数据挖掘的多机器人追捕策略算法。综合考虑与捕获逃跑目标相关的各种因素建立样本数据集,利用Apriori算法创建追捕团队,最后由于各追捕阶段追捕者与逃跑者之间的状态关系不同所获行为奖励差异,提出了一种分段式强化学习方法来求解多机器人最优协作追捕策略。第叁,研究未知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的最优协作追捕策略问题。首先通过有选择的循环搜索法对逃跑目标进行搜索,发现目标后,基于目标分解与分配的理论基础,通过整数规划模型求解各目标的追捕团队。接着根据任务规划的结果,让各协作团队同时分周期独立学习各自的最优行为决策,团队成员根据其他成员在此状态下将要采取的动作行为执行最佳的响应动作,多次重复对策后得到该协作团队的学习目的解。学习过程中由于不同协作团队之间的行为选择相互影响,对学习结果进行周期监督,通过变化学习率来保证学习的有效性。考虑上述方法对于追捕目标分解与分配是相对粗略的,整数规划问题实际求解过程本身也很复杂,创建追捕团队时没有考虑到追捕者之间完成捕获任务的能力互补等问题,提出一种未知环境下结合案例推理强化学习方法的多机器人协作追捕多个逃跑目标策略,创建追捕团队时充分考虑追捕者之间能力互补问题,追捕团队成员协作追捕过程中,追捕者的行为选择同时参照历史经验及实际追捕者与逃跑者所处的状态进行决策。试验结果表明,该算法能够明显提高复杂环境下多机器人协作追捕目标的效率。第四,开发了多机器人协作追捕目标仿真平台,为深入研究多机器人追捕目标问题提供了一个标准的试验平台。该仿真系统采用模块化设计,便于对新的算法进行仿真研究,并通过各种试验对本文所提方法进行了验证。
闫路平[5]2008年在《多机器人合作追捕目标问题研究》文中研究表明多机器人合作追捕目标问题研究的是多个自主型移动机器人组成的追捕团队相互合作去捕捉另一群移动机器人。在追捕-逃跑过程中,机器人追捕团队需要相互协调与合作才能完成追捕任务。多机器人合作追捕目标问题是研究分布式多机器人系统中机器人之间相互合作与协调的典型问题,所涉及的关键技术在军事、工业等方面也有着广泛的应用,如战场搜索与救援,捕俘行动,机器人部队合作包围/捕获入侵者和空战等领域。本文将多机器人追捕目标问题分为目标搜索,分配追捕任务和形成追捕团队,目标追捕叁个阶段,进行研究。本文的主要内容包括:第一,介绍了多机器人追捕问题相关的背景知识,国内外的研究现状,以及研究多机器人追捕问题的目的和意义。第二,研究了环境和目标位置未知情况下的地图创建和目标搜索问题。对于未知环境中的追捕问题,通常的处理办法是先进行环境地图学习,然后转化为已知环境下的追捕问题。在本文的研究中,追捕机器人在目标搜索的同时进行地图创建。基于概率框架,研究了多机器人合作地图创建。基于创建的概率地图,提出了几种计算复杂度较低的启发式目标搜索策略。第叁,研究了多猎物情况下怎样形成追捕团队的问题。本文将多猎物追捕问题看作多任务分配问题,引入范例推理和动态联盟,对传统的合同网协议进行改进,提出了一种基于拍卖的多任务分配算法。第四,研究了连续环境下的目标追捕问题。从基于行为的角度,设计了追捕猎物所需的五种基本行为。第五,开发了多机器人追捕问题仿真平台,并利用该平台进行追捕问题的仿真实验,用来验证所提出的算法和模型的可行性和正确性。
陈海燕[6]2003年在《基于博弈论的多机器人个性化协作研究》文中研究说明随着计算机、通讯、电子、传感、控制等技术以及人工智能的飞速发展,智能机器人应用领域不断地扩展,对于一些复杂的工作任务和多变的工作环境,利用多台机器人协调合作完成任务引起越来越多的专家学者和工程技术人员的研究兴趣,成为机器人研究领域的热点。 对于多机器人协作系统,其体系结构是机器人系统中所有结构的模型和相互关系的结构化集合,是整个系统的基础。在协作过程中,机器人在体系结构的基础上,按照一定的策略、协调机制、控制规则等有机地组织起来,并可获得关于系统整体行为的全局观点,从而采取有效策略引导局部控制实现协作。 本论文将多艾真体系统理论与进化控制相结合,提出了基于个性化水平的混合式多机器人控制体系结构。该体系结构融合了分层递阶式结构和包容式结构的优点,使系统兼顾了行为的智能性和响应的实时性。通过对个性化水平参数的衡量将进化控制理论融入体系结构中,将进行协作的机器人个体看成具备自治能力的艾真体,使系统还具备进化性和开发性。本文还研究了博弈论中纳什均衡和反复博弈,将其理论运用于基于个性化水平的多机器人协作系统进行协作策略的选择。将协作过程看成一个博弈过程,协作的结果就是求得一个最优决策的集合,也就是求得各博弈方的策略集合使得整个博弈达到一个均衡稳定的状态。最后简单介绍了本系统的试验情况,对本系统开发中的工作予以总结,同时展望今后的研究工作目标。
齐心跃[7]2008年在《基于强化学习的多机器人任务分配算法研究》文中进行了进一步梳理本论文研究得到国家自然科学基金项目(60675057)资助。本文以多机器人系统任务分配策略为研究对象,研究其在复杂动态环境下的机器人间如何协作的问题,即如何通过自身的学习以及与其他机器人的交互来适应环境变化,从而提高系统的整体性能和任务完成的效率。全文主要工作概括如下:建立了多机器人救火任务的数学模型,并且针对该任务改进了市场法的任务分配策略,设计了符合动态任务要求的竞标函数,提高了任务完成效率。应用强化学习实现了多机器人在动态环境下的任务分配,通过奖励值时间衰减的方法使机器人单独学习多机器人协作任务,提高了学习速度。设计了群体机器人集群行为控制算法,该方法能够使群体机器人保持同一方向集群前进。开发了多机器人仿真系统,利用此仿真系统进行了大量实验。最后,对全文进行了总结。
郭胜辉[8]2006年在《基于多智能体的多移动机器人协调控制技术》文中进行了进一步梳理多移动机器人协调是当前机器人技术的一个重要发展方向。多移动机器人之间的协调与合作将大大提高机器人行为的智能化程度,完成由单个机器人难以完成的更加复杂的作业。多移动机器人协调技术的研究对提高机器人的智能化水平及加快机器人的实用化进程具有重要的理论研究意义和实用价值。本文在深入分析多移动机器人系统的发展前景及其研究现状的基础上,充分借鉴和利用当前人工智能领域的研究成果,特别是分布式人工智能领域中的MAS ( Multi-Agent System)理论,进行多移动机器人系统的研究,并从此认识出发开展了基于MAS理论的多移动机器人系统的研究。论文得到国家863计划(编号:2003AA430030)的资助,具体完成了如下工作:1.论文在对MAS理论深入研究的基础上,提出了一种基于多智能体技术的多移动机器人协调控制系统模型。该结构模型有效地把任务的决策、规划、信息的感知和实时执行集成起来,将系统功能和实体机器人行为统一起来,从而使系统的程序空间与它所描述的现实空间有较一致的对应关系。2.以WLAN网络技术为基础,建立了多移动机器人的通信系统。在该系统平台上,利用WINSOCK控件实现Client服务器与Server服务器之间的数据通讯,通讯的两个个体之间实现了双向、可靠的数据传输。3.论文对多移动机器人编队系统结构做了深入分析,提出了一种多移动机器人队形控制方案。该方案在保持队形的基础上对机器人队列进行路径规划,并将机器人队列的运动过程,划分为正常运动、避障和恢复队形3个阶段。同时,利用模糊控制技术实现了移动机器人的自主避障运动。最后,利用仿真平台MOBOTOSIM对上述算法和策略进行了实验。实验结果和分析证明了使用的原理和算法的有效性和正确性。
张磊[9]2005年在《多智能体机器人系统设计与编队问题的研究》文中认为多机器人协调控制可以完成单个机器人无法完成的复杂任务,并且大大提高了工作的效率。本文以此为目的,分别从多机器人协调问题中的队形控制和多智能体机器人两方面进行研究。多机器人队形控制中常用基于行为的控制方法,将单个机器人的行为分解成奔向目标、保持队形、避碰、避障等。本文同样采用此法。在奔向目标和队形保持的行为中加入了动态死区法,加快了队形的收敛速度。同时采用了反向避碰和切线避障原则。仿真结果表明了队形收敛速度提高。最后改进了上述算法,引入了机器人整体队形向量来约束单个机器人的方向向量,使得每个机器人的运动方向都向着整体队形的方向。仿真结果证明了本文算法的可行性和有效性。提出了运用开放式多智能体结构(OAA)理论来构建多智能体机器人系统,并探讨了该系统所具备的功能,实验室实现和涉及到的诸多关键技术。Saphira 软件是美国ActiveMeida 公司生产Pioneer 2/Dx 型轮式智能机器人的应用程序开发环境,提供了丰富的接口函数,但是它是基于单个机器人的。通过往OAA 上添加多个Saphira智能体可以实现在OAA 中多机器人协调控制。实验中编写了robotAgent 智能体,并成功地挂接到OAA 系统的协调器Facilitator 上。由于Saphira 是C++语言编写的,而OAA 只提供了JAVA 接口,因此在添加Saphira 智能体时,使用了JAVA 本地方法调用(JNI)技术,将Saphira 封装起来,实现了一个机器人智能体。如果再往系统中添加数据库智能体、地图智能体等多个智能体,即可以在OAA 体系结构中实现多机器人协调控制。
刘强[10]2016年在《基于智能体的多机器人系统学习方法研究》文中进行了进一步梳理与单个机器人相比较,多机器人(MRS)具有很多优势和良好的发展前景,已经成为机器人领域中的研究热点。多机器人系统是一个复杂的动态系统,在设计机器人控制策略的时候,通常不能够预先为每个机器人设定好所有的最优行为。基于行为的方法能够让多机器人系统呈现出一些智能的特点,完成比较复杂的任务,极大地促进了多机器人系统的发展。但是仅采用基于行为的方法还不能完全适应不断变化的外界环境和不同任务的需求,让多机器人系统具有自主的学习能力,同时避免单一学习方法的局限性,从而不断提高个体机器人之间的协调协作能力是多机器人系统的重要发展方向。因此研究将不同的机器学习方法与基于行为的多机器人系统相结合具有很好的研究意义。本文采用智能体理论对多机器人系统进行研究,其主要的研究内容包括:首先,研究了智能体及多智能体系统的理论,分析了单机器人和多机器人系统的几种体系结构,提出将基于行为的方法和基于学习的方法相结合来探索多机器人协同的研究思路,同时设计了基于行为的机器人编队和足球系统。在多机器人系统众多的研究内容中,学习能力占据了重要位置。基于行为的方法具有鲁棒性强、灵活的特点,相对于其它的方法能更好地使机器人完成任务。本文以基于行为的方法为基础,结合不同的机器学习方法,针对多机器人系统的两个主要应用平台:机器人编队和足球,在机器人仿真软件Mission Lab和Teambots的基础上,设计了基于行为的多机器人系统,从而可以对本文提出的几种算法进行验证。其次,研究了粒子群优化算法(PSO)和基于案例的推理(CBR)方法,针对这两种方法各自的优势,提出了一种融合PSO与CBR的混合系统方法。传统的基于行为的方法虽然具有很多优点,但是其固定的行为参数难以适应外界复杂的环境。CBR作为人工智能中的一项重要技术,因为其具有易于检索和存储的特点,很适合为不同的行为提供相应的参数。但是传统的CBR方法缺乏有效的学习能力,因此本文提出将PSO作为CBR的优化器,让CBR不断得到更好的案例,同时PSO也可以通过CBR获得更好的初始种群。与遗传算法(GA)相比较,PSO也是一种群智能方法,但是具有结构更简单、实时性强和适合对连续问题进行优化的特点,可以说遗传算法能够解决的问题,粒子群优化算法都能够解决。本文将PSO算法与CBR方法相结合,不仅克服了CBR的缺点,同时也满足了实时性和对连续问题进行优化的需求。同时以基于行为的机器人编队为测试平台,与标准的粒子群优化算法相比较,验证了该方法的有效性。然后,研究了强化学习的基本理论和典型的Q-学习方法,针对传统Q-学习在多机器人系统中应用的缺点:缺乏信息交流和结构信度分配问题,提出了一种采用经验共享和滤波技术的改进Q-学习算法,从而改善了学习性能、提高了学习效率。Q-学习算法的理论基础是马尔可夫决策过程,直接把Q-学习应用到多机器人系统中虽然破坏了这个前提,但是Q-学习因为具有运算简单、状态-动作空间规模小的特点,在机器人学习中还是得到了广泛应用。与多智能体强化学习方法相比较,传统的Q-学习算法缺乏与其它智能体的信息交流,因此本文提出了采用经验共享的方式,每个智能体共享其它智能体的Q值信息,在学习的过程中采用了渐进的学习方式,利用?-Greedy策略以1-?的概率来选取其它智能体的学习经验。同时为了加速Q-学习的收敛,不同于简单地把回报信号统一分配给每个智能体,本文将卡尔曼滤波技术运用到回报信号的分配中,即把接收到的回报信号看作是真实的回报信号与噪声信号的结合,在一定程度上解决了结构信度分配问题。以机器人足球为测试平台,与传统的Q-学习算法相比较,验证了该方法的有效性。最后,研究了几种典型的多智能体强化学习算法Minimax-Q、Nash-Q、FFQ和CE-Q和基于后悔理论的学习方法,针对传统的CE-Q算法收敛速度慢的缺点:缺乏有效的行为探索策略,提出了一种采用无悔策略的新型CE-Q学习算法。马尔可夫对策理论为多智能体强化学习提供了很好的理论基础,纳什均衡在多智能体强化学习中起到了重要作用,因此这些算法也被称作基于均衡的学习算法。与Nash-Q学习算法中计算纳什均衡相比较,计算CE-Q中的相关均衡更容易,因此CE-Q有着更好的应用前景。但是传统的CE-Q学习方法缺乏有效的行为探索策略,因此影响了CE-Q学习方法的收敛速度。从无悔策略的理论中得到启发,如果每个智能体都选择减少平均后悔值的方法作为行为探索策略,那么所有智能体的行为将趋向于收敛到一组没有后悔值的集合点,这组集合点也被称为粗糙相关均衡集合。同时经过分析得到,纳什均衡和相关均衡在本质上都属于粗糙相关均衡。因此本文提出了采用减少平均后悔值的新型CE-Q学习算法,加快CE-Q学习方法的收敛速度。最后以机器人足球为测试平台,与传统的CE-Q学习算法相比较,验证了该方法的有效性。
参考文献:
[1]. 基于智能体的多机器人协作的仿真系统[D]. 张进. 南京理工大学. 2003
[2]. 基于智能体的多机器人协作研究及仿真[D]. 杨璐. 南京理工大学. 2006
[3]. 基于Agent的多机器人协作研究与仿真[D]. 龚荣. 沈阳工业大学. 2011
[4]. 基于强化学习的多机器人追捕问题研究[D]. 李珺. 哈尔滨工业大学. 2010
[5]. 多机器人合作追捕目标问题研究[D]. 闫路平. 哈尔滨工业大学. 2008
[6]. 基于博弈论的多机器人个性化协作研究[D]. 陈海燕. 中南大学. 2003
[7]. 基于强化学习的多机器人任务分配算法研究[D]. 齐心跃. 吉林大学. 2008
[8]. 基于多智能体的多移动机器人协调控制技术[D]. 郭胜辉. 河北工业大学. 2006
[9]. 多智能体机器人系统设计与编队问题的研究[D]. 张磊. 华中科技大学. 2005
[10]. 基于智能体的多机器人系统学习方法研究[D]. 刘强. 哈尔滨工业大学. 2016
标签:自动化技术论文; 机器人论文; 移动机器人论文; 仿真软件论文; 强化学习论文; 系统学习论文; 团队协作论文; 动态模型论文;