基于深度学习的不完全信息博弈决策的研究与应用

基于深度学习的不完全信息博弈决策的研究与应用

论文摘要

人类日常生活中无时无刻不在做着权衡与决定,这些解决问题的场景可以被抽象成博弈决策问题。博弈根据信息的掌握程度可以划分为完全信息博弈和不完全信息博弈两类。不完全信息博弈问题通常是指参与者无法完全掌握博弈过程中的所有信息而进行博弈的过程。在现实生活中譬如商业谈判、信息安全、广告定价、军事推演、游戏娱乐等诸多问题都能够归纳为不完全信息博弈问题。随着人工智能研究的不断深入以及深度学习应用的不断推广,利用深度学习解决不完全信息博弈决策问题已经成为机器博弈领域的研究热点并且具有十分重要的现实意义。目前,解决不完全信息博弈智能决策问题的传统方法是借助增强学习对于博弈问题建模,通过设计奖励函数以及构建博弈树转化博弈问题,再借助博弈树搜索和价值迭代来最终确定和优化关于博弈策略的状态-动作值函数。传统方法在完全信息博弈或者简单的不完全信息博弈场景表现尚可,但是面对复杂背景下的不完全信息博弈,存在值函数无法收敛、博弈树过大以及模型训练十分耗费资源等问题。针对这些问题,本论文提出利用深度学习来求解复杂背景下的不完全信息博弈决策问题的方法,主要完成的研究工作包括以下几个部分:1.设计了基于知识规则的语义分割方法。对博弈智能决策问题进行建模,将不完全信息博弈的可观测信息以及与博弈决策相关的重要信息提取出来并压缩成一个三维的多通道图像。语义分割方法以博弈规则为基本元素,完整的描述了当前博弈局面下的重要信息,并且基于简单的博弈知识将可能影响决策的关键因素构建成低层次的图像组成部分,克服了传统方法需要构建博弈树的复杂计算,为深度神经网络的训练提供格式友好的数据。2.设计了基于改进的深度残差网络训练不完全信息博弈智能决策模型的方法。考虑到深度学习模型随着神经网络层数不断加深可能出现的梯度消失等问题,本论文在原有的深度残差模型拓扑结构之上,利用多尺度非对称卷积层设计对于图像信息多层次特征提取的优势,再结合多并行分支网络结构增加网络宽度提升网络学习能力的特点,提出Inception+子结构以及多个子结构和残差网络的恒等映射连接而成的新的残差块GoBlock。实验结果表明,基于相同的博弈场景图像数据集,改进的深度残差网络在不完全信息博弈决策的分类预测问题中以77.4%的分类精确度超过其他经典的机器学习和深度学习方法。3.设计了基于深度学习的不完全信息博弈智能决策系统。在一种复杂背景下的多人不完全信息博弈问题(竞技麻将)上,通过真实对战数据训练深度神经网络模型实现了智能决策系统。并且,该系统与其他机器学习算法生成的决策模型进行了博弈对战。与此同时,通过将该系统部署在某款线上竞技麻将应用中与真实的人类选手进行对弈。实验结果表明:本论文提出的智能决策系统在平均得分和平均胜率上相比其他决策系统水平更高。在与一般的人类选手进行5900局对战中,智能决策系统以平均胜率26.471%超过人类选手。通过分析对战回放进一步证明智能决策系统已经具备高水平的博弈决策能力。

论文目录

  • 摘要
  • abstract
  • 第1章 绪论
  •   1.1 研究背景
  •   1.2 研究目的与意义
  •   1.3 国内外研究现状
  •   1.4 本文研究内容
  •   1.5 本文章节结构
  • 第2章 不完全信息机器博弈
  •   2.1 不完全信息博弈概述
  •   2.2 基于知识的博弈方法
  •   2.3 博弈树与搜索
  •   2.4 反事实遗憾最小化算法
  •   2.5 基于深度强化学习的博弈方法
  •     2.5.1 深度学习
  •     2.5.2 深度强化学习
  •   2.6 本章小结
  • 第3章 基于深度学习的不完全信息博弈决策方法
  •   3.1 基于知识规则的语义分割
  •     3.1.1 不完全信息博弈要素
  •     3.1.2 语义分割建模方法
  •   3.2 改进的深度残差网络
  •     3.2.1 残差网络
  •     3.2.2 改进的深度残差网络拓扑结构
  •   3.3 本章小结
  • 第4章 基于深度学习的不完全信息博弈决策的实验与分析
  •   4.1 不完全信息博弈决策模型的训练
  •     4.1.1 不完全信息博弈对战数据集
  •     4.1.2 不完全信息博弈决策模型生成
  •   4.2 实验结果与分析
  •   4.3 本章小结
  • 第5章 不完全信息博弈(竞技麻将)智能决策系统
  •   5.1 竞技麻将智能决策系统框架
  •   5.2 实验结果与分析
  •   5.3 本章小结
  • 第6章 结论与展望
  •   6.1 总结
  •   6.2 展望
  • 致谢
  • 参考文献
  • 附录A 四人竞技麻将规则
  • 攻读学位期间的研究成果
  • 文章来源

    类型: 硕士论文

    作者: 闫天伟

    导师: 王命延

    关键词: 不完全信息博弈,深度学习,深度残差网络,智能决策系统

    来源: 南昌大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,自动化技术

    单位: 南昌大学

    分类号: O225;TP18

    DOI: 10.27232/d.cnki.gnchu.2019.000306

    总页数: 71

    文件大小: 4442K

    下载量: 427

    相关论文文献

    • [1].基于不完全信息博弈模型的地方政府间竞合关系研究[J]. 牡丹江教育学院学报 2015(10)
    • [2].“政府—企业”碳排放决策理论研究——基于不完全信息博弈[J]. 软科学 2017(10)
    • [3].招投标的不完全信息博弈与业主管理对策研究[J]. 安徽建筑 2013(02)
    • [4].最大熵原理在不完全信息博弈中的应用[J]. 首都经济贸易大学学报 2011(03)
    • [5].不完全信息博弈的逻辑分析[J]. 周口师范学院学报 2010(04)
    • [6].食品安全问题的不完全信息博弈分析——以三鹿奶粉事件为例[J]. 辽宁经济 2009(05)
    • [7].基于不完全信息博弈的价格谈判策略及应用[J]. 华商 2008(10)
    • [8].基于多人参与的不完全信息博弈模型探讨城市出租车燃气的均衡数量[J]. 价值工程 2008(06)
    • [9].浅谈海萨尼的不完全信息博弈——来自迈尔森(Myerson)对海萨尼不完全信息博弈的梳理[J]. 信息系统工程 2020(04)
    • [10].现代农民专业合作组织与政府监管机构的博弈分析[J]. 商业时代 2014(28)
    • [11].农村集体经营性建设用地流转收益的不完全信息博弈研究[J]. 民商法争鸣 2017(02)
    • [12].基于不完全信息博弈的P2P网络节点行为策略模型[J]. 应用科学学报 2008(05)
    • [13].经典随机序的细化与不完全信息博弈的比较静态分析[J]. 经济研究 2011(S2)
    • [14].基于不完全信息博弈的网络订餐安全分析[J]. 物流科技 2018(07)
    • [15].MBS政府规制行为中的不完全信息博弈分析[J]. 现代商业 2008(03)
    • [16].基于不完全信息博弈模型的网络舆情演变分析[J]. 西部皮革 2020(04)
    • [17].基于不完全信息博弈模型的信息系统安全风险评估方法[J]. 计算机与现代化 2019(04)
    • [18].关于公司治理的不完全信息博弈分析[J]. 中国集体经济 2010(01)
    • [19].国有建设用地使用权拍卖保留价研究——基于不完全信息博弈模型的分析[J]. 价格理论与实践 2009(10)
    • [20].产学研合作过程中校企博弈及管理策略研究[J]. 郑州航空工业管理学院学报 2012(03)
    • [21].高考志愿填报的不完全信息博弈[J]. 制度经济学研究 2010(02)
    • [22].信息时代不完全信息博弈理论在投资中的应用[J]. 电子测试 2013(13)
    • [23].不完全信息博弈下政府审计外包的监管策略——基于政府财务报告审计的视角[J]. 中国流通经济 2018(10)
    • [24].区域性股权交易市场融资效率及影响因素研究——基于不完全信息博弈的分析[J]. 华东经济管理 2019(04)
    • [25].物流外包中的不完全信息博弈研究[J]. 农业装备与车辆工程 2018(04)
    • [26].三种基本完全信息静态博弈模型在上市公司中的应用[J]. 云南农业大学学报(社会科学版) 2013(02)
    • [27].政府采购寻租行为的不完全信息博弈分析[J]. 中外企业家 2011(13)
    • [28].一种基于Q学习的有限理性博弈模型及其应用[J]. 系统仿真技术 2014(03)
    • [29].投资还是投机:民间资本的两难选择[J]. 山东工商学院学报 2013(03)
    • [30].倾销与反倾销的博弈论分析[J]. 时代金融 2013(36)

    标签:;  ;  ;  ;  

    基于深度学习的不完全信息博弈决策的研究与应用
    下载Doc文档

    猜你喜欢