桥牌叫牌机器博弈模型及算法研究

桥牌叫牌机器博弈模型及算法研究

论文摘要

研究牌类机器博弈对推动经济社会非完备信息场景下决策与控制具有实际意义。桥牌作为规则最复杂的牌类游戏之一,分为叫牌博弈和打牌博弈,本文针对叫牌研究机器博弈算法。在传统叫牌机器博弈研究中,基于专家经验的蒙特卡洛采样作为目前效果最好的技术,已经面临发展壁垒,难以实现突破。本文创造性地将叫牌问题域分解为首叫、无争叫、有争叫三个具有演进关系的子问题域,并分别运用深度学习和强化学习进行研究,降低研究坡度,试图让机器在一定程度上理解叫牌含义,摆脱人类叫牌经验的限制。本文以新睿桥牌公司线上平台玩家在中国桥牌协会标准自然体系CCBA下叫牌产生的大量数据为研究支点,以模型学会在CCBA体系下进行首叫为基本目标,然后将模型从首叫问题域演进到无争叫和有争叫问题域,用强化学习方法尝试优化模型动作策略。针对叫牌机器博弈研究面临的非完备信息特性、正确学习叫牌体系、手牌和叫牌序列信息表示、准确表达叫牌传递信息、方位通用、信息离散、PASS特殊性、合作性、博弈性等关键问题,本文设计了7种不同的神经网络输入层,每种输入层解决多个关键问题。然后以7种神经网络输入层为核心,设计了首叫算法、无争叫算法、有争叫算法,进行了算法实现。结果显示,首叫算法达到了设计目的,无争叫算法与有争叫算法效果不佳,并且首叫算法和无争叫算法中分功能一维占位输入层的表现最好,有争叫算法中三维占位输入层的表现最好。最后,根据算法实现结果,分析了可能存在的问题,并根据问题确定了未来的工作方向。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题背景及研究目的和意义
  •     1.1.1 课题背景
  •     1.1.2 课题研究的目的和意义
  •   1.2 当前研究现状
  •   1.3 论文主要工作
  •   1.4 论文结构
  • 第2章 相关技术概述
  •   2.1 桥牌叫牌基础
  •   2.2 深度学习
  •   2.3 强化学习
  •   2.4 深度强化学习算法DQN
  •     2.4.1 Q-Leaning
  •     2.4.2 记忆库Experience Replay
  •     2.4.3 DQN神经网络更新算法
  •     2.4.4 Double DQN技术
  •     2.4.5 Dueling DQN技术
  •   2.5 卷积神经网络框架DenseNet
  •   2.6 状态解析器
  •   2.7 本章小结
  • 第3章 关键问题与模型分析
  •   3.1 模型应用场景与叫牌过程
  •   3.2 关键问题
  •   3.3 叫牌机器博弈模型架构
  •   3.4 本章小结
  • 第4章 叫牌机器博弈算法研究
  •   4.1 算法演进路线
  •   4.2 神经网络设计
  •     4.2.1 输入层结构设计
  •     4.2.2 输出层结构设计
  •     4.2.3 隐含层结构设计
  •   4.3 首叫算法
  •     4.3.1 数据处理
  •     4.3.2 神经网络迭代训练
  •     4.3.3 算法测试
  •   4.4 无争叫算法
  •     4.4.1 数据处理
  •     4.4.2 无争叫叫牌环境
  •     4.4.3 ε-不完全贪心算法
  •     4.4.4 回报函数
  •     4.4.5 自博弈生成样本
  •     4.4.6 神经网络迭代训练
  •     4.4.7 算法测试
  •   4.5 有争叫算法
  •     4.5.1 有争叫叫牌环境
  •     4.5.2 回报函数
  •   4.6 本章小结
  • 第5章 算法实现与效果分析
  •   5.1 首叫算法实现
  •     5.1.1 数据处理模块
  •     5.1.2 神经网络模块
  •     5.1.3 网络训练测试模块
  •   5.2 无争叫算法实现
  •     5.2.1 数据处理模块
  •     5.2.2 环境模块
  •     5.2.3 神经网络模块
  •     5.2.4 样本生产模块
  •     5.2.5 网络训练测试模块
  •   5.3 有争叫算法模型实现
  •     5.3.1 环境模块
  •     5.3.2 神经网络模块
  •   5.4 算法效果分析
  •     5.4.1 首叫算法效果分析
  •     5.4.2 无争叫算法效果分析
  •     5.4.3 有争叫算法效果分析
  •     5.4.4 可能存在的问题
  •   5.5 本章小结
  • 第6章 结束语
  •   6.1 论文工作总结
  •   6.2 未来工作展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表论文
  • 文章来源

    类型: 硕士论文

    作者: 李羽戈

    导师: 杨放春

    关键词: 桥牌叫牌,非完备信息,博弈,问题域分解

    来源: 北京邮电大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,自动化技术

    单位: 北京邮电大学

    分类号: O225;TP18

    总页数: 101

    文件大小: 11592K

    下载量: 126

    相关论文文献

    • [1].机器博弈风险分析及其估算方法的研究[J]. 高技术通讯 2013(09)
    • [2].亚马逊棋机器博弈系统中评估函数的研究[J]. 计算机工程与应用 2012(34)
    • [3].机器博弈及其搜索算法的研究[J]. 软件导刊 2008(07)
    • [4].机器博弈及其搜索算法的研究[J]. 电脑知识与技术 2008(24)
    • [5].棋讯[J]. 棋艺(象棋) 2010(12)
    • [6].机器博弈中搜索策略和估值函数的设计——以六子棋为例[J]. 电脑知识与技术 2019(34)
    • [7].贯穿式案例教学法在机器博弈课程中的实践[J]. 计算机教育 2019(08)
    • [8].中国人工智能学会机器博弈专业委员会[J]. 智能系统学报 2013(01)
    • [9].一种改进的分布式遗传算法在机器博弈中的应用研究[J]. 北京理工大学学报 2017(10)
    • [10].博弈名谱(72)[J]. 棋艺(象棋版) 2016(06)
    • [11].计算主义纲领与机器博弈的认知意蕴[J]. 南开学报(哲学社会科学版) 2011(04)
    • [12].机器博弈中搜索算法的研究[J]. 福建电脑 2012(10)
    • [13].博弈名谱(71)[J]. 棋艺(象棋版) 2016(05)
    • [14].博弈名谱(22)[J]. 棋艺(象棋) 2011(11)
    • [15].机器学习方法及应用研究[J]. 电脑知识与技术 2015(19)
    • [16].机器博弈中韩国象棋与中国象棋的比较[J]. 重庆工学院学报(自然科学版) 2008(01)
    • [17].基于中国象棋机器人的人工智能实验平台设计[J]. 无线电工程 2020(10)
    • [18].五子棋机器博弈系统评估函数的设计[J]. 计算机应用 2012(07)
    • [19].机器博弈教学实验平台[J]. 计算机教育 2014(12)
    • [20].机器博弈研究面临的各种挑战[J]. 智能系统学报 2008(04)
    • [21].基于知识库的象棋机器博弈搜索算法研究[J]. 中国科技论文 2018(20)
    • [22].博弈名谱(17)[J]. 棋艺(象棋) 2011(06)
    • [23].面向机器博弈的即时差分学习研究[J]. 计算机科学 2010(08)
    • [24].五子棋智能博弈的研究与设计[J]. 电脑知识与技术 2010(13)
    • [25].基于牛角棋的博弈电路系统设计[J]. 现代电子技术 2012(20)
    • [26].博弈名谱(46)[J]. 棋艺(象棋版) 2013(12)
    • [27].博弈机器人的行为规划[J]. 重庆理工大学学报(自然科学) 2014(04)
    • [28].一种新的连珠棋局面表示法及其在六子棋中的应用[J]. 东北大学学报(自然科学版) 2009(04)
    • [29].网络象棋爱好者之纵横天下(14)[J]. 棋艺(象棋) 2012(05)
    • [30].哈希技术在中国象棋机器博弈系统中的应用研究[J]. 科学技术与工程 2008(17)

    标签:;  ;  ;  ;  

    桥牌叫牌机器博弈模型及算法研究
    下载Doc文档

    猜你喜欢