多智能体即时策略对抗方法与实践

书籍作者：苏炯铭	ISBN：9787030621429
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：4262
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
下载地址

内容简介

《多智能体即时策略对抗方法与实践》以即时策略游戏《星际争霸》作为研究案例，阐述目前游戏智能中解决复杂环境下不完全信息动态博弈问题的方法，为多智能体即时策略对抗技术的开发实践提供指导。《多智能体即时策略对抗方法与实践》共10章，主要内容包括：绪论、多智能体即时策略对抗基础、多智能体双向协调网络、反事实多智能体策略梯度、共享参数多智能体策略下降Sarsa(λ)算法、进化策略算法、《星际争霸》AI研究环境搭建、《星际争霸》即时策略对抗AI开发基础、基于知识驱动的启发式策略开发实战、多智能体强化学习方法开发实战。《多智能体即时策略对抗方法与实践》为深入研究此类问题提供了全局视野、基本理论和实践方法，为后续研究奠定了良好的基础。

《多智能体即时策略对抗方法与实践》电子书免费下载

pdf下载 txt下载 epub下载 mobi下载 azw3下载

目录
《智能科学技术著作丛书》序
前言
第1章绪论 1
1.1 概念与内涵 2
1.2 国内外研究现状与发展趋势 5
1.2.1 国内外研究现状 5
1.2.2 发展趋势分析 11
1.3 《星际争霸》AI比赛 11
1.4 小结 13
思考题 14
第2章多智能即时策略对抗基础 15
2.1 多智能体即时策略对抗形式化描述 16
2.2 多智能体强化学习基础 18
2.2.1 完全合作任务算法 22
2.2.2 完全竞争任务算法 24
2.2.3 混合竞争与合作任务算法 26
2.3 解决方法 29
2.3.1 基于知识驱动的启发式方法 30
2.3.2 基于数据驱动的学习方法 31
2.4 强化学习算法研究流程 33
2.5 即时策略对抗研究环境 34
2.6 对抗场景与算法性能基准 39
2.7 小结 41
思考题 42
第3章多智能体双向协调网络 43
3.1 算法架构 44
3.2 训练方法 48
3.3 实验设计与结果分析 49
3.4 小结 54
思考题 54
第4章反事实多智能体策略梯度 55
4.1 算法架构 56
4.2 学习算法 58
4.3 实验设计与结果分析 62
4.4 小结 64
思考题 64
第5章共享参数多智能体策略下降Sarsa(λ)算法 65
5.1 算法架构 66
5.2 训练方法 70
5.3 实验设计与结果分析 72
5.4 小结 73
思考题 74
第6章进化策略算法 75
6.1 进化策略 75
6.2 基于进化策略的多智能体动作策略模型 78
6.3 实验设计与结果分析 81
6.4 小结 85
思考题 85
第7章《星际争霸》AI研究环境搭建 86
7.1 Anaconda与PyCharm工具 86
7.2 《星际争霸》AI研究环境搭建方式一：Win-Linux模式 88
7.2.1 Windows 服务器端安装 88
7.2.2 Linux 客户端安装 89
7.2.3 运行示例代码测试环境安装的正确性 91
7.3 《星际争霸》AI研究环境搭建方式二：单Linux模式 92
7.3.1 基于Linux 的环境搭建 93
7.3.2 运行示例代码测试环境安装的正确性 94
7.4 小结 95
思考题 95
第8章《星际争霸》即时策略对抗AI开发基础 96
8.1 Gym接口规范 96
8.2 基于Gym接口规范的《星际争霸》对抗环境开发 97
8.3 最简单的多智能体对抗策略实例—随机攻击 100
8.4 小结 108
思考题 108
第9章基于知识驱动的启发式策略开发实战 109
9.1 《星际争霸》Gym环境设计 109
9.2 攻击最近敌方策略设计 114
9.3 攻击最弱最近敌方策略设计 115
9.4 实验设计与结果分析 116
9.4.1 不同决策频率对胜率的影响 117
9.4.2 不同初始阵型对胜率的影响 118
9.4.3 不同对战规模对胜率的影响 119
9.4.4 不同策略间相互对抗胜率 119
9.5 小结 120
思考题 120
第10章多智能体强化学习方法开发实战 121
10.1 BiCNet《星际争霸》Gym环境设计实现 121
10.2 训练算法实现 127
10.3 运行模型 134
10.4 实验设计与结果分析 135
10.5 小结 136
思考题 137
附录A 深度神经网络与强化学习简介 138
A.1 深度神经网络 138
A.1.1 多层感知器 138
A.1.2 卷积神经网络 139
A.1.3 循环神经网络 140
A.2 强化学习 141
A.2.1 时间差分学习 141
A.2.2 蒙特卡罗方法 142
A.2.3 策略梯度方法 142
附录B 《星际争霸》游戏基础 144
B.1 游戏种族与兵种 145
B.1.1 人族 145
B.1.2 神族 147
B.1.3 虫族 148
B.2 游戏地图制作与编辑 150
B.2.1 角色战斗力修改 150
B.2.2 游戏中触发器修改 150
参考文献 155