书籍作者:霍华德 M.施瓦兹 | ISBN:9787111569602 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:8879 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
《多智能体机器学习:强化学习方法》主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LRI滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。
Howard M.Schwartz 博士,在加拿大魁北克蒙特利尔的麦吉尔大学获得工学学士学位,在美国马萨诸塞州剑桥麻省理工学院获得硕士和博士学位,现为加拿大渥太华卡尔顿大学系统与计算机工程系的教授,研究领域包括自适应和智能控制系统、机器人、机器学习、多智能体学习、系统辨识和状态估计。
“多智能体”——一般专指多智能体系统( Multi Agent System,MAS)或多智能体技术( Multi Agent Technology,MAT)。多智能体系统是分布式人工智能的一个重要分支,是20世纪末~ 21世纪初国际上人工智能的前沿学科。多智能体学习相关的研究领域已成为人工智能发展的热点。
《多智能体机器学习:强化学习方法》提供了一种多智能体不同学习方法的框架。同时还提供了多智能体微分博弈中的新进展以及在博弈理论和移动机器人中应用的全面概述。本书向读者介绍了多智能体机器学习的不同方法。主要包括单智能体强化学习、随机博弈和马尔科夫博弈、自适应模糊控制和推理、时间差分学习和Q学习。
具有如下特点:
?全面涵盖了多人博弈、微分博弈和博弈理论;
?基于梯度算法的简单策略学习方法;
?多人矩阵博弈和随机博弈的详细算法和示例;
?群机器人和性格特征进化中的学习示例。
强化学习是近年来在机器学习领域非常热门的研究方向,尤其在多智能体机器学习中,若智能体的某个行为策略获得强化信号,则智能体以后产生这个行为策略的趋势便会加强,这对于群体智能具有十分重要的意义,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有广泛应用。
《多智能体机器学习:强化学习方法》对于研究人员、研究生和从事多智能体学习的相关人员以及在电子和计算机工程、计算机科学以及机械和航空工程领域的相关人员非常有用。
在现有的机器学习书籍中,较少有以强化学习的方法对多智能体机器学习进行描述的,而有关强化学习的内容,也往往只是在某些专业的机器学习书籍中在个别章节进行阐述。本书以强化学习与协作策略在相关研究领域的应用为主,侧重协作策略的应用,列举了车辆路径规划、多播路由、供应链管理等问题中的解决方案,多智能体及群体智能微分博弈中的新进展以及在博弈理论和移动机器人中的先进应用,而较少涉及强化学习理论的演化。
原 书 前 言
十年来,本人一直在教授自适应控制课程。这门课程主要是讲授系统辨识的常用经典方法,并使用经典的教材,例如Ljung[1,2]。该课程着重介绍了参考模型自适应控制的常用方法以及基于Lyapunov技术的非线性自适应控制方法。然而,这些理论已不再适用于当前的工程实践。因此,在本人的研究工作以及研究生课程的重点内容中进行了相应调整,增加了自适应信号处理的内容,并融合了基于最小方均(LMS)算法的自适应信道均衡和回声消除的内容。同时,课程名称也相应地从“自适应控制”变为“自适应与学习系统”。本人的研究工作仍主要集中于系统辨识和非线性自适应控制在机器人方面的应用。然而,直到21世纪初,才开始与机器人团队开展合作。目前,已能够利用常用的机器人套件和低成本的微控制器来构建可协同工作的若干个机器人。这使得“自适应与学习系统” 的研究生课程内容再次发生变化:减少了基于Lyapunov技术的非线性自适应控制方面的理论知识,取而代之的是有关强化学习的思想。这是一个全新的应用领域,机器人团队必须要学会相互协作和竞争。
目前,研究生课程主要是集中于采用基于递归最小二乘(RLS)算法的系统辨识、基于参考模型的自适应控制(仍然采用Lyapunov技术)、基于LMS算法的自适应信号处理以及基于Q学习算法的强化学习。本书的前两章简要介绍了上述思想,但也足以说明这些学习算法之间的联系,以及它们之间的相同之处和不同之处。与这些内容相关的其他材料可详见文献[24]。
由此,进一步的研究工作开始着重于机器人团队如何学习以实现相互合作。这些研究工作用于验证机器人在合作搜索和救援以确保重要设施和边界区域安全方面的应用。同时,也逐步开始关注强化学习和多智能体强化学习的研究。这些机器人就是具有学习能力的智能体。孩子们是如何学习玩捉人游戏的?人们是如何练习踢足球的?以及在追捕罪犯的过程中警察是如何协作的?应该采用什么样的策略?如何制定这些策略?当和一群新朋友玩足球时,如何能够快速评估每个人的能力,并在比赛中采用特殊策略呢?
随着研究团队开始致力于深入研究多智能体机器学习和博弈理论,逐渐发现尽管已有很多相关论文发表,但并不集中也不够全面。虽然已有一些综述性文章[5],但均未能充分说明这些不同方法的具体细节。本书旨在向读者介绍一种特殊形式的机器学习。全书主要是关于多智能体机器学习,同时也包括一般学习算法的核心内容。学习算法的形式各不相同,然而往往都具有相似方法。在此,将着重比较这些方法的相同和不同之处。
本书的主要内容是基于本人的研究工作,以及过去10年里所指导下的博士生、硕士生的研究工作。在此,特别感谢Sidney Givigi教授。Givigi教授为本书第6章中所介绍的主要思路和算法提供了坚实基础。另外,本书中还包含了Xiaosong(Eric)Lu博士的研究成果。其中,关于疆土守卫部分的内容主要来源于其博士论文。同时,还有一些研究生也为本书做出了贡献,他们是Badr Al Faiya、Mostafa Awheda、Pascal De BeckCourcelle和Sameh Desouky。如果没有研究小组中学生们的辛勤工作,本书是不可能完成的。
原 书 前 言
Howard M.Schwartz
于加拿大渥太华
2013年9月
译 者 序
“多智能体”——一般专指多智能体系统( Multi Agent System,MAS)或多智能体技术( Multi Agent Technology,MAT)。多智能体系统是分布式人工智能的一个重要分支,是20世纪末~ 21世纪初国际上人工智能的前沿学科。多智能体学习相关的研究领域已成为人工智能发展的热点。
本书主要介绍了多智能体学习的相关内容,目的在于解决大型、复杂的现实问题,而解决这类问题已超出了单个智能体的能力。研究者主要研究智能体之间的交互通信、协调合作、冲突消解等方面,强调多个智能体之间的紧密群体合作,而非个体能力的自治和发挥,关于Lyapunov技术的非线性自适应控制方面的理论材料被减少,取而代之的是有关强化学习的思想。强化学习的目标是取得最大化的奖励(回报)。强化学习和非监督学习最有趣的部分就是奖励的选择,这是一个全新的发展迅速的应用领域。机器人团队必须要学会共同工作和相互竞争。本书是一本专门介绍多智能体强化学习的著作。
本书中重点研究了双人阶段博弈和矩阵博弈问题。其中主要通过3个不同的博弈游戏:猜硬币、石头一剪刀一布和囚徒困境来进行阐述。这些都被称为矩阵博弈(matrixgames)或阶段博弈(stage games)的游戏,因为在游戏过程中没有发生状态转移。本书没有过于深入研究博弈论本身,而是专注于与这些游戏相关的学习算法。另外,作者还结合自己的教学实践,探讨了多机器人智能体的微分博弈问题,并通过“逃跑者一追捕者”博弈和“疆土防御”博弈进行了深入讨论。
需要指出的是,书中矩阵、矢量为保持与原书一致,并未使用黑斜体,请读者注意。
本书第1~3章由谭励翻译,第4~6章由连晓峰翻译,全书由连晓峰审校统稿,彭森、于嘉骥、李世明、李伟男、蔡有林、侯宝奇、窦超、张鹏、侯秀林、张欣、邵妍洁、张吉东、张丹瑶、赵辰等人也参与了部分内容的翻译。
由于译者的水平有限,书中不当或错误之处恳请各位业内专家学者和广大读者不吝赐教。
译者
译者序
原书前言
第1章监督式学习概述
1 1 LS算法
1 2 RLS算法
1 3 LMS算法
1 4随机逼近法
参考文献
第2章单智能体强化学习
2 1简介
2 2 n臂赌博机问题
2 3学习结构
2 4值函数
2 5最优值函数
2 5.1网格示例
2 6 MDP
2 7学习值函数
2 8策略迭代
2 9 时间差分学习
2 10状态一行为函数的时间差分学习
2 11 Q学习
2 12资格迹
参考文献
第3章双人矩阵博弈学习
3 1矩阵博弈
3 2双人矩阵博弈中的纳什均衡
3 3双人零和矩阵博弈中的线性规划
3 4学习算法
3 5梯度上升算法
3 6 WoLF IGA算法
3 7 PHC算法
3 8 WoLF PHC算法
3 9矩阵博弈中的分散式学习
3 10学习自动机
3 11线性回报一无为算法
3 12线性回报一惩罚算法
3 13滞后锚算法
3 14 LR.滞后锚算法
3 14.1仿真
参考文献
第4章多人随机博弈学习
4 1简介
4 2多人随机博弈
4 3极大极小Q学习算法
4 3.1 2 x2网格博弈
4 4纳什Q学习算法
4 4.1学习过程
4 5单纯形算法
4 6 Lemke Howson算法
4 7纳什Q学习算法实现
4 8朋友或敌人Q学习算法
4 9无限梯度上升算法
4 10 PHC算法
4 11 WoLF PHC算法
4 12 网格世界中的疆土防御问题
4 12.1仿真和结果
4 13 LR.滞后锚算法在随机博弈中的扩展
4 14 EMA Q学习算法
4 15 EMA Q学习与其他方法的仿真与结果比较
4 15.1矩阵博弈
4 15 2随机博弈
参考文献
第5章微分博弈
5 1简介
5 2模糊系统简述
5 2.1模糊集和模糊规则
5 2 2模糊推理机
5 2 3模糊化与去模糊化
5 2 4模糊系统及其示例
5 3模糊Q学习
5 4 FACL
5 5疯狂司机微分博弈
5 6模糊控制器结构
5.7 Q(A)学习模糊推理系统
5 8疯狂司机博弈的仿真结果
5 9双车追捕者一逃跑者博弈中的学习算法
5 10双车博弈仿真
5 11 疆土防御微分博弈
5 12疆土防御微分博弈中的形成回报
5 13仿真结果
5 13.1 个防御者对一个人侵者
5 13 2两个防御者对一个人侵者
参考文献
第6章群智能与性格特征的进化
6 1简介
6 2群智能的进化
6 3环境表征
6 4群机器人的性格特征
6 5性格特征的进化
6 6仿真结构框架
6 7零和博弈示例
6 7.1收敛性
6 7 2仿真结果
6 8后续仿真实现
6 9机器人走出房间
6 10机器人跟踪目标
6 11小结
参考文献