猜你喜欢
强化学习(第2版)  [Reinforcement Learning]

强化学习(第2版) [Reinforcement Learning]

书籍作者:RichardS.Sutton ISBN:9787121295164
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:6900
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

《强化学习(第2版)》作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。

作者简介

Richard Sutton(理查德·萨顿)

埃德蒙顿 DeepMind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入DeepMind。之前,曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,在马萨诸塞大学做学术研究。

1978年获得斯坦福大学心理学学士学位,1984年获得马萨诸塞大学计算机科学博士学位,加拿大皇家学会院士和人工智能促进会的会士。

主要研究兴趣是在决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。

他的科学出版物被引用超过7万次。

他也是一名自由主义者,国际象棋选手和癌症幸存者。

Andrew Barto (安德鲁·巴图)

马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位,并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学习实验室,该实验室培养了许多著名的机器学习研究者。

目前担任Neural Computation (《神经计算》)期刊的副主编,Journal of Machine Learning Research (《机器学习研究》)期刊的顾问委员会成员,以及Adaptive Behavior (《自适应行为》)期刊的编委员会成员。

他是美国科学促进会的会员,IEEE(国际电子电气工程师协会)的终身会士(Life Fellow),也是神经科学学会的成员。

2004年,因强化学习领域的贡献荣获IEEE神经网络学会先锋奖,并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17卓越研究奖;2019年获得马萨诸塞大学神经科学终身成就奖。

他在各类期刊、会议和研讨会上发表了100多篇论文,参与撰写多部图书的相关章节。

译者简介

俞凯

上海交通大学计算科学与工程系教授,思必驰公司创始人、首席科学家。清华大学自动化系本科、硕士,剑桥大学工程系博士。青年千人,国家自然科学基金委优青,上海市“东方学者”特聘教授。IEEE 高级会员,现任 IEEE Speech and Language Processing Technical Committee 委员,中国人工智能产业发展联盟学术和知识产权组组长,中国计算机学会语音对话及听觉专业组副主任。

长期从事交互式人工智能,尤其是智能语音及自然语言处理的研究和产业化工作。发表国际期刊和会议论文 150 余篇,获得Computer Speech and Language, Speech Communication 等多个国际期刊及InterSpeech等国际会议的优论文奖,所搭建的工程系统曾获美国国家标准局语音识别评测冠军,对话系统国际研究挑战赛冠军等。

获评2014“吴文俊人工智能科学技术奖”进步奖,“2016科学中国人年度人物”,2018中国计算机学会“青竹奖”。

编辑推荐

《强化学习(第2版)》被业界公认为任何对人工智能领域感兴趣的人员的必读书。

《强化学习(第2版)》是被称为“强化学习教父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来,一直是强化学习领域的经典导论性教材,培育了好几代强化学习领域的研究人员。

在第2版中,随着强化学习的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益大化……涵盖了当今关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。


前言
本书第1版出版的20年以来,在机器学习(包括强化学习) 前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。面对这些进展,我们早有对1998年第1版书进行更新再版的打算,但直到2012年才开始真正着手编纂。第2版的目标与第1版一致:为强化学习的核心概念与算法提供清晰简明的解释,以供所有相关学科的读者学习。这一版仍然是一本概要介绍性的读物,仍然关注最核心的在线学习算法,同时增加了一些近年来日趋重要的话题,并拓展了部分内容,给出了更新的理解。强化学习领域可以延伸出很多不同的方向,但我们并不想包罗万象,在此为可能出现的些许遗漏表示歉意。




  第2版记号变化

  和第1版一样,我们没有以最严谨的形式化的方式来定义强化学习,也没有采用特别抽象的术语表达,但是为了大家能更深入地理解,有些话题仍然需要用数学来解释。无数学需求的读者可以选择跳过灰色框中的数学原理部分。在教学过程中,我们发现一些新的记号可以消除一些共同的疑惑点,因此本书的部分记号和上一版相比略有差异。首先我们对随机变量进行了区分,以大写字母表示变量本身,小写字母表示对应的实例。比如时刻t的状态、动作和收益被表示为St、At和Rt,而它们可能的取值被表示为s、a和r。与之相伴随,我们用小写字母的形式(例如vπ)来表示价值函数,用大写字母表示其表格型的估计值,比如Qt(s,a)。近似价值函数是具有随机参数的确定性函数,因此用小写字母表示,比如v?(s,wt)≈vπ(s)。向量用粗体的小写字母表示(包括随机变量),比如权值向量wt(先前用θt表示)、特征向量xt(先前用?t表示)。大写粗体用以表示矩阵。在第1版中我们使用了特殊记号Paass′来表示转移概率和期望收益。但这种记号并不能完整地表示出收益的动态性,只表示了期望值,因此只适用于动态规划而不适用于强化学习。另一个缺点是上下标的过度使用。因此,在这一版中我们明确采用p(s′,r|s,a)的记 号来表示给定当前状态s和动作a后,下一时刻的状态s′和收r的联合概率分布。所有的记号变化都收录在稍后的“符号列表”中。



  第2版内容结构

  第2版在原先的基础上进行了许多拓展,整体结构也有所变化。第1章是导论性的介绍,其后分为三个部分。第I部分(第2?8 章)会尽可能多地用表格型的案例讲解强化学习,主要包括针对表格型案例的学习和规划算法,以及它们在n步法和Dyna中的统一表达。这部分介绍的许多算法是第2版的新增内容,包括UCB、期望Sarsa、双重学习、树回溯、Q(σ)、RTDP和MCTS。从介绍表格型案例开始,可以在最简单的情况下理解算法的核心思想。本书的第II部分(第9?13章)致力于将这些思想从表格型的情况扩展到函数逼近,包含人工神经网络、傅立叶变换基础、LSTD、核方法、梯度TD和强调TD方法、平均收益方法、真实的在线TD(λ)和策略梯度方法等新内容。第2版大幅拓展了对离轨策略的介绍,首先是第5?7章讲解表格型的案例,之后在第11章和第12章讲解函数逼近法。另一个变化是,这一版将n步自举法(在第7章中详细阐述)中的前向视图思想与资格迹(在第12章中单独阐述)中的后向视图思想分开详细讲解。本书的第III部分加入了大量阐述强化学习与心理学(第14章)、神经科学(第15章)联系的新章节,更新了针对多种案例,包括Atari游戏、Watson的投注策略和围棋人工智能AlphaGo、AlphaGo Zero (第16章)的研究章节。尽管如此,本书涵盖的内容仍然只是该领域的一小部分,只反映了我们长期以来对低成本无模型方法的兴趣,这些方法可以很好地适应大规模的应用。最后一章包括了对强化学习未来的社会影响的讨论。无论好坏,第2版的篇幅达到了第1版的两倍。

  本书旨在作为一到两学期强化学习课程的初级教材。一个学期的课程可以着重对前10章进行讨论,掌握核心思想,根据需要再将其他章节,或者其他书籍的某些章节,比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012),以及Szepesvári(2010)或其他文献作为辅助材料。根据学生的背景,在线有监督学习的一些额外材料可能会对学习这门课有所帮助。比如“选项”的概念和模型(Sutton、Precup和Singh,1999)就是一个很好的补充。两学期的课程可以使用所有章节内容及补充材料。本书还可以作为机器 学习、人工智能或神经网络等课程的一部分。这种情况只需要讲述部分内容,我们推荐对第1章进行简要概述,然后学习第2章到2.4节和第3章,随后根据时间和兴趣选择其余章节。第6章的内容对于本书和相关课程来说是最重要的。关于机器学习或神经网络的课程应该使用第9章和第10章的内容,而关于人工智能或规划算法的课程应该使用第8章的内容。在整本书中,相对比较难且对于其他课程不那么重要的章节和部分已用?注明。这些部分在第一次阅读时可以跳过,这不会影响后续阅读。练习中一些进阶的、对理解基础概念不那么重要的问题也已经用?标识。

  大多数章节最后会出现题为“参考文献和历史备注”的部分,在这部分中,我们针对本章中一些值得深入探究的概念和观点提供了进一步阅读和研究的材料,并描述了相关的历史背景。尽管我们试图使这些部分内容具有权威性和完整性,但也不免会忽略一些重要的前期工作。为此,我们再次表示歉意,也欢迎读者提出更正和扩展。



  本书写作背景

  和第1版一样,我们用本书的这一版纪念A.Harry Klopf。是Harry把本书的作者们介绍给彼此,也是他关于大脑和人工智能的想法,使我们踏上对强化学习研究的漫长征程。Harry是俄亥俄州赖特-帕特森空军基地空军科学研究所(AFOSR)航空电子管理局的一位高级研究员,他受过神经生理学的训练,并一直对机器智能很感兴趣。在解释自然智能、机器智能基础机理的问题上,他并不满意当时的人们对“平衡态搜索”(equilibrium-seeking)过程(包括内部稳态自调整过程和基于错误纠正的模式分类方法)的广泛重视。他指出,尝试最大化某种准则(无论该准则是什么)的系统与搜索平衡态的系统在本质上有所不同,而具有最大化准则的系统才是理解自然智能的重要方向,是构建人工智能的关键。Harry从AFOSR申请了项目资助,用于评估这些思想以及相关思想的科学价值。该项目于20世纪70年代末在马萨诸塞州阿默斯特大学(麻省大学阿默斯特分校)进行,最初由Michael Arbib、William Kilmer和Nico Spinelli指导,他们是麻省大学阿默斯特分校计算机与信息科学系的教授,系统神经科学控制论中心的创始成员。这是一支十分有远见的团队,专注于神经科学和人工智能交叉方向。

  Barto,一位来自密歇根大学的博士,担任该项目的博士后研究员。与此同时,在斯坦福大学攻读计算机科学和心理学的本科生Sutton,就经典条件反射中的刺激时机的作用这一话题和Harry产生了共同兴趣。Harry向麻省大学提出建议,认为Sutton可以成为该项目的一名重要补充人员。因此,Sutton成为了麻省大学的研究生,在成为副教授的Barto的指导下攻读博士学位。

  本书中对强化学习的研究都出自Harry推动的这一项目,且受其想法启发而来。此外,也是通过Harry,作者们才得以聚到一起进行长期愉快的合作。因此,我们将本书献给Harry,以纪念他对于强化学习领域和我们合作的重要贡献。我们也感谢Arbib、Kilmer和Spinelli教授为我们提供探索这些想法的机会。最后,感谢AFOSR在研究早期给予我们的慷慨支持,并感谢NSF(美国国家科学基金会)在接下来的几年中给予的慷慨支持。



  致谢

  我们还要感谢在第2版中为我们提供灵感和帮助的许多人,同样我们也要对第1版中致谢过的所有人再次表示深深的感谢,如果不是他们对第1版的贡献,这一版也不会面世。在这个长长的致谢列表中,我们增加了许多特别为第2版作出贡献的人。多年来在使用该教材的教授的课堂上,我们的学生以各种各样的方式作出贡献:指正错误,提供修改方案,也包括对我们没解释清楚的地方表达困惑。我们还要特别感谢Martha Steenstrup阅读并提供详细的意见。如果没有这些心理学和神经科学领域专家的帮助,相关章节将无法完成。感谢John Moore多年来在动物学习实验、理论和神经科学方面的耐心指导,John仔细审阅了第14章和第15章的多版草稿。感谢Matt Botvinick、Nathaniel Daw、Peter Dayan和Yael Niv对这些章节的建议,对我们阅读大量文献给予的重要指导,以及对早期草稿中错误的斧正。当然,这些章节一定还存在某些纰漏。我们感谢Phil Thomas帮助我们寻找非心理学、非神经科学研究的人士来阅读这些章节,感谢Peter Sterling帮助我们改进注释部分。感谢Jim Houk为我们介绍基底核神经中枢进行信息处理的过程,并提醒我们注意其他一些相关的神经科学的内容。在案例学习的章节,José Martínez、Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和Phil Thomas帮助我们了解他们的强化学习应用程序的细节,并对这些章节的草稿提出了十分有用的意见。特别感谢David Silver帮助我们更好地理解蒙特卡洛树搜索和DeepMind的围棋程序(Go-playing program)。感谢George Konidaris在傅立叶基的相关章节提供的帮助,感谢Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和Pierre-Luc Bacon在多方面对我们提供的帮助。

  Sutton还要感谢阿尔伯塔大学强化学习和人工智能实验室的成员对第2版的贡献,特别是Rupam Mahmood对于第5章中关于离轨策略蒙特卡洛方法的重要贡献,Hamid Maei在第11章中提出的关于离轨策略学习的观点,Eric Graves在第13章中进行的实验,Shangtong Zhang复现并验证了几乎所有的实验结果,Kris De Asis在第7章和第12章中提供的新技术内容,以及Harm van Seijen提出的n步方法与资格迹分离的观点,(和Hado van Hasselt一起)和第12章中涉及的资格迹前向、后向等价性的观点。Sutton 也非常感谢阿尔伯塔省政府和加拿大国家科学与工程研究委员会在整个第2版的构思和编写期间给予的支持和自由。特别感谢Randy Goebel在阿尔伯塔省创建的包容支持、具有远见的基础研究环境。同时,也还要感谢在撰写本书的最后6个月中DeepMind给予的支持。

  最后,我们要感谢许多阅读网络发布的第2版的细心读者们,他们发现了许多我们忽视的错误,提醒我们注意可能出现的混淆点。

  译者序
  “思想总是走在行动的前面,就好像闪电总是走在雷鸣之前。”德国诗人海涅的诗句再恰当不过地描述了我第一次读到本书英文原版时的感受。
  纵观人工智能技术的发展历史,就是一部思想、理论、算法、工程应用的成就交替出现而又交相辉映的历史。传统人工智能领域的三大学派:以逻辑推断和贝叶斯学习为代表的符号主义学派、以神经网络为代表的联结主义学派以及以控制论和强化学习为代表的行为主义学派,在不同的历史阶段都产生了很多绝妙的思想和理论成果,而技术应用的水平和范围也让它们受到的关注度起起落落。20 世纪 40 年代到 50 年代,行为主义的控制论因其在航空、航天、机械、化工等领域的巨大成功受到了极大重视,也独立产生了自动控制等技术学科,甚至连早期的计算机专业也都是从控制相关的专业中分出来的,但其应用往往不被认为是一种“智能”,因而长期独立发展,游离于人工智能研究者的视野之外;而20世纪50年代人工智能的概念被正式提出以后,符号主义的数理逻辑以及贝叶斯学习等经典机器学习理论一直一枝独秀,引领着人工智能的研究和应用,尤其是专家系统和经典机器学习理论的大量成功应用,使得它成为 20 世纪在人工智能研究中占据统治地位的主流学派;联结主义的神经网络的发展则一波三折,20世纪60年代类脑模型的研究和80年代反向传播算法的提出都使得神经网络的研究在短时间内出现过热潮,然而理论局限和应用瓶颈一次又一次地把神经网络的研究打入冷宫,直到21世纪初,深度学习理论被提出,借助GPU等计算机硬件的算力飞跃并与大数据结合,迅速产生了巨大的产业技术红利,使得联结主义一跃成为当前人工智能研究最炙手可热的学派。而无论技术应用如何风云变幻,产业发展如何潮起潮落,在人工智能的发展历程中,始终有一批思想的先行者以近乎顽固的执着态度在不同时代的“非主流”方向上进行着思考和探索,而正是这些执着甚至孤独的思想者,在技术应用热潮冷却后的暗夜里保留了火种,照亮了人类不停息的探索之路。
  本书的两位作者Richard S. Sutton和Andrew G. Barto就是这样的思想先行者,而本书所介绍的“强化学习”,则是后深度学习时代技术发展的重要火种之一。以联结主义的神经网络为代表的深度学习毫无疑问是21世纪初人工智能领域的最重要、最具实用意义的技术突破之一,它为基础研究走向产业应用做出了巨大贡献,也相应地赢得了巨大的声誉和关注。然而,如火如荼的产业应用掩盖不住冷静的研究者们对人工智能未来走向的担忧,越来越多的研究者把深度学习的改良性研究视为工业界的应用技巧,而开始关注与联结主义的经典深度学习不同的人工智能范式探索。这其中,不同学派的思想融合产生了两个重要趋势。一个是将联结主义与符号主义融合起来,将神经网络的“黑箱学习”与先验知识、符号推理和经典机器学习结合,实现可解释、可推理、可操控的新一代“白箱学习”;另一个则是将联结主义与行为主义融合起来,将基于静态数据和标签的、数据产生与模型优化相互独立的“开环学习”,转变为与环境动态交互的、在线试错的、数据(监督信号)产生与模型优化紧密耦合在一起的“闭环学习”。强化学习就是“闭环学习”范式的典型代表,正如本书中所介绍的,它与传统的预先收集或构造好数据及标签的有监督学习有着本质的区别,它强调在与环境的交互中获取反映真实目标达成度的反馈信号,强调模型的试错学习和序列决策行为的动态和长期效应。这使得强化学习在人工智能领域的一些难题,如我本人所从事的认知型人机口语对话系统的研究中,具有无可替代的重要地位。而这些宝贵的思想,也为联结主义的深度学习在小数据、动态环境、自主学习等方面的进一步发展提供了重要的基础。在 AlphaGo战胜李世石之后,AlphaZero以其完全凭借自我学习超越人类在各种棋类游戏中数千年经验的能力再次刷新了人类对人工智能的认识,也使得强化学习与深度学习的结合受到了学术界和产业界的前所未有的关注。
  《强化学习》的英文第2版正是在这样的背景下出版的。本书并非一本实用主义的算法普及材料,而是一本强化学习思想的深度解剖之作,是强化学习基础理论的经典论述。本书没有从复杂的数学角度对强化学习的相关理论和方法给以极其严格的形式化推导,而是从强化学习的基本思想出发,深入浅出而又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。自1998年第1版出版以来,本书就一直是强化学习领域的经典导论性教材。在第2版中,原作者又加入了很多新的内容,包括对深度强化学习应用(如 AlphaGo)的介绍,以及更新的思想和理解等,使得本书既保持对核心理论的清晰简明的讲解,又包含了与时俱进的最新应用成果和作者的最新思想。本书既可以作为一到两学期的强化学习课程的初级教材,也可以作为研究者自学的入门教程。在本书的翻译过程中,Richard S. Sutton 和 Andrew G. Barto还特意为中国读者写了一段寄语,其中提到希望本书的中文译本能够促进中国学生产生更多的新思想,为世界范围的强化学习的研究繁荣做出贡献。这一期望也使我倍感荣幸,希望本书的中文译本能够让他们的思想为更多的中国研究者所了解,并作为一个种子,在中国孕育并产生人工智能前沿研究的新思想。
  本书的翻译得到了上海交通大学计算机系智能语音实验室同学们的大力支持,尤其是刘奇、陈志、陈露和吴越同学付出了大量的精力进行组织和排版整理,卞天灵、曹瑞升、杜晨鹏、黄子砾、金凯祺、兰鸥羽、李晨达、李大松、李福斌、李杰宇、李沐阳、刘辰、刘啸远、卢怡宙、马娆、盛佩瑶、王晨、王鸿基、王巍、吴嫣然、吴章昊、徐志航、杨闰哲、杨叶新、叶子豪、张王优、赵晏彬、周翔等同学都为本书的翻译做出了贡献。同时,也特别感谢苏州大学刘全教授,陆军军医大学王晓霞博士,清华大学刘乐章同学和北京交通大学张智慧同学对翻译稿进行了试读并帮助审校。本书的翻译也得到了电子工业出版社的大力支持,在此一并表示衷心的感谢。翻译过程难免存在疏漏和错误,欢迎读者批评指正。
  俞凯
  2019 年 4 月
目录

第1章 导论 1

1.1 强化学习 1

1.2 示例 4

1.3 强化学习要素 5

1.4 局限性与适用范围 7

1.5 扩展实例:井字棋 8

1.6 本章小结 12

1.7 强化学习的早期历史 13

第I部分 表格型求解方法 23

第2章 多臂赌博机 25

2.1 一个 k 臂赌博机问题 25

2.2 动作-价值方法 27

2.3 10 臂测试平台 28

2.4 增量式实现 30

2.5 跟踪一个非平稳问题 32

2.6 乐观初始值 34

2.7 基于置信度上界的动作选择 35

2.8 梯度赌博机算法 37

2.9 关联搜索 (上下文相关的赌博机) 40

2.10 本章小结 41

第3章 有限马尔可夫决策过程 45

3.1 “智能体-环境”交互接口 45

3.2 目标和收益 51

3.3 回报和分幕 52

3.4 分幕式和持续性任务的统一表示法 54

3.5 策略和价值函数 55

3.6 最优策略和最优价值函数 60

3.7 最优性和近似算法 65

3.8 本章小结 66

第4章 动态规划 71

4.1 策略评估 (预测) 72

4.2 策略改进 75

4.3 策略迭代 78

4.4 价值迭代 80

4.5 异步动态规划 83

4.6 广义策略迭代 84

4.7 动态规划的效率 85

4.8 本章小结 86

第5章 蒙特卡洛方法 89

5.1 蒙特卡洛预测 90

5.2 动作价值的蒙特卡洛估计 94

5.3 蒙特卡洛控制 95

5.4 没有试探性出发假设的蒙特卡洛控制 98

5.5 基于重要度采样的离轨策略 101

5.6 增量式实现 107

5.7 离轨策略蒙特卡洛控制 108

5.8 ? 折扣敏感的重要度采样 110

5.9 ? 每次决策型重要度采样 112

5.10 本章小结 113

第 6 章 时序差分学习 117

6.1 时序差分预测 117

6.2 时序差分预测方法的优势 122

6.3 TD(0) 的最优性 124

6.4 Sarsa:同轨策略下的时序差分控制 127

6.5 Q 学习:离轨策略下的时序差分控制 129

6.6 期望 Sarsa 131

6.7 最大化偏差与双学习 133

6.8 游戏、后位状态和其他特殊例子 135

6.9 本章小结 136

第7章 n 步自举法 139

7.1 n 步时序差分预测 140

7.2 n 步 Sarsa 144

7.3 n 步离轨策略学习 146

7.4 ? 带控制变量的每次决策型方法 148

7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法 150

7.6 ? 一个统一的算法:n 步 Q(σ) 153

7.7 本章小结 155

第8章 基于表格型方法的规划和学习 157

8.1 模型和规划 157

8.2 Dyna:集成在一起的规划、动作和学习 159

8.3 当模型错误的时候 164

8.4 优先遍历 166

8.5 期望更新与采样更新的对比 170

8.6 轨迹采样 173

8.7 实时动态规划 176

8.8 决策时规划 179

8.9 启发式搜索 180

8.10 预演算法 182

8.11 蒙特卡洛树搜索 184

8.12 本章小结 187

8.13 第I部分总结 188

第II部分 表格型近似求解方法 193

第9章 基于函数逼近的同轨策略预测 195

9.1 价值函数逼近 195

9.2 预测目标 (VE ) 196

9.3 随机梯度和半梯度方法 198

9.4 线性方法 202

9.5 线性方法的特征构造 207

9.5.1 多项式基 208

9.5.2 傅立叶基 209

9.5.3 粗编码 212

9.5.4 瓦片编码 214

9.5.5 径向基函数 218

9.6 手动选择步长参数 219

9.7 非线性函数逼近:人工神经网络 220

9.8 最小二乘时序差分 225

9.9 基于记忆的函数逼近 227

9.10 基于核函数的函数逼近 229

9.11 深入了解同轨策略学习:“兴趣”与“强调” 230

9.12 本章小结 232

第10章 基于函数逼近的同轨策略控制 239

10.1 分幕式半梯度控制 239

10.2 半梯度 n 步 Sarsa 242

10.3 平均收益:持续性任务中的新的问题设定 245

10.4 弃用折扣 249

10.5 差分半梯度 n 步 Sarsa 251

10.6 本章小结 252

第11 章 ? 基于函数逼近的离轨策略方法 253

11.1 半梯度方法 254

11.2 离轨策略发散的例子 256

11.3 致命三要素 260

11.4 线性价值函数的几何性质 262

11.5 对贝尔曼误差做梯度下降 266

11.6 贝尔曼误差是不可学习的 270

11.7 梯度 TD 方法 274

11.8 强调 TD 方法 278

11.9 减小方差 279

11.10 本章小结 280

第12章 资格迹 283

12.1 λ-回报 284

12.2 TD(λ) 287

12.3 n-步截断 λ- 回报方法 291

12.4 重做更新:在线 λ-回报算法 292

12.5 真实的在线 TD(λ) 294

12.6 ? 蒙特卡洛学习中的荷兰迹 296

12.7 Sarsa(λ) 298

12.8 变量 λ 和 γ 303

12.9 带有控制变量的离轨策略资格迹 304

12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ) 308

12.11 采用资格迹保障离轨策略方法的稳定性 310

12.12 实现中的问题 312

12.13 本章小结 312

第13章 策略梯度方法 317

13.1 策略近似及其优势 318

13.2 策略梯度定理 320

13.3 REINFORCE:蒙特卡洛策略梯度 322

13.4 带有基线的 REINFORCE 325

13.5 “行动器-评判器”方法 327

13.6 持续性问题的策略梯度 329

13.7 针对连续动作的策略参数化方法 332

13.8 本章小结 333

第III部分 表格型深入研究 337

第14章 心理学 339

14.1 预测与控制 340

14.2 经典条件反射 341

14.2.1 阻塞与高级条件反射 342

14.2.2 Rescorla-Wagner 模型 344

14.2.3 TD 模型 347

14.2.4 TD 模型模拟 348

14.3 工具性条件反射 355

14.4 延迟强化 359

14.5 认知图 361

14.6 习惯行为与目标导向行为 362

14.7 本章小结 366

第15章 神经科学 373

15.1 神经科学基础 374

15.2 收益信号、强化信号、价值和预测误差 375

15.3 收益预测误差假说 377

15.4 多巴胺 379

15.5 收益预测误差假说的实验支持 382

15.6 TD 误差/多巴胺对应 385

15.7 神经“行动器-评判器” 390

15.8 行动器与评判器学习规则 393

15.9 享乐主义神经元 397

15.10 集体强化学习 399

15.11 大脑中的基于模型的算法 402

15.12 成瘾 403

15.13 本章小结 404

第 16 章 应用及案例分析 413

16.1 TD-Gammon 413

16.2 Samuel 的跳棋程序 418

16.3 Watson 的每日双倍投注 421

16.4 优化内存控制 424

16.5 人类级别的视频游戏 428

16.6 主宰围棋游戏 433

16.6.1 AlphaGo 436

16.6.2 AlphaGo Zero 439

16.7 个性化网络服务 442

16.8 热气流滑翔 446

第17章 前沿技术 451

17.1 广义价值函数和辅助任务 451

17.2 基于选项理论的时序摘要 453

17.3 观测量和状态 456

17.4 设计收益信号 460

17.5 遗留问题 464

17.6 人工智能的未来 467

参考文献 473