猜你喜欢
强化学习:前沿算法与应用

强化学习:前沿算法与应用

书籍作者:白辰甲 ISBN:9787111724780
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:9240
创建日期:2024-04-03 发布日期:2024-04-03
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介
强化学习是机器学习的重要分支,是实现通用人工智能的重要途径。本书介绍了强化学习在算法层面的快速发展,包括值函数、策略梯度、值分布建模等基础算法,以及为了提升样本效率产生的基于模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法,以及一些新兴领域,包括离线学习、表示学习、元学习等,旨在提升数据高效性和策略的泛化能力的算法,还介绍了应用领域中强化学习在智能控制、机器视觉、语言处理、医疗、推荐、金融等方面的相关知识。
本书深入浅出、结构清晰、重点突出,系统地阐述了强化学习的前沿算法和应用,适合从事人工智能、机器学习、优化控制、机器人、游戏开发等工作的专业技术人员阅读,还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材。
作者简介
白辰甲
上海人工智能实验室青年研究员,博士毕业于哈尔滨工业大学计算学部,曾在加拿大多伦多大学联合培养,2022年获哈工大优秀博士论文奖。在高水平国际会议和期刊上发表论文20余篇,获评机器学习顶会ICML 2021、ICLR 2022、NeurIPS 2022亮点论文。研究方向包括强化学习、博弈智能和具身智能。


赵英男
博士毕业于哈尔滨工业大学计算学部,曾在加拿大阿尔伯塔大学进行联合培养,主要研究方向为深度强化学习、表征学习等,在国际会议和期刊上发表多篇学术论文。


郝建业
天津大学智能与计算学部副教授,获哈尔滨工业大学学士学位,香港中文大学博士学位,曾任MIT计算机科学与人工智能实验室博士后研究员。研究方向为深度强化学习和多智能体系统,近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能领域知名会议和IEEE汇刊发表论文80余篇,出版专著2部。


刘鹏
哈尔滨工业大学教授,博士生导师,模式识别与智能系统研究中心主任。主要研究方向为图像处理、模式识别、机器学习。发表学术论文50余篇,获发明专利10余项,获黑龙江省科技进步一等奖1项。


王震
西北工业大学教授,网络空间安全学院党委书记,国家保密学院常务副院长,Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA),AAIA Fellow, 全球高被引科学家,国家杰青,国防创新团队负责人。围绕博弈智能,人工智能基础理论,网络空间智能对抗,在Nature Communications、PNAS、Science Advance、AAAI、NeurIPS、ICML、ICLR等发表系列成果,WoS引用2万余次,编制完成行标5项。获科学探索奖,中国青年五四奖章,教育部、陕西省、学会科学技术奖一等奖等多个奖项。


编辑推荐
适读人群 :从事人工智能、机器学习、优化控制、机器人、游戏开发等工作的专业技术人员
浙江大学吴飞教授作序推荐,悉尼科技大学教授、澳大利亚人工智能理事会理事长张成奇,哈尔滨工业大学教授、国家级领军人才刘挺,北京大学教授,ACM/IEEE Fellow邓小铁鼎力推荐;人工智能领域专家白辰甲、赵英男、郝建业、刘鹏、王震倾力编写,强化学习的创新力作。
前言
强化学习(Reinforcement Learning, RL)是机器学习的重要分支,被认为是实现通用人工智能(AI)的重要途径。国家《新一代人工智能发展规划》明确将强化学习列入亟须建立的“新一代人工智能基础理论体系”的重要组成部分。在基于环境感知和深度特征提取的基础上,强化学习侧重解决“决策”问题。求解最优策略的过程非常类似于人类学习的过程,通过与环境的交互和试错不断改进自身策略,获取更大的回报。强化学习与监督学习方法的主要区别在于,强化学习是一个主动学习的过程,没有特定的训练数据,智能体(Agent)需要在不断地与环境交互的过程中获得信息来用于自身策略的学习。一个典型的强化学习的应用是围棋智能体,通过将“输赢”定义为奖励,智能体可以通过自我博弈来最大化奖励,从而学习到复杂的策略。
近年来,包括算法层面和应用层面,整个强化学习领域都获得了突飞猛进的发展。在算法层面,强化学习的研究领域逐步细分,向下延展为许多子问题。将Q学习和策略梯度法与深度网络进行结合,发展出了可以在图像观测和连续控制任务中实际应用的策略学习方法;通过学习值函数分布,能够建模值函数的分布,从而获得环境的内在随机性;通过对环境模型的学习,可以利用环境模型在策略学习中有效提升样本利用效率;通过增强策略的探索能力,使算法能够解决稀疏奖励下的策略学习问题。同时,将一般策略学习扩展为多目标策略、层次化策略,以及增加技能学习的模块,能够使算法应用于更为复杂的大规模任务。另外,一些新兴的研究领域包括离线强化学习、表示学习、元强化学习等,旨在提升强化学习在交互困难的任务中的可用性,提升数据高效性和策略的泛化能力。在应用领域,强化学习已经逐步在工业界落地,在包括游戏 AI、智能控制、机器视觉和语言处理等领域都有成功的应用案例。同时,在智慧医疗、搜索推荐和金融交易等领域也在不断探索新的落地场景。
目前,强化学习的快速发展是令人振奋的。然而,强化学习也面临很多现实的挑战,如样本效率仍然较低,策略的可靠性较差,在安全性要求较高的场景中难以应用等。这些问题都在等待研究人员和从业者来逐步解决。衷心地希望各位读者通过学习,也能加入到解决这些挑战的行列中。本书将对以上所述的前沿算法和应用进行详细介绍。通过学习本书,读者可以理解强化学习前沿的算法和应用中的核心知识,构建较为完整的强化学习理论和实践体系。
本书特色: 本书从经典强化学习出发,系统地阐述强化学习的前沿算法和应用。对于算法中的复杂理论,作者尽可能用通俗的语言阐述其基本原理。对于希望深入理解算法的读者,本书也对理论进行了深层解释,但是不理解这些内容并不影响对方法的整体把握。每章的最后一节将会集中展示本章方法的实用案例,并讲解其核心的实现步骤。
读者对象: 本书适合从事人工智能、机器学习、优化控制、机器人、游戏开发等工作的专业技术人员阅读,还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材。
阅读本书: 第1~4章属于前沿算法的基础内容,介绍强化学习的基本问题,基于值函数和基于策略的基本算法,该部分应当首先阅读。第5~13章分别介绍特定的算法类别,读者可以顺序阅读,也可以选择自己感兴趣的章节阅读。第14~17章介绍前沿应用部分,其中每个应用可能包括几种算法。建议读者先阅读前沿算法部分,再阅读前沿应用部分。本书附录部分包括学习资源和其余附加知识的介绍。
由于作者水平有限,书中错漏之处在所难免,恳请读者批评指正。

作者
目录
序言
前言
第1章 强化学习简介/
1.1从监督学习到强化学习/
1.2强化学习的发展历史/
1.3强化学习的研究范畴/
1.4强化学习的应用领域/
第2章 强化学习基础知识/
2.1强化学习的核心概念/
2.2马尔可夫性和决策过程/
2.3值函数和策略学习/
第3章 基于值函数的强化学习算法/
3.1深度Q学习的基本理论/
3.1.1深度Q网络/
3.1.2经验池/
3.1.3目标网络/
3.2深度Q学习的过估计/
3.2.1过估计的产生原因/
3.2.2Double Q-学习/
3.3深度Q学习的网络改进和高效采样/
3.3.1Dueling网络/
3.3.2高效采样/
3.4周期后序迭代Q学习/
3.5Q学习用于连续动作空间/
3.5.1基于并行结构的 Q学习/
3.5.2基于顺序结构的Q学习/
3.6实例:使用值函数学习的Atari游戏/
3.6.1环境预处理/
3.6.2Q网络的实现/
3.6.3Q学习的核心步骤/
第4章 策略梯度迭代的强化学习算法/
4.1REINFORCE 策略梯度/
4.1.1策略梯度的基本形式/
4.1.2降低策略梯度的方差/
4.2异步策略梯度法/
4.2.1引入优势函数/
4.2.2异步策略梯度/
4.3近端策略优化法/
4.3.1裁剪的优化目标/
4.3.2自适应的优化目标/
4.4深度确定性策略梯度/
4.4.1critic学习/
4.4.2actor学习/
4.4.3拓展1:探索噪声/
4.4.4拓展2:孪生DDPG/
4.5最大熵策略梯度/
4.5.1熵约束的基本原理/
4.5.2SAC算法/
4.6实例:使用策略梯度的Mujoco任务/
4.6.1actor-critic网络实现/
4.6.2核心算法实现/
第5章 基于模型的强化学习方法/
5.1如何使用模型来进行强化学习/
5.2基于模型预测的规划/
5.2.1随机打靶法/
5.2.2集成概率轨迹采样法/
5.2.3基于模型和无模型的混合算法/
5.2.4基于想象力的隐式规划方法/
5.3黑盒模型的理论框架/
5.3.1随机下界优化算法/
5.3.2基于模型的策略优化算法/
5.4白盒模型的使用/
5.4.1随机值梯度算法/
5.4.2模型增强的actor-critic算法/
5.5实例:AlphaGo围棋智能体/
5.5.1网络结构介绍/
5.5.2蒙特卡罗树搜索/
5.5.3总体训练流程/
第6章 值分布式强化学习算法/
6.1离散分布投影的值分布式算法/
6.2分位数回归的值分布式算法/
6.2.1分位数回归/
6.2.2Wasserstein距离/
6.2.3QR-DQN算法/
6.2.4单调的分位数学习算法/
6.3隐式的值分布网络/
6.4基于值分布的代价敏感学习/
6.4.1IQN中的代价敏感学习/
6.4.2基于IQN的actor-critic模型的代价敏感学习/
6.5实例:基于值分布的Q网络实现/
6.5.1IQN模型构建/
6.5.2IQN损失函数/
第7章 强化学习中的探索算法/
7.1探索算法的分类/
7.2基于不确定性估计的探索/
7.2.1参数化后验的算法思路/
7.2.2重采样DQN/
7.3进行虚拟计数的探索/
7.3.1基于图像生成模型的虚拟计数/
7.3.2基于哈希的虚拟计数/
7.4根据环境模型的探索/
7.4.1特征表示的学习/
7.4.2随机网络蒸馏/
7.4.3Never-Give-Up算法/
7.5实例:蒙特祖玛复仇任务的探索/
7.5.1RND网络结构/
7.5.2RND的训练/
7.5.3RND用于探索/
第8章 多目标强化学习算法/
8.1以目标为条件的价值函数/
8.1.1最大熵HER/
8.1.2动态目标HER/
8.2监督式的多目标学习/
8.2.1Hindsight模仿学习/
8.2.2加权监督式多目标学习/
8.3推广的多目标学习/
8.4实例:仿真机械臂的多目标抓取/
8.4.1多目标实验环境/
8.4.2HER的实现方法/
8.4.3MEP的算法实现/
第9章 层次化强化学习算法/
9.1层次化学习的重要性/
9.2基于子目标的层次化学习/
9.2.1封建网络的层次化学习/
9.2.2离策略修正的层次化学习/
9.2.3虚拟子目标的强化学习方法/
9.3基于技能的层次化学习/
9.3.1使用随机网络的层次化学习/
9.3.2共享分层的元学习方法/
9.4基于选项的层次化学习/
9.4.1option与半马尔可夫决策过程/
9.4.2option-critic结构/
9.5实例:层次化学习蚂蚁走迷宫任务/
第10章 基于技能的强化学习算法/
10.1技能学习的定义/
10.2互信息最大化的技能学习算法/
10.2.1多样性最大化技能学习算法/
10.2.2其他基于互信息的技能学习方法/
10.3融合环境模型的技能学习算法/
10.4最大化状态覆盖的技能学习算法/
10.5实例:人形机器人的技能学习/
第11章 离线强化学习算法/
11.1离线强化学习中面临的困难/
11.2策略约束的离线学习/
11.2.1BCQ算法/
11.2.2BRAC算法/
11.2.3TD3-BC算法/
11.3使用保守估计的离线学习/
11.4基于不确定性的离线学习/
11.4.1UWAC算法/
11.4.2MOPO算法/
11.4.3PBRL算法/
11.5监督式的离线学习/
11.5.1DT算法/
11.5.2RVS算法/
11.6实例:使用离线学习的D4RL任务集/
11.6.1D4RL数据集的使用/
11.6.2CQL算法实现/
11.6.3TD3-BC算法实现/
第12章 元强化学习算法/
12.1元强化学习的定义/
12.2基于网络模型的元强化学习方法/
12.2.1使用循环神经网络的元强化学习方法/
12.2.2基于时序卷积和软注意力机制的方法/
12.3元梯度学习/
12.4元强化学习中的探索方法/
12.4.1结构化噪声探索方法/
12.4.2利用后验采样进行探索/
12.5实例:元学习训练多任务猎豹智能体/
第13章 高效的强化学习表示算法/
13.1为什么要进行表示学习/
13.2对比学习的特征表示/
13.2.1基本原理和SimCLR算法/
13.2.2MoCo 算法/
13.2.3基于对比学习的 CURL算法/
13.2.4基于对比学习的 ATC算法/
13.2.5基于对比学习的 DIM算法/
13.2.6对比学习和互信息理论/
13.2.7完全基于图像增广的方法/
13.3鲁棒的特征表示学习/
13.3.1互模拟特征/
13.3.2信息瓶颈特征/
13.4使用模型预测的表示学习/
13.5实例:鲁棒的仿真自动驾驶/
第14章 强化学习在智能控制中的应用/
14.1机器人控制/
14.1.1机械臂操作任务的控制/
14.1.2足式机器人的运动控制/
14.1.3多任务机器人控制/
14.1.4面临的挑战/
14.2电力优化控制/
14.2.1电力管理任务/
14.2.2需求响应/
14.3交通指挥优化控制/
14.3.1多信号灯合作控制/
14.3.2大规模信号灯控制方法/
14.3.3元强化学习信号灯控制/
第15章 强化学习在机器视觉中的应用/
15.1神经网络结构搜索/
15.1.1利用强化学习解决NAS/
15.1.2其他前沿方法/
15.2目标检测和跟踪中的优化/
15.2.1强化学习与目标检测/
15.2.2强化学习与实时目标跟踪/
15.3视频分析/
第16章 强化学习在语言处理中的应用/
16.1知识图谱系统/
16.2智能问答系统/
16.2.1事后目标回放法/
16.2.2多任务对话系统/
16.3机器翻译系统/
16.3.1NMT中奖励的计算/
16.3.2策略梯度方差处理/
第17章 强化学习在其他领域中的应用/
17.1医疗健康系统/
17.1.1动态治疗方案/
17.1.2重症监护/
17.1.3自动医疗诊断/
17.2个性化推荐系统/
17.2.1策略优化方法/
17.2.2基于图的对话推荐/
17.3股票交易系统/
17.3.1FinRL强化学习框架/
17.3.2FinRL训练示例/
产品特色