猜你喜欢
揭秘深度强化学习

揭秘深度强化学习

书籍作者:彭伟 ISBN:9787517062387
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8135
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

深度强化学习(Deep Reinforcement Learning,DRL)是深度学习算法和强化学习算法的巧妙结合,它是一种新兴的通用人工智能算法技术,也是机器学习的前沿技术,DRL 算法潜力无限,AlphaGo 是目前该算法相当成功的使用案例。DRL 算法以马尔科夫决策过程为基础,是在深度学习强大的非线性函数的拟合能力下构成的一种增强算法。深度强化学习算法主要包括基于动态规划(DP)的算法以及基于策略优化的算法,本书的目的就是要把这两种主要的算法(及设计技巧)讲解清楚,使算法研究人员能够熟练地掌握。

《揭秘深度强化学习人工智能机器学习技术丛书》共10 章,首先以AlphaGo 在围棋大战的伟大事迹开始,引起对人工智能发展和现状的介绍,进而介绍深度强化学习的基本知识。然后分别介绍了强化学习(重点介绍蒙特卡洛算法和时序差分算法)和深度学习的基础知识、功能神经网络层、卷积神经网络(CNN)、循环神经网络(RNN),以及深度强化学习的理论基础和当前主流的算法框架。最后介绍了深度强化学习在不同领域的几个应用实例。引例、基础知识和实例相结合,方便读者理解和学习。

《揭秘深度强化学习 人工智能机器学习技术丛书》内容丰富,讲解全面、语言描述通俗易懂,是深度强化学习算法入门的优选。本书适合计算机专业本科相关学生、人工智能领域的研究人员以及所有对机器学习和人工智能算法感兴趣的人员。


编辑推荐

《揭秘深度强化学习 人工智能机器学习技术丛书》是一本详细介绍深度强化学习算法的入门类图书,涉及深度学习和强化学习的相关内容,是人工智能前沿的研究方向。非常适合想在下一代技术领域立足的人工智能和机器学习算法从业者学习和参考。

机器学习的一个分支是神经网络;神经网络模拟人的大脑,形成神经网络模型,它可以包括很多层次,一般来讲层次越深学习效果越好,很多层的神经网络就是深度学习。

在传统的机器学习中,主要分为非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。强化学习是对决策的学习,简单来讲,强化学习就是用奖励机制,自己调节参数,让算法越来越聪明。

深度强化学习,研究的是如何通过深度学习的方法来解决强化学习的问题。也就是深度学习和强化学习的结合。

《揭秘深度强化学习 人工智能机器学习技术丛书》一书囊括了强化学习基础知识、马尔科夫决策过程、无模型强化学习、模仿学习、深度学习基础知识、神经网络基本组成、反向传播算法、功能神经网络层、循环神经网络、卷积神经网络(CNN)的基础和结构、循环神经网络(RNN)、深度强化学习基础、蒙特卡洛搜索树、策略梯度算法、深度强化学习算法框架、深度Q学习、双Q学习、异步优越性策略子-评价算法、深度强化学习应用实例等。

深度强化学习算法可应用于量化投资、游戏智能、机器人决策、自动驾驶、无人机等。


前言

深度强化学习(Deep Reinforcement Learning,DRL)是一种新兴的通用人工智能算法技术,是人工智能迈向智能决策的重要一步。

关于深度强化学习的文章目前比较少,系统介绍深度强化学习的教材几乎没有。本书系统地介绍深度强化学习算法的基础知识。学习该算法的人员需要人工智能相关专业的背景,但是并不需要比较深的背景。本书以一种通俗易懂的、细致的方式对深度强化学习算法进行了讲解,力求帮助读者较快入门。深度强化学习涉及的知识面比较广,但其算法原理并不是想象得那么复杂。因此,本书会对其相关知识点进行简要的介绍,保证没有相关经验的读者也能够很好地理解本书的内容。通过本书的学习,希望读者能够掌握两大类别的深度强化学习算法:基于动态规划的算法以及基于策略梯度的算法。深度强化学习具有较广泛的使用场景,例如游戏决策、量化投资、动画仿真等,希望本书能够帮助读者适应不同的使用场景。

本书特点

● 前沿的研究方向:本书介绍人工智能目前最前沿的研究方向,是通用智能的基础。

● 完备的DRL 入门书籍:囊括经典,紧跟前沿,包括DRL 目前最新研究成果。

● 通俗易懂的讲解:用通俗易懂的语言,结合案例进行解析,适合所有人工智能相关专业的初学者,能帮助他们快速入门。

● 专业的经验:本书密切结合实际应用,是人工智能前沿研究及实践的经验总结。

本书内容安排

第1 章 深度强化学习概览

本章从当前人工智能飞速发展并引起广泛关注的背景出发,概述了深度强化学习的基本知识,强化学习和深度学习的发展历史、基本概念和特点等,以及深度强化学习的两种算法。

第2 章 强化学习基础

传统的强化学习是深度强化学习的基础。本章从马尔科夫模型出发介绍了马尔科夫决策过程,同时用比较通俗的语言介绍了强化学习中的两种问题,有模型强化学习问题以及无模型强化学习问题。现实中无模型强化学习问题是一种非常普遍的情况,因此重点介绍了其中的蒙特卡洛算法以及时序差分算法。

第3 章 深度学习基础

强化学习引入深度学习之后,性能得到了极大的提高。本章重点介绍深度学习的基础,主要从四个方面来介绍:深度学习简史、深度学习的基础概念、数据预处理以及深度学习的硬件基础。本章的学习对于强化学习甚至是机器学习都非常重要。

第4 章 功能神经网络层

功能神经网络层是深度学习的核心部分。本章将介绍深度学习过程中的激活函数、全连接层、参数开关Dropout 以及CNN 和RNN 等。本章最后也介绍了相关的网络设计技巧。

第5 章 卷积神经网络(CNN)

本章用大量的篇幅介绍卷积神经网络,这是因为目前DRL 都是基于CNN 实现的,是希望读者能够迅速掌握其相关知识,不要因为其难点而影响算法的学习。本章主要介绍了CNN 的网络结构、基于CNN 的经典模型,以及基于CNN 的流行应用。

第6 章 循环神经网络(RNN)

循环神经网络虽然不是深度强化学习的重点,但是也是深度学习的一个重要的网络结构,不难预见,基于RNN 的强化学习算法也会不断出现。本章介绍了RNN 的基础,同时介绍了RNN 的两种常见的结构:LSTM 以及GRU。

第7 章 如何实现CNN—用C 语言实现深度学习

本章结合代码,通过CNN 的C 语言实现力求使读者真正地认识神经网络,主要内容涉及和CNN 相关的基础结构,包括激活函数的实现、池化操作以及全连接网络的实现。此外,本章重点对卷积网络进行了讲解,包括前向传播和反向传播的具体实现。

第8 章 深度强化学习

本章介绍了深度强化学习的理论基础,是本书的理论重点,并结合传统的强化学习,介绍了记忆回放(Memory-Replay)机制以及蒙特卡洛搜索树。此外,对主流的两类深度强化学习算法及其结合进行了详细的理论推导。阅读本章需要一定的数学理论基础。

第9 章 深度强化学习算法框架

本章介绍了当前主流的深度强化学习算法框架,例如深度Q 学习算法、异步深度强化学习算法、异步优越性策略子- 评价算法等。

第10 章 深度强化学习应用实例

本章提供了一些深度强化学习的应用实例,希望通过具体的应用案例让读者了解深度强化学习算法。具体实例涉及计算机游戏、3D 动画仿真以及AlphaGo 技术解密。

本书由浅入深,先理论后操作,讲解全面易懂,尤其适合刚刚入门人工智能领域的新手。

适合阅读本书的读者

● 在校计算机专业本科生;

● 人工智能领域研究生;

● 人工智能领域研究员;

● 研究机器学习算法的相关人员;

● 人工智能领域爱好者。

本书源文件下载

本书提供代码源文件,有需要的读者可以通过扫描下面的二维码获取下载链接。若有关于本书的疑问和建议也可以在公众号留言,我们将竭诚为您服务。



编者


目录

第1章 深度强化学习概览

1.1 什么是深度强化学习?

1.1.1 俯瞰强化学习

1.1.2 来一杯深度学习

1.1.3 Hello,深度强化学习

1.2 深度强化学习的学习策略

1.3 本书的内容概要

参考文献

第2章 强化学习基础

2.1 真相--经典的隐马尔科夫模型(HMM)

2.1.1 HMM引例

2.1.2 模型理解与推导

2.1.3 隐马尔科夫应用举例

2.2 逢考必过—马尔科夫决策过程(MDP)

2.2.1 MDP生活化引例

2.2.2 MDP模型

2.2.3 MDP模型引例

2.2.4 模型理解

2.2.5 探索与利用

2.2.6 值函数和动作值函数

2.2.7 基于动态规划的强化问题求解

2.3 糟糕,考试不给题库—无模型强化学习

2.3.1 蒙特卡洛算法

2.3.2 时序差分算法

2.3.3 异步强化学习算法

2.4 学霸来了--强化学习之模仿学习

2.4.1 模仿学习(Imitation Learning)

2.4.2 逆强化学习

本章总结

参考

第3章 深度学习基础

3.1 深度学习简史

3.1.1 神经网络发展史

3.1.2 深度学习的分类

3.1.3 深度学习的应用

3.1.4 深度学习存在的问题

3.2 深度学习基础概念

3.2.1 深度学习总体感知

3.2.2 神经网络的基本组成

3.2.3 深度学习训练

3.2.4 梯度下降法

3.2.5 反向传播算法(BP)

3.3 数据预处理

3.3.1 主成分分析(PCA)

3.3.2 独立成分分析(ICA)

3.3.3 数据白化处理

3.4 深度学习硬件基础

3.4.1 深度学习硬件基础

3.4.2 GPU简介

3.4.3 CUDA编程

本章总结

参考

第4章 功能神经网络层

4.1 激活函数单元

4.2 池化层Pooling layer

4.3 参数开关Dropout

4.4 批量归一化层(Batch normalization layer)

4.5 全连接层

4.6 卷积神经网络

4.7 全卷积神经网络

4.8 循环(递归)神经网络(RNN)

4.9 深度学习的

本章总结

参考

第5章 卷积神经网络(CNN)

5.1 卷积神经网络 CNN 基础

5.1.1 卷积神经网络的历史

5.1.2 卷积神经网络的核心

5.2 卷积神经网络 CNN 结构

5.2.1 深度卷积神经网络CNN

5.2.2 深度卷积神经网络CNN可视化

5.3 经典卷积神经网络架构分析

5.3.1 一切的开始--LeNet

5.3.2 王者回归--AlexNet

5.3.3 起飞的时候--VGG

5.3.4 致敬经典GoogLeNet

5.3.5 没有最深只有更深--ResNet

5.4 对抗网络

5.4.1 对抗网络(GAN)

5.4.2 WGAN

5.5 RCNN

5.6 CNN的应用实例

本章总结

参考

第6章 循环神经网络(RNN)

6.1 RNN概览

6.2 长期依赖(Long-Term Dependencies)问题

6.3 LSTM 的变体

本章总结

参考

第7章:如何写自己的CNN—C语言实现深度学习

7.1 如何写自己的CMake文件

7.2 如何写自己神经网络

7.2.1 激活函数

7.2.2 池化函数

7.2.3 全连接层

7.3 卷积神经网络

7.3.1 CNN网络的构建

7.3.2 CNN前向传播

7.3.3 CNN的反向传播

7.4 文件解析

本章总结

第8章 深度强化学习

8.1 初识深度强化学习

8.1.1 深度强化学习概览

8.1.2 记忆回放(Memory-Replay)机制

8.1.3 蒙特卡罗搜索树

8.2 深度强化学习(DRL)中的值函数算法

8.2.1 DRL中值函数的作用

8.2.2 DRL中值函数理论推导

8.3 深度强化学习中的策略梯度(Policy Gradient)

8.3.1 策略梯度的作用和优势

8.3.2 策略梯度的理论推导

8.3.3 REINFORCE算法

8.3.4 策略梯度的优化算法

8.3.5 策略子-评判算法(Actor-Critic)

8.4 深度强化学习网络结构

参考

第9章 深度强化学习算法框架

9.1 深度Q学习

9.2 双Q学习

9.3 异步深度强化学习

9.4 异步优越性策略子-评价算法

9.5 DDPG 算法:

9.6 值迭代网络

本章总结

参考

第10章 深度强化学习应用实例

10.1 Flappy Bird 应用

10.2 Play Pong 应用

10.3 深度地形-自适应应用(Deep Terrain-adaptive应用)

10.4 AlphaGo 254

10.4.1 独立算法的研究部分

10.4.2 AlphaGo算法

本章总结

参考

附录: 常用的深度学习框架

F.1. 谷歌TensorFlow

F.1.1 TensorFlow 简介

F.1.2 TensorFlow 基础

F.2 轻量级MXNet

F.2.1 MXnet介绍

F.2.2 MXnet基础

F.3 来至UCLA 的Caffe

F.3.1 Caffe 简介

F3.2 Caffe基础

F.4 悠久的 Theano

F.4.1 Theano简介

F.4.2 Theano基础

F.5 30s 入门的Keras

参考


产品特色