书籍作者:谢文杰 | ISBN:9787302641063 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:1005 |
创建日期:2024-04-16 | 发布日期:2024-04-16 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
深度强化学习是人工智能和机器学习的重要分支领域,有着广泛应用,如AlphaGo和ChatGPT。本书作为该领域的入门教材,在内容上尽可能覆盖深度强化学习的基础知识和经典算法。全书共10章,大致分为4部分:第1部分(第1~2章)介绍深度强化学习背景(智能决策、人工智能和机器学习);第2部分(第3~4章)介绍深度强化学习基础知识(深度学习和强化学习);第3部分(第5~9章)介绍深度强化学习经典算法(DQN、AC、DDPG等);第4部分(第10章)为总结和展望。每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步深入探索。
本书可作为高等院校计算机、智能金融及相关专业的本科生或研究生教材,也可供对深度强化学习感兴趣的研究人员和工程技术人员阅读参考。
谢文杰,男,湖南浏阳人,应用数学博士,上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员,主要研究复杂金融网络、机器学习、深度强化学习、金融风险管理等。获2016年度上海市自然科学奖二等奖(4/5),主持完成4项国家或省部级科研项目。
周炜星,男,浙江诸暨人。教育部青年长江学者、上海领军人才、教育部新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职于华东理工大学商学院、数学学院,二级教授,博士生导师,金融物理研究中心主任。现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长,中国系统工程学会理事、金融系统工程专业委员会副主任,管理科学与工程学会理事、金融计量与风险管理分会副理事长,中国工业统计教学研究会金融科技与大数据技术分会副理事长,中国数量经济学会经济复杂性专业委员会副理事长,中国复杂性科学学会副理事长。主要从事金融物理学、经济物理学和社会经济系统复杂性研究,以及相关领域大数据分析。
深度强化学习——算法原理与金融实践入门,将算法原理与金融实践结合,让读者深入理解深度强化学习的原理
深度强化学习——
算法原理与金融实践入门
谢文杰周炜星编著
清华大学出版社
北 京
内容简介
深度强化学习是人工智能和机器学习的重要分支领域,有着广泛应用,如 AlphaGo和 ChatGPT。本书作为该领域的入门教材,在内容上尽可能覆盖深度强化学习的基础知识和经典算法。全书共 10章,大致分为 4部分:第 1部分(第 1、2章)介绍深度强化学习背景(智能决策、人工智能与机器学习);第 2部分(第 3、4章)介绍深度强化学习基础知识(深度学习和强化学习);第 3部分(第 5~9章)介绍深度强化学习经典算法( DQN、AC、DDPG等);第 4部分(第 10章)为总结和展望。每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步深入探索。
本书可作为高等院校计算机、智能金融及相关专业的本科生或研究生教材,也可供对深度强化学习感兴趣的研究人员和工程技术人员阅读参考。
本书封面贴有清华大学出版社防伪标签。无标签者不得销售。版权所有,侵权必究。举报:010-62782989,[email protected]。
图书在版编目(CIP)数据
深度强化学习: 算法原理与金融实践入门 / 谢文杰, 周炜星编著. —北京:清华大学出版社,2023.9 ISBN 978-7-302-64106-3
Ⅰ.①深… Ⅱ.①谢… ②周… Ⅲ.①人工智能-研究②机器学习-研究 Ⅳ. ①TP18
中国国家版本馆 CIP数据核字(2023)第131067号
责任编辑:杜杨封面设计:杨玉兰 责任校对:徐俊伟责任印制:宋林
出版发行:清华大学出版社网址:http://www.tup.com.cn,http://www.wqbook.com 地址:北京清华大学学研大厦 A座邮编:100084 社总机:010-83470000邮购: 010-62786544 投稿与读者服务:010-62776969,[email protected] 质量反馈:010-62772015,[email protected] 课件下载: http://www.tup.com.cn,010-83470236
印装者:三河市东方印刷有限公司经销:全国新华书店开本:185mm×260mm印张:16.25字数:377千字版次:2023年9月第 1版印次:2023年 9月第1次印刷定价:69.00元
产品编号:101310-01
前言
2016年,谷歌的 DeepMind团队研究人员在顶级期刊 Nature推出 AlphaGo,震撼了全世界。AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军( 2016年李世石)的人工智能程序, AlphaGo使强化学习重新焕发出蓬勃生机。结合深度学习,深度强化学习在各大计算机科学顶级会议和科技公司的研究成果频频给人们带来激动人心的应用,让人们对通用人工智能的未来极为憧憬。深度强化学习融合深度学习的感知智能和强化学习的决策智能,在复杂环境决策模型中具有显著优势。同时,也有很多人对深度强化学习的未来提出质疑。伴随着质疑和赞美,深度强化学习领域持续改进和迭代,将走得更远,走得更长,为人类社会带来更多有益的成果。
人类不满足于深度强化学习在棋类游戏或者特定领域的进步,希望深度强化学习在人类社会中也能为社会经济体系统风险(如金融危机、经济危机、社会冲突等)的识别、度量、预警、防控和处置提供新的思路和方案。围棋策略空间的复杂度已经超出了一般人的决策能力范围,但相较于社会经济系统,围棋博弈的状态空间毕竟还是可数的且有限的,而社会系统、金融系统等都是无穷维数的复杂巨系统,能够在人类社会经济系统中训练智能体完成一些任务,具有巨大的挑战性,其难度远远大于 AlphaGo的设计和工程实践。
2008年,肇始于美国次贷危机的全球金融海啸促使科学家重新审视主流经济学和金融学理论。2008年 10月,Bouchaud在 Nature杂志上撰文指出,传统理论无法预见金融风暴的发生,需要在理论和方法上进行根本性的科学革命,新的理论需要从实际数据出发来探寻市场规律。金融风险的度量、表示、传染、防控、预警、预测等问题,可以通过合适的建模转换成深度强化学习能够解决的问题。危机发生后的应急处置和风险处置,也能够融合深度强化学习算法进行深度分析和讨论。同时,粮食和能源是当今世界金融经济系统中极为重要的交易对象,是各个国家的重要战略资源,是经济发展的重要基础,还是极为重要的军事、外交资源。全球粮食市场一直处于波动状态,经历了数次巨变,粮食价格大涨大落已成为常态。我们应该如何防御和应对这些难题?这些极具挑战的难题都可以建模成深度强化学习能够探索的问题,也需要深入地学习和探究。
深度强化学习领域的算法,浩如烟海,令人眼花缭乱。对于初学者而言,如何在有限的时间内掌握这一门复杂的学科及其问题分析方法,如何将自己遇到的科学问题和现实问题转换成深度强化学习能够解决的问题,是一个非常值得讨论和尝试的课题。
本书旨在提供深度强化学习原理和算法入门。不同于侧重代码实现和应用的书籍,本书期望能够让非计算机和数理相关专业的学生也可以从算法原理入门,将开源社区中优秀的深度强化学习算法代码库,结合自身领域内的特殊问题,构建自己的深度强化学习模型,解决一些棘手的经典或领域内传统算法不能解决的问题。在原理学习和编程实践的过程中,本书也提供了开源的示例代码,不需要过多的编程工作量,也能够运用强大的深度强化学习算法解决特定的专业问题。
本书内容安排
第 1章介绍深度强化学习应用的潜在领域背景和需要解决的问题,包括复杂性科学和复杂系统的相关知识以及人工智能应用的背景。从复杂金融系统开始,讨论复杂金融环境下的新金融、互联网金融、计算金融、科技金融等。
第 2章将从人工智能的历史讲起,简要介绍机器学习、深度学习、强化学习以及深度强化学习的基本发展情况,使读者在整体上对深度强化学习、机器学习、人工智能有大致的了解,为后续的深入分析和研究提供基础。另外,本章还简要介绍了基本的机器学习范畴知识,包括监督学习、无监督学习和强化学习,以及优化算法、激活函数、损失函数等基本概念和原理。深度强化学习是一项复杂的数据分析方法,扎实的人工智能和机器学习基础能使学习者更快地入门这一蓬勃发展的领域。
第 3章简要介绍深度学习的基础模型,包括深度神经网络( Deep Neural Networks)、深度卷积神经网络( Convolutional Neural Networks)、深度循环神经网络( Recurrent Neural Networks)、深度图神经网络( Graph Neural Networks)。深度学习模型是深度强化学习模型框架中一个关键的模块,也是强化学习再次蓬勃发展的核心模块。深入理解深度学习模型,能够为深度强化学习模型的改进和策略优化提供强大的技术支持。该模块犹如汽车的发动机,通过更换发动机模块,能够得到汽车的不同性能。
第 4章介绍经典的强化学习算法。强化学习是深度强化学习的算法基础,是入门深度强化学习的基础,介绍的算法包括时序差分算法、 SARSA算法和 Q-learning算法。理解了经典的强化学习算法,才能理解复杂的深度强化学习算法模型,深度强化学习算法在经典的强化学习模型基础上进行了大量的改进和性能提升。对强化学习理论和算法的深入理解,能够为智能交易系统的构建提供理论和技术支持。深度强化学习已经发展了非常多的高效算法,在不同领域取得了非常多的有效落地应用,但是基本都没有脱离强化学习理论中的在线学习、离线学习、基于模型的学习、模型无关学习、值学习和策略学习等框架。
第 5章介绍 Deep Q Network(DQN)。DQN基于 Q-learning演化而来,Q-learning作为强化学习的核心算法,有着悠久的历史,在强化学习发展过程中发挥了重要的作用。 Q-learning算法的核心是学习状态 -动作值函数,基于状态 -动作值函数在给定的状态下选择最优动作,做出最优决策,最大化累积奖励值。
第 6章介绍随机性策略梯度算法,如置信阈策略优化 (Trust Region Policy Optimiza-tion,TRPO)和近端策略优化 (Proximal Policy Optimization,PPO)等。在连续高维空间中动作数量是无穷的,对于连续函数找最大值是一个需要耗费额外资源的问题,因此 DQN对于连续型动作空间问题表现出了一定的限制,在动作空间为离散情况时 DQN比较有效,拓展的 DQN也能够对连续问题进行求解。随机性策略梯度算法直接学习策略函数,输出动作的概率值,保证了动作的随机性和多样性,在一些复杂环境中具有较好表现。
· II ·
前言
第 7章介绍确定性策略梯度算法,如深度确定性策略梯度( Deep Deterministic Policy Gradient, DDPG)方法和双延迟 DDPG(Twin Delayed DDPG, TD3)等。为了能够更好地处理连续动作空间的最优化策略问题,确定性策略梯度算法的策略函数直接输出动作值,通过确定性策略梯度定理更新和学习策略函数。
第 8章介绍 Actor-Critic算法,也就是“行动者 -评论家算法”。行动者对应能够产生动作的策略函数,评论家对应能够评估动作好坏的值函数。深度强化学习的终极目标是通过学习获得一个策略函数,在与环境交互过程中做出最优化动作,获得最大的累计收益。本章将结合值函数和策略梯度,学习最优化策略函数。 Actor-Critic算法提供了一个优秀的算法框架,DDPG等算法也同样包含了 Actor-Critic算法框架。
第 9章介绍深度强化学习与规划,主要涉及基于模型的深度强化学习算法。规划是指智能体并不实际与环境进行交互,而是通过构建一个环境模型,产生模拟数据,基于模拟数据完成对值函数和策略函数的更新和优化。在规划过程中,智能体必须对环境模型拥有完全的信息,能够完成虚拟的交互。例如围棋博弈中,对弈者不需要真正的落子也能够在脑海中模拟落子后对方的行动以及自己可采取的下一步行动。
第 10章介绍深度强化学习算法的背景、历史、分类、挑战、前沿和其他应用实践,比如如何玩 Atari视频游戏以及如何构建深度强化学习模型进行投资决策。
本书实践内容安排
本书对案例中所涉及的代码都提供了源代码和注释,希望读者能够在学习深度强化学习原理和算法过程中,通过一些简单的入门级的应用,提升对深度强化学习算法的理解。
第 1章实践内容为熟悉复杂金融系统和金融科技背景知识,为后续智能交易系统构建提供基础知识;熟悉金融市场数据获取和数据预处理,能够获得金融市场决策变量。第 2章实践内容为经典机器学习算法应用于时间序列和复杂网络分析之中,挖掘对应复杂系统演化规律。第 3章实践内容为熟悉深度学习计算实验平台,了解深度学习相关经典模型的构建和训练过程,构建基础的深度学习模型,包括深度神经网络、深度卷积神经网络和深度循环神经网络,为深度强化学习打基础。第 4章实践内容为构建金融市场马尔可夫决策环境,分析金融市场状态转换、状态特征提取、动作设定、回报函数等模块。第 5~8章实践内容为基于前几章中的深度神经网络模型和金融市场环境模型,运用 DQN(第 5章)、 PPO(第 6章)、DDPG(第 7章)以及 A2C(第 8章)训练智能体进行智能投资决策。第 9章实践内容为了解一些深度强化学习开源程序库。
本书适合人群
*
金融学系本科生
*
金融专业研究生
*
计算机系本科生
· III ·
*“计算机 +金融学”双学位本科生
关于作者
谢文杰,男,湖南浏阳人,应用数学博士,上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员,主要研究复杂金融网络、机器学习、深度强化学习、金融风险管理等。获 2016年度上海市自然科学奖二等奖( 4/5),主持完成 4项国家或省部级科研项目。
周炜星,男,浙江诸暨人。教育部青年长江学者、上海领军人才、教育部新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职华东理工大学商学院、数学学院,二级教授,博士生导师,金融物理研究中心主任。现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长,中国系统工程学会理事、金融系统工程专业委员会副主任,管理科学与工程学会理事、金融计量与风险管理分会副理事长,中国工业统计教学研究会金融科技与大数据技术分会副理事长,中国数量经济学会经济复杂性专业委员会副理事长,中国复杂性科学学会副理事长。现担任《计量经济学报》、Journal of International Financial Markets, Institutions & Money、Financial Innovation、Fractals、Frontiers in Physics、Fluctuation and Noise Letters、Entropy、Journal of Network Theory in Finance、 Reports in Advances of Physical Sciences等国内外期刊的编委。主要从事金融物理学、经济物理学和社会经济系统复杂性研究,以及相关领域大数据分析。先后主持包括 4项国家自然科学基金在内的 10余项国家级和省部级项目。出版学术专著《金融物理学导论》 1部,发表 SCI/SSCI收录论文 200余篇,他引 7000余次,11篇论文入选 ESI高被引论文,H指数 46,连续 8年进入爱思唯尔发布的中国高被引学者(数学)榜单。论文主要发表在 JIFMIM、JEBO和 QF等主流金融经济期刊及 PNAS、Rep. Prog. Phys.等重要交叉学科期刊上。获 2016年度上海市自然科学奖二等奖(1/5)。
致谢
本书模板来源于 ElegantBook,感谢制作者的辛苦付出!感谢 Open AI Baselines社区,感谢 Stable-Baselines社区。感谢清华大学出版社编辑申美莹老师和相关工作人员。
本书参考文献与参考资料可扫描下方二维码获取。
谢文杰周炜星
2023年 8月
品质好!!!
2023-09-03 11:18:42
深度强化学习--算法原理与金融实践入门 引言 深度强化学习(Deep Reinforcement Learning, DRL)是人工智能领域中备受瞩目的分支之一,它结合了深度学习和强化学习的技术,旨在使计算机系统能够像人类一样学会从环境中获取知识和经验,并做出智能决策。在金融领域,深度强化学习已经开始展现出巨大的潜力,被应用于股票交易、风险管理、投资组合优化等多个领域。本文将介绍深度强化学习的算法原理,并探讨其在金融实践中的应用入门。 第一部分:深度强化学习的基本原理 深度强化学习是一种通过智能体与环境的交互来学习如何做出决策的方法。以下是深度强化学习的一些基本原理: 1. 强化学习:强化学习是一种机器学习范式,其核心思想是智能体通过与环境的互动来学习最佳的行为策略,以最大化累积奖励信号。在金融领域,这可以被理解为制定交易策略以最大化投资回报。 2. 基本元素:强化学习包括环境、智能体、状态、动作和奖励等基本元素。环境是智能体操作的对象,状态是描述环境的信息,动作是智能体可执行的操作,奖励是一个反馈信号,表示智能体的行为质量。 3. 马尔可夫决策过程(MDP):MDP是强化学习问题的数学形式化描述,它满足马尔可夫性质,即当前状态的未来只与当前状态和当前动作相关。MDP包括状态空间、动作空间、状态转移概率和奖励函数等组成部分。 4. 强化学习算法:深度强化学习采用深度神经网络来近似值函数或策略函数,以帮助智能体做出决策。常见的算法包括深度Q网络(DQN)、策略梯度方法、深度确定性策略梯度(DDPG)等。 第二部分:深度强化学习在金融领域的应用 深度强化学习已经在金融领域取得了显著的进展,以下是一些金融实践中的应用案例: 1. 股票交易:深度强化学习可用于制定股票交易策略。智能体可以学习如何根据市场数据和历史价格走势来做出买卖决策,以最大化投资回报。 2. 风险管理:金融机构可以利用深度强化学习来改善风险管理模型。智能体可以学习如何优化投资组合,以降低风险并实现更好的资产配置。 3. 交易执行:在大规模的交易环境中,深度强化学习可以帮助机构优化交易执行策略,以获得更好的交易价格和成交量。 4. 信用风险评估:深度强化学习可以用于改进信用风险评估模型,通过分析客户的信用历史和行为来预测违约风险。 5. 高频交易:在高频交易领域,深度强化学习可以用于开发快速响应市场变化的交易策略,以获得微小但积累起来显著的利润。 结论 深度强化学习作为强化学习的演进形式,在金融领域呈现出巨大的潜力。通过结合深度学习和强化学习技术,金融从业者可以开发更智能的决策支持系统,用于股票交易、风险管理、信用评估等各个方面。然而,深度强化学习在金融领域的应用也面临着挑战,包括数据稀缺性、模型解释性和监管合规性等问题。因此,深度强化学习的应用需要谨慎考虑,并与领域专家密切合作,以确保其有效性和可靠性。深度强化学习将继续在金融领域发挥重要作用,并为金融业带来更多创新和效率提升。
2023-09-04 10:12:44