书籍作者:倪好 | ISBN:9787302565963 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:7167 |
创建日期:2021-10-07 | 发布日期:2021-10-07 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书是资深金融数据分析专家多年工作的结晶。书中深入浅出地阐释机器学习的数学基础及其在金融数据分析领域的应用。
全书共分9章。第1章介绍机器学习的发展状况并概述机器学习在金融中的应用。第2章介绍监督学习的通用框架。第3章描述最简单的线性回归模型——普通最小二乘法以及正则化方法——岭回归和套索回归,并讨论线性模型及非线性的回归和分类方法。第4章讨论监督学习中的树模型,包括决策树、随机森林和梯度提升树。第5章重点介绍三种主要的神经网络:人工神经网络、卷积神经网络和循环神经网络。第6章和第7章介绍无监督学习,主要包括聚类分析和主成分分析。第8章重点介绍强化学习在投资组合优化中的应用。第9章以一个流行的数据挑战项目为例,使用前几章介绍的机器学习方法预测金融违约风险,为读者提供解决实际数据问题的经验。
本书内容丰富,理论严谨,案例翔实,不仅包括完整的理论推导,而且囊括可用于实际项目的案例代码,适合高等院校计算机及相关专业的高年级本科生或者研究生阅读,也可以作为机器学习爱好者及金融分析师等的参考用书。
倪好,伦敦大学学院数学系副教授。研究方向包括随机分析、金融数学、机器学习和应用等。希望通过分享个人研究成果与经验心得,为对机器学习感兴趣的读者提供严谨简捷的入门,并且侧重于对计量金融方面的应用。
于光希,伦敦大学学院金融数学硕士,专注机器学习在金融中的应用,现任申万宏源证券研究所量化分析师。
郑劲松,德国杜伊斯堡埃森大学经济学博士,有多年量化风险分析与金融建模相关的海外工作经验,现任华泰证券算法工程师。
董欣,伦敦帝国理工学院金融数学博士,专注金融衍生品做市研究,现任城堡证券研究量化分析师。
前言
关于作者本人
我目前在伦敦大学学院(University College London,UK)任教,担任数学系的副教授,同时我也是阿兰.图灵研究所(the Alan Turing Institute,UK)数据科学与人工智能研究员。我的研究领域是跨学科的,包括随机分析、金融数学和机器学习。现在我的大部分研究工作集中于时间序列数据的分析与挖掘,包括金融数据分析、手写数字识别和视频分类。
我很早便与数学结缘,在东南大学数学系取得本科学位。本科最后一年我在德国乌尔姆大学交流,开始学习金融数学。之后我取得了牛津大学计算金融硕士和数学博士学位。攻读博士学位期间,我曾在保险公司和投行(投资银行)的量化部门实习过。之后我在布朗大学和牛津大学做过四年博士后。在博士后研习期间,我的研究方向逐渐发生了变化。虽然我的工作和理论数学还是有相关的地方,但大方向由理论数学转向了机器学习。博士后出站时我收到了两份投行量化工作邀请,但最终还是选择了学术界,并从2016年开始任教于伦敦大学学院。
从我的个人经历中可以看出,我并不是一个计算机背景出身的典型机器学习研究人员。因此,我一直希望能有一个机会和更多刚刚接触机器学习的人分享我在转方向过程中的心得,帮助他们少走一些弯路。
关于本书
我在2017年第一次产生了这样的想法:组织一系列关于机器学习的活动,让更多的人,尤其是具有数理背景的人了解机器学习。我自己有很多朋友和同学活跃在业界,他们中的大部分和我有类似的教育背景。在日常交流中,他们对我现在做的研究,尤其对机器学习,表现出了极大的兴趣。但因为工作繁忙,他们自学的时间成本很高。因此我希望组织一系列活动帮助他们快速了解机器学习的理论框架,同时定期讨论金融数学当前的热点问题,以及机器学习在金融中的应用。2018年5月,在朋友的帮助下,我组织了第一阶段的六次活动,主要内容包括机器学习简介、监督学习、编程展示和金融案例研究。
在这些活动中,我收到了很多宝贵的意见和鼓励。这也使我想更进一步,将这些活动材料写成书出版,帮助更多对机器学习和量化金融感兴趣的读者快速入门。机器学习和金融数学都不是遥不可及的名词,我希望本书可以给读者一个愉快的阅读体验。本书不仅会提供机器学习的理论知识,还会结合实际的金融应用案例,帮助读者快速入门机器学习。
关于机器学习
毫无疑问,机器学习是当今学界和业界的热点。但机器学习不是万能的,无法做到把数据放进算法就可以解决问题。虽然现在人工智能已经成功应用于很多方面,但离真正的智能还有很远的距离。本书旨在揭开机器学习神秘的面纱,算法背后是有基本的数学和统计理论支撑的,任何一个具有扎实数理功底的高年级本科生都可以快速掌握。
金融数学在近十年发生了很大的变化。传统的金融数学以随机计算为基础,以定价模型为核心。投行量化分析师的工作就是用这些随机模型做衍生品定价。而在基金公司,量化分析师则使用统计方法系统性地寻找交易信号,制定有效的交易策略。但是近几年,出现了越来越多的非结构化数据。无论是买方还是卖方,都投入了大量的资金,探索使用机器学习方法挖掘更多有用的市场信息,以获取超额回报。例如,由Man Group和牛津大学共同建立的Oxford-Man量化金融研究院,在2015年成为牛津大学信息工程系的一部分,与牛津大学的机器学习组有紧密的联系。
未来的世界,越来越需要复合型人才。对于有志于从事量化工作的在校学生,需要适应大环境对人才技术要求的改变。研究机器学习或从事相关工作,通常需要扎实的数理功底和编程能力,并且对实际问题有一定的了解。
目前大多数机器学习研究人员更多关注算法的应用,而对算法的创新或者数学原理关注较少。一些成熟的算法已经被用于解决实际问题,例如使用卷积神经网络进行图像识别。这本身无可厚非,毕竟机器学习是一门应用型学科。从短期数值结果的提高来看,系统性调参可能比理解算法更有效。但我认为,从长期来看,即使只研究机器学习的应用,也应该对算法原理有较好的理解。同样,做算法理论研究的学者也应该尝试具体的应用。理论和应用是相辅相成的,了解算法原理,有助于高效地调参和修正模型,而实际应用会帮助做理论的学者了解什么是重要的问题。
关于未来
对于一个人的成长来说,保持好奇心和持续学习是最重要的。我的教育背景是数学出身,在攻读博士学位的三年间,我一直认为自己只喜欢数学——因为数学美丽、优雅而复杂。同时我片面地认为编程和应用很容易。而在我做了越来越多交叉学科的研究后,才发现以前的自己是多么无知。所以对于不了解的东西,不要轻言喜欢或不喜欢,很多时候不喜欢可能只是畏难。对于未知的领域,保持长久的好奇心,有助于我们拓宽眼界和提升能力。
最后,我想引用一句自己最喜欢的罗素的话作为结束,与大家共勉:
“Three passions, simple but overwhelmingly strong, have governed my life: the longing for love, the search for knowledge, and unbearable pity for the su.ering of mankind.”
倪好
目录
第1章 概述.............................1
1.1 大数据时代......................1
1.2 机器学习.........................2
1.3 量化金融.........................5
1.3.1 金融数据的挑战.............5
1.3.2 机器学习的金融应用.........5
1.3.3 量化金融的未来.............6
1.4 新一代宽客......................6
1.5 学习路线图......................7
1.6 更多资源.........................8
1.6.1 Python库..................8
1.6.2 图书与其他在线资源.........9
1.7 本书之外........................10
第2章 监督学习.......................12
2.1 回归任务框架...................12
2.1.1 模型.......................14
2.1.2 损失函数..................15
2.1.3 优化方法..................16
2.1.4 预测和验证................25
2.2 从回归到分类...................28
2.2.1 分类变量..................28
2.2.2 模型.......................28
2.2.3 损失函数和优化方法........29
2.2.4 预测和验证................30
2.2.5 数值实验..................32
2.3 集成方法........................35
2.3.1 集成原理..................36
2.3.2 同质集成法................37
2.3.3 异质集成法................41
2.4 练习.............................42
第3章 线性回归和正则化.............43
3.1 普通最小二乘法................43
3.1.1 公式推导..................43
3.1.2 优缺点....................45
3.2 正则化线性模型................46
3.2.1 正则化....................46
3.2.2 岭回归....................47
3.2.3 套索回归..................48
3.2.4 数值实验..................50
3.2.5 两种正则化方法的联系.....52
3.3 线性模型延伸:基扩展.........55
3.4 练习.............................56
第4章 树模型..........................57
4.1 原理简介........................57
4.2 决策树..........................58
4.2.1 树结构....................58
4.2.2 模型.......................60
4.2.3 回归树....................61
4.2.4 剪枝.......................65
4.2.5 特征重要性................65
4.3 随机森林........................66
4.4 梯度提升树.....................67
4.5 数值实验:Iris数据集..........69
4.5.1 决策树的实现..............69
4.5.2 随机森林的实现............71
4.5.3 梯度提升树的实现..........72
4.5.4 三种树模型的比较..........72
4.6 练习.............................74
第5章 神经网络.......................75
5.1 基本概念........................75
5.1.1 神经元....................75
5.1.2 层.........................77
5.1.3 激活函数..................77
5.1.4 张量.......................80
5.2 人工神经网络...................81
5.2.1 浅层神经网络..............81
5.2.2 多层神经网络..............84
5.2.3 优化方法..................86
5.2.4 数值实验:MNIST数字识别.......................91
5.3 卷积神经网络...................95
5.3.1 原理简介..................95
5.3.2 图像数据..................96
5.3.3 模型.......................98
5.3.4 优化方法.................107
5.3.5 数值实验:Cifar10图像识别.....................107
5.4 循环神经网络..................115
5.4.1 原理简介.................115
5.4.2 序列数据.................116
5.4.3 模型.....................117
5.4.4 优化方法:BPTT.........118
5.4.5 循环神经网络的缺点......121
5.4.6 LSTM和GRU............124
5.4.7 数值实验:高频金融数据预测.....................125
5.5 练习...........................135
第6章 聚类分析......................136
6.1 原理简介......................136
6.2 聚类分析框架..................136
6.2.1 数据集...................137
6.2.2 相似性...................138
6.2.3 聚类方法.................138
6.2.4 检验指标.................139
6.3 K均值法......................140
6.3.1 原理简介.................140
6.3.2 参数选择.................141
6.3.3 K均值法的实现..........145
6.4 层次聚类......................146
6.4.1 链接方式.................146
6.4.2 树状图...................147
6.4.3 层次聚类的实现...........149
6.5 密度聚类:DBSCAN...........149
6.5.1 原理简介.................149
6.5.2 参数选择.................151
6.6 分布聚类......................152
6.6.1 原理简介.................152
6.6.2 最大期望算法.............152
6.7 数值实验:聚类分析...........155
6.8 练习...........................155
第7章 主成分分析....................156
7.1 原理简介......................156
7.1.1 线性变换.................156
7.1.2 奇异值分解...............157
7.1.3 X和Z的方差............158
7.1.4 降维.....................159
7.1.5 实际问题.................159
7.1.6 主成分分析的实现.........160
7.2 数值实验:期限结构分析......161
7.2.1 利率期限结构.............161
7.2.2 数据和观察值.............163
7.2.3 主成分分析与期限结构....164
7.2.4 主成分分析与对冲.........168
7.2.5 主成分分析与聚类分析....171
7.3 练习...........................172
第8章 强化学习......................173
8.1 原理简介......................173
8.2 循环强化学习..................175
8.3 从RNN到RRL...............177
8.4 数值实验:算法交易...........182
8.5 练习...........................187
第9章 金融案例研究:违约风险预测...........................188
9.1 问题设定与数据...............189
9.2 探索性数据分析...............191
9.2.1 不平衡数据...............191
9.2.2 缺失值...................192
9.2.3 特征分组.................192
9.3 构建第一个分类器.............193
9.3.1 数据预处理...............193
9.3.2 特征工程.................193
9.3.3 训练模型.................195
9.3.4 折外预测.................196
9.3.5 参数调整.................199
9.4 模型集成......................200
9.5 提交结果......................202
9.6 练习...........................202
9.6.1 CFM挑战:波动率预测................202
9.6.2 Kaggle其他金融应用竞赛.....................204
参考文献................................205
很好。。。。。。。。
2021-02-02 19:04:28
大赞,非常好的书,对我非常有帮助,强烈推荐。
2021-02-04 23:18:39
量化的书不多且本书跟进了最新的例如强化学习策略值得推荐。书中策略也很多案例分享也很多。作者是伦敦大学学院的老师经验丰富。
2021-01-15 12:32:14