书籍作者:梅子行 | ISBN:9787111653752 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:9452 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书基于Python讲解了信用风险管理和评分卡建模,用漫画的风格,从风险业务、统计分析方法、机器学习模型3个维度展开,详细讲解了信用风险量化相关的数据分析与建模手段,并提供大量的应用实例。作者在多加知名金融公司从事算法研究多年,经验丰富,本书得到了学术界和企业界多位金融风险管理专家的高度评价。
全书一共9章,首先介绍了信用风险量化的基础,然后依次讲解了信用评分模型开发过程中的数据处理、用户分群、变量处理、变量衍生、变量筛选、模型训练、拒绝推断、模型校准、决策应用、模型监控、模型重构与迭代、模型报告撰写等内容。
所有章节都由问题、算法、案例三部分组成,针对性和实战性都非常强。
梅子行
资深风控技术专家、AI技术专家和算法专家,历任多家知名金融科技公司的算法研究员、数据挖掘工程师。师承Experian、Discover等企业的资深风控专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。
著有畅销书《智能风控:原理、算法与工程实践》,是本书的姊妹篇。
公众号与知乎专栏:“大数据风控与机器学习”。
荣获DD第六届影响力作家评选“科技新星作家”奖。
毛鑫宇
资深品牌视觉设计师、插画设计师。曾任职国内知名文旅公司品牌设计师,设计打造知名文化旅游目的地及品牌设计案例,作为插画设计师完成《智能风控:原理、算法与工程实践》一书。擅长品牌视觉设计、IP形象设计、插画设计,致力于用设计创造价值,让设计在跨领域合作中碰撞出更多的可能性。站酷设计师主页为“白鸽巡游记”。
(1)作者是风控、AI、算法领域的资深专家,曾在多家知名金融科技公司从事基于机器学习的风控算法优化工作,经验十分丰富。
(2)从、从信贷风险业务、数据分析与挖掘方法、机器学习模型3个维度全面展开,详解信用风险量化的数据分析与建模。
(3)基于Python新版本撰写,每个章节都包含问题、案例、算法3个部分,实操性强。
(4)来自西南财经大学、京东等学术界和企业界的多位转件高度评价。
(5)全出采用“漫画+公式+代码”的形式,既有趣、易读,又精炼和实操。
为何写作本书
互联网金融与金融科技是数据从业者较为关注的方向之一。风险控制是金融的核心。信贷场景下的风险,很大程度上取决于贷款人的信用风险。因此,如何对贷款用户的信用风险进行合理度量,是信贷平台关注的首要问题。
信贷风控的建模方法由来已久,笔者在另一本著作《智能风控:原理、算法与工程实践》中重点介绍了互联网金融场景下机器学习在金融科技中的应用方法与技术实现。市面上大多数信用评分建模的指导书籍都是基于SAS开发或不涉及工程实现的。因此,为推广传统信用评分方法,我们决定撰写本书。
本书完整地介绍了如何基于Python语言从0到1建立信用评分模型,并系统介绍了建立模型之后,如何通过拒绝推断及校准来修正模型与真实场景的偏差。此外,本书还介绍了如何上线部署,以及后续的监控与迭代中的注意事项。希望读者阅读本书后,可以学习到规范、完整的评分卡建模体系,可以使用Python独立地建立标准评分卡模型,并通过模型与策略相组合的方法实现对贷款用户的信用管理。
本书主要内容
第1章主要介绍了信用管理的基础知识。风控场景对业务知识的储备有较高要求,而市面上也缺少相关名词的规范化材料,因此本章对相关术语进行了解释,并给出了统一的定义。此外,本章还详细地介绍了现阶段企业的风险控制架构。了解整个风控框架,有助于读者理解场景中的具体问题的成因,从而精准定义问题,理解每一项技术的原理。
第2章主要介绍评分卡的相关概念,规范了评分卡模型的建模流程。从适用客群和用途两个角度揭示了从业者定义评分卡的思路,并且对整个建模流程中最重要的步骤——模型设计,进行了详细的梳理。此外,本章还对常用于评分卡建模的数据进行了解读。
第3章主要讲解了评分卡建模中常用的机器学习算法。从机器学习基础出发,由简单的线性回归,逐步进阶到具有良好解释性的逻辑回归模型。除直接用于评分卡建模的逻辑回归模型外,本章还介绍了几种常用的辅助建模模型。最后,还介绍了一些模型之间相互取长补短的合并方法,它们在实践和数据挖掘竞赛中也有较好的效果。
第4章主要介绍了几种常用的用户分群方法,同时系统地介绍了决策树模型和高斯混合聚类模型的原理,并给出了一种基于决策树模型和卡方分箱实现自动生成策略组合的分析方法。虽然用户分群并非评分卡建模的必备流程,但在大多数情况下,它可以为业务带来实际收益。
第5章主要介绍了探索性数据分析、特征衍生、特征变换的基本方法。由于评分卡中常用的广义线性模型只使用了特征的简单加权求和信息,缺乏对特征的深度挖掘能力,因此评分卡模型对人工特征工程的要求远高于其他场景。这一章介绍的特征衍生与特征变换操作是评分卡建模过程中非常重要的环节,该过程耗费的时间通常会占整个开发流程的60%~70%。
第6章主要介绍了特征筛选和模型训练方法。评分卡模型对稳定性的要求通常要高于准确性,因此需要对建模使用的特征进行精细化调优与筛选。特征变换调优过程在第5章中有相关介绍,特征筛选方法则主要集中在第6章。这一章的末尾为读者展示了一个建立评分卡模型的案例。希望读者可以通过该案例理解前6章所介绍的技术是如何应用的。
第7章主要介绍了如何对建立好的评分卡模型进行拒绝推断。信用评分模型本身是一种拥有拒绝属性的模型,幸存者偏差问题会导致每次迭代的模型逐渐偏离真实环境下的数据分布,因此需要通过数据验证、标签分裂、数据推断等方法对现有模型进行修正。
第8章主要介绍了评分卡模型建立之后的应用逻辑和校准方法。模型只是一种嵌入在策略体系中的技术手段,其本质是为策略服务的。在实际应用中,模型分数也常常作为一条单独的规则进行配置。由于一些难以避免的原因,评分卡模型通常需要进行校准,因此这一章对常用的校准方法及其使用场景进行了梳理。
第9章主要介绍了模型开发后的记录工作。由于在实际工作中常常需要多人进行交互,且经常需要回溯很久之前开发过的模型详情,因此保证每一个模型都拥有详细的记录是非常重要的。这一章给出了一个完整的评分卡模型开发文档,以便于读者参考,从而完善现有的模型记录文档。
本书内容特色
与市面上其他建模或机器学习相关的技术书籍相比,本书主要使用Python语言编写,详细介绍了传统信用管理中所涉及的基础知识、技术与工程实现。从统计学、机器学习的角度出发,系统、全面地介绍了风险数据分析中的基础概念与建模技术。本书作为“智能风控”系列的第二本书,对《智能风控:原理、算法与工程实践》一书的基础内容进行了补充。读者选择本书为入门读物,将《智能风控:原理、算法与工程实践》一书作为进阶读物,则可以由浅入深地掌握信贷领域的分析建模技术。
此外,市面上类似的介绍数据建模、算法理论的书很容易陷入平铺直叙的窘境,条理性和严谨性有余而生动性不足,特别是对于广大初学者而言,一本容易阅读的书更为有价值。因此,笔者特邀请知名插画师毛鑫宇为本书手绘漫画与插图,使本书内容表达形式生动、有趣,贴近生活,希望读者在阅读本书的过程中不会感到枯燥乏味。
本书读者对象
本书主要面向希望从事风险控制工作的分析师、建模师、算法工程师,也适合有一定统计基础的在校学生和对使用Python实现自动化信用管理感兴趣的读者。
资源和勘误
本书力求完美,但由于作者水平有限,错误和疏漏之处在所难免。在此,诚恳地期望得到各领域的专家和广大读者的批评与指正。
获取更多相关资料以及提出反馈意见,请关注公众号“大数据风控与机器学习”,后台添加作者微信,加入读者交流群,与更多从业者一起共同学习。书中相关代码可从“华章计算机”公众号获取,回复“智能风控”即可。
致谢
首先,我必须要感谢本书的另外一位作者,同时也是本书封面、插画设计者——毛鑫宇老师。毛老师是我十多年的好朋友,也是一位非常谦虚、低调、有才华的设计师。在过去的一年里,他在完美地完成本职工作的同时,陪着我一同创作了“智能风控”系列书,并在我遇到困难、多次想要放弃的时候,坚定地站在了我的身后。毫不夸张地说,这本书至少有一半功劳属于毛老师。毛老师在百般推辞后才接受在本书封面署名。
其次,我要感谢李志勇教授、黄颖(知乎ID:黄姐姐Hjj)、赵越(知乎ID:微调)、冯海杰(知乎ID:求是汪在路上)、梁辰龙(公众号/知乎 “金科应用研院”负责人)等数十位好友在日常交流和工作中对本人的指导。上述各位的书籍、专栏、公众号为包括我在内的广大风控从业者提供了极大的帮助,同时也是许多从业者入门与进阶的指南。本书对各位专家的作品也有所借鉴,在此感谢亦师亦友的各位对本书的大力支持。
感谢toad库开发者、前厚本金融数科团队的周伟鹏、周夕钰、董少乾等多位好友。他们开发的toad库稳健、快速、功能强大,几乎囊括了评分卡开发应用过程中所需的全部功能,为本书的写作带来了极大便利。相信在未来的发展与优化中,toad库会成为广大风控从业者必备的开发工具。
感谢机械工业出版社的杨福川老师和栾传龙老师。两位老师为本书花费了大量的个人时间,并在本书的创作过程中提出了宝贵的修改建议。
特别感谢林超颖、陈国栋、张斌斌等领导、同事的支持和理解。满帮集团是一家学习氛围非常浓厚的公司,我在满帮集团工作的日子非常快乐。此外,还要感谢因篇幅限制而没有提及名字的各位同事,非常感谢各位对我工作上的指导,以及思想和生活上的帮助。
最后感谢购买本书的读者,希望本书能为您带来一些收获。
梅子行
2020年3月
推荐序
前言
第1章 信用管理基础 /1
1.1 信用与管理 /2
1.2 风控术语解读 /3
1.2.1 信贷基础指标 /4
1.2.2 信贷风险指标 /5
1.3 企业信贷风控架构 /7
1.4 本章小结 /10
第2章 评分卡 /11
2.1 评分卡概念 /12
2.1.1 适用客群 /13
2.1.2 用途 /14
2.2 建模流程 /15
2.3 模型设计 /16
2.3.1 业务问题转化 /17
2.3.2 账龄分析与时间窗口设计 /17
2.3.3 数据集切分 /19
2.3.4 样本选择 /20
2.3.5 采样与加权 /21
2.4 数据与变量解读 /25
2.5 本章小结 /26
第3章 机器学习 /27
3.1 基本概念 /28
3.1.1 空间表征 /29
3.1.2 模型学习 /31
3.1.3 模型评价 /32
3.2 广义线性模型 /33
3.2.1 多元线性回归模型 /34
3.2.2 经验风险与结构风险 /35
3.2.3 极大似然估计 /38
3.3 逻辑回归 /39
3.3.1 sigmoid函数 /40
3.3.2 最大似然估计 /41
3.3.3 多项逻辑回归学习 /41
3.3.4 标准化 /42
3.4 性能度量 /44
3.4.1 误差 /45
3.4.2 混淆矩阵与衍生指标 /45
3.4.3 不均衡模型评价 /48
3.4.4 业务评价 /52
3.5 上线部署与监控 /55
3.5.1 上线部署 /55
3.5.2 前端监控 /57
3.5.3 后端监控 /59
3.6 迭代与重构 /61
3.6.1 模型迭代 /61
3.6.2 模型重构 /62
3.7 辅助模型 /62
3.7.1 XGBoost /63
3.7.2 模型解释性 /74
3.7.3 因子分解机 /81
3.8 模型合并 /82
3.9 本章小结 /86
第4章 用户分群 /87
4.1 辛普森悖论 /88
4.2 监督分群 /90
4.2.1 决策树原理 /90
4.2.2 决策树分群 /92
4.2.3 生成拒绝规则 /95
4.3 无监督分群 /105
4.3.1 GMM原理 /106
4.3.2 GMM分群 /107
4.4 用户画像与聚类分析 /108
4.4.1 数据分布可视化 /109
4.4.2 K均值聚类 /110
4.4.3 均值漂移聚类 /111
4.4.4 层次聚类 /113
4.4.5 tSNE聚类 /114
4.4.6 DBSCAN聚类 /115
4.4.7 方差分析 /117
4.5 本章小结 /119
第5章 数据探索与特征工程 /120
5.1 探索性数据分析 /121
5.1.1 连续型变量 /122
5.1.2 离散型变量 /123
5.1.3 代码实现 /123
5.2 特征生成 /126
5.2.1 特征聚合 /127
5.2.2 特征组合 /145
5.3 特征变换 /147
5.3.1 卡方分箱 /148
5.3.2 聚类分箱 /150
5.3.3 分箱对比 /151
5.3.4 箱的调整 /154
5.3.5 两种特殊的调整方法 /156
5.3.6 WOE映射 /158
5.4 本章小结 /158
第6章 特征筛选与建模 /159
6.1 初步筛选 /160
6.1.1 缺失率 /160
6.1.2 信息量 /161
6.1.3 相关性 /162
6.1.4 代码实现 /163
6.2 逐步回归 /164
6.2.1 F检验 /165
6.2.2 常见逐步回归策略 /165
6.2.3 检验标准 /166
6.2.4 代码实现 /167
6.3 稳定性 /167
6.4 负样本分布图 /169
6.5 评分卡案例 /171
6.6 本章小结 /189
第7章 拒绝推断 /190
7.1 偏差产生的原因 /191
7.2 数据验证 /193
7.3 标签分裂 /193
7.4 数据推断 /195
7.4.1 硬截断法 /195
7.4.2 模糊展开法 /198
7.4.3 重新加权法 /199
7.4.4 外推法 /200
7.4.5 迭代再分类法 /202
7.5 本章小结 /204
第8章 模型校准与决策 /205
8.1 模型校准的意义 /206
8.2 校准方法 /207
8.2.1 通用校准 /208
8.2.2 多模型校准 /210
8.2.3 错误分配 /214
8.2.4 权重还原 /215
8.3 决策与应用 /215
8.3.1 最优评分切分 /216
8.3.2 交换集分析 /216
8.3.3 人工干预 /218
8.4 本章小结 /219
第9章 模型文档 /220
9.1 模型背景 /221
9.2 模型设计 /222
9.2.1 模型样本 /222
9.2.2 坏客户定义 /222
9.3 数据准备 /223
9.3.1 数据提取 /223
9.3.2 历史趋势聚合 /224
9.3.3 缺失值与极值处理 /224
9.3.4 WOE处理 /225
9.4 变量筛选 /225
9.4.1 根据IV值进行初筛 /226
9.4.2 逐步回归分析 /226
9.4.3 模型调优 /226
9.5 最终模型 /227
9.5.1 模型变量 /227
9.5.2 模型表现 /228
9.5.3 模型分制转换 /228
9.6 表现追踪 /228
9.7 附件 /229
9.8 本章小结 /231
从公众号过来的,听过这个老师的课,讲的非常好,这次买到老师写的书看一看。
2020-05-21
智能风控双子星第二弹终于上市了!早就知道梅老师要出第二本,果断入手。
2020-05-20
这本书主要关注信贷风控模型,对信用评分全流程各个环节进行了详尽的介绍,希望从事风险控制工作的分析师、建模师、算法工程师都推荐阅读。
2020-05-21
这本书最大的亮点是插画,相信毛鑫宇老师付出了不少心血。 但是书名,智能风控,敢这样自吹自擂吗? 副标题,金融风险管理,敢用这个解释吗? 看看目录 第一章,“企业信贷风控架构”,信贷的边界是什么?这本书较多涉及小型和微型批发零售业企业而已。 除了第二章把评分卡介绍...
2020-05-25 23:31:47