机器学习算法评估实战(全彩印刷)
书籍作者:宋亚统 |
ISBN:9787115552402 |
书籍语言:简体中文 |
连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 |
下载次数:9873 |
创建日期:2021-10-07 |
发布日期:2021-10-07 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
内容简介
机器学习算法评估力求用科学的指标,对机器学习算法进行完整、可靠的评价。
本书详细介绍机器学习算法评估的理论、方法和实践。全书分为3个部分。第1部分包含第1章~第3章,针对分类算法、回归算法和聚类算法分别介绍对应的基础理论和评估方法;第2部分包含第4章~第8章,介绍更复杂的模型(如深度学习模型和集成树模型)的对比与评估,并且针对它们实际应用的业务场景介绍一些特有的评估指标和评估体系;第3部分包含第9章~第11章,总结算法评估的常用工具、技术及方法论,包括实用的可视化工具介绍,并讨论机器学习算法的本质。
本书适合机器学习专业相关从业者和算法工程师阅读,也适合想要从事人工智能和机器学习工作的人士学习和参考。
作者简介
宋亚统,美团点评配送事业部高级算法工程师,2017年获得中国科学院大学硕士学位。他目前主要负责基于位置的服务(Location-Based Service,LBS)算法研发工作。他热爱人工智能并擅长写作,在职期间获得8项算法发明专利,对机器学习算法有着深入的研究和丰富的实践经验。
编辑推荐
机器学习算法评估就是用科学的指标,对机器学习算法的智能性、稳定性与可靠性进行完整、可靠的评价,并给出有条理的、可解释的结论。一个优秀的算法在上线之前,一定要经过严密、周全的评估,才能应对现实业务环境的复杂情况,充分发挥令人惊叹的“人工智能之美”。
本书特色:
1. 图文并茂,全彩印刷,完整而系统地介绍机器学习算法评估理论;
2. 配套源码,基于业务场景评价算法上线服务的可靠性;
3. 利用算法评估工具进行实践,探索机器学习算法本质。
目录
第 1章 分类的艺术 1
1.1 训练集和测试集的选择 1
1.2 准召率和P-R曲线 6
1.3 ROC和AUC 8
1.5 异常检测 12
1.5 小结 14
第 2章 一个好的回归算法 15
2.1 ME那些事 15
2.2 方差和偏差 17
2.3 欠拟合和过拟合 18
2.4 正则化方法 20
2.5 回归算法的对比 24
2.5.1 线性回归 24
2.5.2 局部加权线性回归 25
2.5.3 岭回归 26
2.6 梯度下降的对比 26
2.6.1 一般的梯度下降 26
2.6.2 随机梯度下降和批量梯度下降 28
2.6.3 动量梯度下降 29
2.6.4 AdaGrad、RMSProp和Adam 29
2.7 小结 31
第3章 “硬核”聚类 33
3.1 无监督学习 33
3.2 聚类算法的评估指标 34
3.2.1 霍普金斯统计量 34
3.2.2 类簇的数量 35
3.2.3 聚类效果 39
3.3 聚类算法的对比 44
3.3.1 基于密度的聚类 44
3.3.2 K-means 45
3.3.3 基于层次的聚类 46
3.3.4 基于概率的聚类 47
3.4 小结 48
第4章 慧眼识天下——深度学习算法原理对比 49
4.1 卷积神经网络 49
4.1.1 简单的卷积神经网络 49
4.1.2 详解卷积神经网络 53
4.2 循环神经网络 60
4.2.1 图解RNN 60
4.2.2 RNN的训练 65
4.2.3 RNN的变化形式 67
4.3 更实用的模型 68
4.3.1 LSTM 69
4.3.2 Seq2Seq 71
4.3.3 注意力机制 73
4.4 小结 74
第5章 智慧的语言——NLP算法实战与评估 76
5.1 文字的预处理 76
5.1.1 嵌入 76
5.1.2 word2vec 77
5.1.3 词袋模型与TF-IDF 82
5.2 RNN文本分类 84
5.2.1 RNN文本分类的模块 84
5.2.2 参数定义 84
5.2.3 预处理 85
5.2.4 模型定义 86
5.2.5 模型训练和评估 87
5.3 HAN文本分类 88
5.3.1 HAN和GRU的基本原理 88
5.3.2 HAN的注意力层 90
5.4 NLP评估 92
5.4.1 N-gram 92
5.4.2 BLEU 93
5.4.3 ROUGE 96
5.4.4 Pointwise、Pairwise和Listwise排序算法 98
5.5 小结 100
第6章 预言家的思考——树模型的对比与评估 101
6.1 基础树模型的对比 101
6.1.1 ID3 101
6.1.2 C4.5 103
6.1.3 CART 104
6.2 随机森林和AdaBoost 106
6.2.1 随机森林 106
6.2.2 AdaBoost 108
6.3 GBDT 110
6.3.1 GBDT简介 110
6.3.2 GBDT和回归问题 111
6.3.3 GBDT和分类问题 117
6.4 XGBoost 124
6.4.1 XGBoost简介 124
6.4.2 XGBoost回归算法 127
6.4.3 XGBoost分类算法 132
6.4.4 XGBoost的优化方法和特征评估 136
6.4.5 GBDT和XGBoost的对比评估 139
6.5 小结 140
第7章 爱我所爱——推荐算法对比与评估 141
7.1 多路召回 141
7.1.1 基于用户的协同过滤 141
7.1.2 基于物品的协同过滤 144
7.2 逻辑斯谛回归 145
7.2.1 逻辑斯谛回归的基本原理 145
7.2.2 逻辑斯谛回归和推荐排序 148
7.3 FM、FFM和特征组合 150
7.3.1 FM基本原理 151
7.3.2 用FFM和GBDT进行高阶特征组合 153
7.4 Wide&Deep 155
7.5 更有趣的模型——Transformer 157
7.5.1 模型整体架构 158
7.5.2 注意力机制 159
7.5.3 编码器 163
7.5.4 解码器 163
7.5.5 基于位置的前馈神经网络 164
7.5.6 嵌入层 165
7.5.7 线性层和softmax层 166
7.5.8 Transformer在推荐系统的应用 167
7.6 推荐算法的评估 170
7.6.1 准确度指标 171
7.6.2 排序指标 172
7.6.3 覆盖率 175
7.6.4 多样性和新颖性 175
7.7 小结 176
第8章 奇门遁甲—LBS算法与评估 177
8.1 坐标 177
8.1.1 坐标生成 177
8.1.2 基于密度的坐标生成 179
8.1.3 基于GeoHash块热度的坐标生成 180
8.1.4 坐标质量评估 181
8.2 路线 183
8.2.1 路线相似度评估 183
8.2.2 路线规划——Dijkstra算法 185
8.2.3 路线排序 188
8.2.4 路线质量评估 194
8.3 小结 196
第9章 评估利器——交互式可视化 198
9.1 R语言简介 198
9.1.1 为什么要可视化 198
9.1.2 R语言介绍 199
9.1.3 数据生态 202
9.2 Shiny可视化 204
9.2.1 UI布局 204
9.2.2 服务器 209
9.2.3 可视化评估示例 212
9.3 小结 215
第 10章 像哲学家一样思考——因果推断 216
10.1 机器学习之殇 216
鹦鹉学舌vs.乌鸦喝水 216
10.2 辛普森悖论 218
10.3 伯克森悖论 223
10.4 智能之梯 224
10.4.1 因果推断的起源 224
10.4.2 智能之梯 225
10.5 因果推断的方法 228
10.5.1 双重差分模型 228
10.5.2 工具变量 229
10.5.3 中介模型 231
10.6 小结 232
第 11章 基础评估方法——假设检验 234
11.1 卡方检验 234
11.2 T检验 236
11.3 Z检验和F检验 238
11.4 小结 241
参考文献 242