书籍作者:杨旭 | ISBN:9787121318696 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:4869 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
以机器学习中的典型案例为主线,条分缕析梳理阿里云的平台功能,讲解如何用阿里云的机器学习平台来实现各类应用,包括商家作弊检测、生存预测、信用风险预测、用户购买行为预测等,并完整地介绍了机器学习的基本原理与实践技巧。
《机器学习在线:解析阿里云机器学习平台》以机器学习中的典型案例为主线,条分缕析梳理阿里云的平台功能,讲解如何用阿里云的机器学习平台来实现各类应用,包括商家作弊检测、生存预测、信用风险预测、用户购买行为预测等,并完整地介绍了机器学习的基本原理与实践技巧。
前言
飞速发展的互联网、物联网每时每刻都在产生大量的数据,数据的价值也因此被提升到前所未有的高度:越来越多的人投身数据分析的领域,希望通过机器学习及深度学习,从数据中获取更大的价值。另一方面,云计算的蓬勃发展极大地扩展了数据的存储能力,它使计算可以同时使用成百上千台机器,快速解决问题,而在计算完成后,又能及时释放掉资源,控制成本。
在这样的大背景下,机器学习算法平台也获得了飞速发展,积累了大量高效的机器学习算法组件,基于这些组件我们可以快速实现业务流程,解决具体问题。在为本书定书名时,受到王坚博士《在线》一书的影响,觉得用“在线”一词来说明目前机器学习平台的状态非常恰当:丰富的算法功能可以在线使用、不需要购买硬件、不需要安装配置各种环境;数据和计算资源一直处在“在线”状态,不必担心数据太大或计算资源不足的问题。
阿里云机器学习算法平台不仅在阿里集团内部使用,也已对阿里集团外部开放,读者可以通过阿里云官网试用或使用本书中介绍的功能。
机器学习平台提供了一个舞台,主角是其上面的近百种算法。本书的重点放在这些算法的使用上——通过实际的数据和具体的场景,帮助读者理解各算法所擅长处理的问题;另外,本书是根据机器学习的知识点由浅入深来逐步组织的,以降低阅读本书的门槛,使读者对所学的内容能产生清晰的印象。
在具体章节的组织上,阿里云机器学习平台的介绍占两个章节,即第1章和附录A。第1章为平台简介,在内容组织上尽量减少文字说明,将最基本的内容用图例来表示;附录A介绍了些琐碎但重要的事情,像如何试用、如何上传数据以及预处理函数的详细说明。第2章至第12章是按照机器学习的知识点逐步深入的思路来编排的。分类模型是机器学习理论和应用方面的重头,首先是数值类型特征的二分类模型、扩展特征的类型、多分类模型;之后介绍聚类模型;然后是回归模型;再后面介绍文本分析领域的应用(主题模型、向量化、关键词等),根据文本描述进行预测、情感分析,并以电影数据为例,搭建推荐系统。深度学习的内容放在第12章,围绕TensorFlow框架组件,介绍了一个能体现TensorFlow特点的Softmax模型的例子,然后介绍了使用深度学习DNN分类器的例子。
机器学习平台降低了我们使用机器学习知识的门槛,将各个算法作为组件,即使不了解其背后的理论知识,读者仍然可以仿照书中实例,将组件连接起来解决一些实际问题。希望本书能帮助读者在机器学习的实践中学习。
最后,感谢一起研发阿里云机器学习平台的各位同事!感谢家人的理解和支持!
杨旭
2017年7月
第1章 阿里云机器学习 1
1.1 产品特点 1
1.2 名词解释 2
1.3 构建机器学习实验 3
1.3.1 新建实验 3
1.3.2 使用组件搭建工作流 4
1.3.3 运行实验、查看结果 5
1.3.4 模型部署、在线预测 6
第2章 商家作弊行为检测 7
2.1 数据探索 8
2.2 建模、预测和评估 15
2.3 尝试其他分类模型 19
2.4 判断商家作弊 24
第3章 生存预测 27
3.1 数据集一 27
3.1.1 特征分析 28
3.1.2 生存预测 33
3.2 数据集二 36
3.2.1 随机森林模型 39
3.2.2 朴素贝叶斯模型 47
第4章 信用风险预测 50
4.1 整体流程 53
4.1.1 特征哑元化 54
4.1.2 特征重要性 57
4.2 模型效果评估 61
4.3 减少模型特征的个数 62
第5章 用户购买行为预测 65
5.1 数据探索 66
5.2 思路 68
5.2.1 用户和品牌的各种特征 69
5.2.2 二分类模型训练 71
5.3 计算训练数据集 71
5.3.1 原始数据划分 72
5.3.2 计算特征 74
5.3.3 计算标签 89
5.4 二分类模型训练 90
5.4.1 正负样本配比 90
5.4.2 逻辑回归算法 92
5.4.3 随机森林算法 94
第6章 聚类与分类 96
6.1 数据可视化 97
6.2 K-Means聚类 98
6.2.1 聚类、评估流程 100
6.2.2 聚成两类 101
6.2.3 聚成三类 103
6.3 K最近邻算法 104
6.3.1 使用KNN算法进行分类 105
6.3.2 算法比较 108
6.4 多分类模型 109
6.4.1 使用朴素贝叶斯算法 109
6.4.2 使用逻辑回归多分类算法 112
6.4.3 使用随机森林算法 115
6.4.4 各多分类模型效果对比 118
第7章 葡萄酒品质预测 119
7.1 数据探索 120
7.2 线性回归 123
7.3 GBDT回归 125
第8章 文本分析 127
8.1 分词 128
8.2 词频统计 130
8.3 单词的区分度 131
8.4 字符串比较 133
8.5 抽取关键词、关键句 139
8.5.1 原理简介 139
8.5.2 完整流程 141
8.6 主题模型 146
8.6.1 LDA模型 147
8.6.2 新闻的主题模型 149
8.6.3 数据预处理 150
8.6.4 主题与原始分类的关系 153
8.7 单词映射为向量 160
8.7.1 相近单词 162
8.7.2 单词聚类 165
8.8 组件使用小结 168
第9章 基于用户退货描述的赔付预测 170
9.1 思路 171
9.2 训练集的特征生成 173
9.3 测试集的特征生成 180
9.4 模型训练、预测、评估 181
9.5 提高召回率 185
第10章 情感分析 189
10.1 词袋模型 190
10.1.1 训练集的特征生成 192
10.1.2 测试集的特征生成 196
10.1.3 模型训练、预测、评估 197
10.2 词向量模型 200
10.2.1 特征生成 201
10.2.2 模型训练 206
第11章 影片推荐 211
11.1 协同过滤 212
11.2 整体流程 213
11.3 预处理,过滤出好评信息 215
11.4 计算影片间的相似度 215
11.5 计算用户可能喜欢的影片 221
11.6 查看推荐效果 224
第12章 支持深度学习框架 227
12.1 TensorFlow组件简介 227
12.2 Softmax模型 231
12.3 深度神经网络 234
附录A 237