猜你喜欢
小白学数据挖掘与机器学习

小白学数据挖掘与机器学习

书籍作者:张浩彬 ISBN:9787121338434
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8806
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

《小白学数据挖掘与机器学习——SPSS Modeler案例篇》用生活中常见的例子、有趣的插图和通俗的语言,把看上去晦涩难懂的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,让读者从入门学习阶段就发现,原来数据挖掘与机器学习不但有用,还很有趣。


《小白学数据挖掘与机器学习——SPSS Modeler案例篇》以IBM SPSS Modeler 作为案例实践工具,首先介绍了数据挖掘的基本概念及数据挖掘方法,然后介绍了IBM SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。每一章都会以漫画形式介绍一些日常小例子并作为切入点,用通俗的语言介绍具体的算法理论,同时在每章最后都附上应用案例,让读者更轻松地阅读《小白学数据挖掘与机器学习——SPSS Modeler案例篇》并掌握对应的算法和实践操作。


《小白学数据挖掘与机器学习——SPSS Modeler案例篇》内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点,适合数据挖掘与机器学习入门读者阅读。


作者简介

张浩彬

人称浩彬老撕,曾任IBM大中华区商业智能事业部SPSS分析工程师,认知解决方案事业部数据分析专家;现任广东柯内特环境科技有限公司首席数据科学家。

致力机器学习及SPSS技术分享,专注于人工智能技术与应用。

微信公众号:探数寻理(wetalkdata)。


编辑推荐

18位业内专家联合力荐

全书配有660分钟免费配套教学视频

菜鸟也会数据分析、数据挖掘

轻松掌握图形化数据挖掘工具SPSS Modeler

快速实现各种算法及模型

减少大量编写代码的工作

更专注数据本身及模型结论


前言

浩彬老撕(作者网名),一个有趣的人。

数据挖掘与机器学习,一件好玩的事情。

IBM SPSS Modeler,一套有用的工具。


在日常生活和工作中,笔者经常会遇到有朋友面带难色地咨询:怎么做数据挖掘?怎么学习数据挖掘?笔者发现,大家都认识到,在这个大数据时代,数据挖掘是一项非常有用的技能,但与此同时,他们往往又会觉得学习数据挖掘与机器学习非常难,因为必须要花费大量的时间去重新学习数学知识以及各种编程技能。

对于这些困难,笔者当然理解,而且,随着大数据的兴起,市面上也出现了越来越多关于数据挖掘与机器学习方面的书籍。这些书籍固然都写得很好,但是很多都是一上来就介绍统计理论和模型算法,未免又增加了初学者的畏难情绪。


就笔者看来,从海量数据中挖掘出有用的知识本来是一件很好玩的事情,而且看上去晦涩难懂的算法,其实也有接地气的一面,只要找对学习方法和案例,数据挖掘与机器学习也可以像听故事一样有趣。也是基于这一点,笔者开始了个人公众号以及本书的写作,希望可以用生活中一些常见的例子和一些有趣的插图及通俗的语言故事,把这些看上去晦涩的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,希望让读者从入门学习阶段就发现,原来数据挖掘与机器学习这件事情不但有用,而且还真的有趣。

本书采用 IBM SPSS Modeler(以下简称 SPSS Modeler)作为案例实践工具。 SPSS Modeler 是业界公认的数据挖掘利器,它依据 CRISP-DM 方法论,内置了丰富的数据挖掘算法,同时作为一款以“图形化语法”的数据挖掘工具,它的最大优点就是在保证专业性的同时,很好地兼顾了易用性,相信读者使用 SPSS Modeler 作为数据挖掘与机器学习入门工具,将能够很快掌握实际的应用技巧。


本书特色


本书从结构上看,首先介绍了数据挖掘的基本概念以及数据挖掘方法论,接下来介绍了SPSS Modeler 工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。全书内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点。

特别地,在每一章中都会以漫画形式介绍一些日常小例子作为切入点,并用通俗的语言为读者介绍具体的算法理论,同时在每章最后都附上应用案例,希望以这样的形式帮助读者更轻松地阅读本书并掌握对应的算法和实践操作。


致谢


感谢图标网站 http://www.easyicon.net/以及 http://pictogram2.com/提供的原始素材,本书的插图大部分来源于对这些原始素材的再创作。感谢公众号“探数寻理”的读者的关注与支持。感谢 IBM 大中华区分析事业部周伟珠等多位同事的帮助和建议,是你们的建议让本书变得更加完善。感谢柯内特环保大数据研究院院长龙力辉等多位书评作者,感谢你们能够在百忙之中抽出时间阅读书稿,并提出宝贵的建议。感谢电子工业出版社博文视点王静老师的大力支持和辛勤工作,让本书能够顺利出版。最后感谢我的家人和徐小白同学,也因为你们的支持和理解,本书才能顺利出版。

目录

第 1 章 数据挖掘那些事儿 1

1.1 当我们在谈数据挖掘时,其实在讨论什么 2

1.2 从 CRISP-DM 开启数据挖掘实践 7


第 2 章 数据挖掘之利器:SPSS Modeler 17

2.1 SPSS Modeler 简介 18

2.2 SPSS Modeler 的下载与安装 21

2.3 SPSS Modeler 的主界面及基本操作 23

2.3.1 SPSS Modeler 主界面介绍 23

2.3.2 鼠标基本操作 31

2.4 将 SPSS Modeler 连接到服务器端 31


第 3 章 巧妇难为无米之炊:数据,数据! 34

3.1 数据的身份 35

3.1.1 变量的测量级别 35

3.1.2 变量的角色 36

3.2 数据的读取 37

3.2.1 读取 Excel 文件数据 37

3.2.2 读取变量文件数据 38

3.2.3 读取 SPSS Statistics(.sav)文件数据 40

3.2.4 读取数据库数据 42

3.3 数据的基本设定 45

3.3.1 变量角色的设定 45

3.3.2 字段的筛选及命名 46

3.4 数据的集成 47

3.4.1 数据的变量集成:合并节点 47

3.4.2 数据的记录集成:追加节点 50


第 4 章 一点都不简单的描述性统计分析 53

4.1 分类变量的基本分析: “矩阵”节点 54

4.2 连续变量的基本分析:数据审核节点 57

4.2.1 连续变量基本分析指标介绍 57

4.2.2 “数据审核”节点 63


第 5 章 何为足够大的差异:常用的统计检验 67

5.1 假设检验 68

5.1.1 假设检验的基本原理 68

5.1.2 假设检验的一般步骤 69

5.2 连续变量与分类变量之间的关系: t 检验 70

5.2.1 两组独立样本均值比较 71

5.2.2 两组配对样本均值比较 72

5.2.3 使用 t 检验的前提条件 73

5.2.4 案例:使用均值比较分析电信客户的流失情况 73

5.3 两个连续变量之间的关系:相关分析 75

5.3.1 相关分析理论 76

5.3.2 案例:使用相关分析研究居民消费水平与国内生产总值的相关关系 77

5.4 两个分类变量之间的关系:卡方检验 80

5.4.1 卡方检验的原理 80

5.4.2 卡方检验的前提条件 82

5.4.3 案例:使用卡方检验研究两个分类字段之间的关系 82


第 6 章 从身高和体重的关系谈起:回归分析 84

6.1 一元线性回归分析 85

6.1.1 分析因变量与自变量的关系,构建回归模型 85

6.1.2 估计模型系数,求解回归模型 87

6.1.3 对模型系数进行检验,确认模型有效性 88

6.1.4 拟合优度检验,判断模型解释能力 89

6.1.5 借助回归模型进行预测 90

6.2 多元线性回归分析 90

6.2.1 估计模型系数,求解回归模型 91

6.2.2 对模型参数进行检验,确认模型有效性 92

6.2.3 拟合优度检验,判断模型解释能力 94

6.2.4 模型的变量选择 95

6.3 使用线性回归分析的注意事项 97

6.4 案例:使用回归分析研究影响房屋价格的重要因素 98


第 7 章 回归岂止这么简单:回归模型的进一步扩展 102

7.1 曲线回归 103

7.2 Logistic 回归 110

7.2.1 Logistic 回归理论 110

7.2.2 案例:使用 Logistic 回归模型分析个人收入水平影响因素 112


第 8 章 模型评估那些事儿:过拟合与欠拟合 117

8.1 过拟合与欠拟合 118

8.2 留出法与交叉验证 122

8.2.1 留出法与分层抽样 122

8.2.2 交叉验证 124

第 9 章 从看电影的思考到决策树的生成 126

9.1 决策树概述 127

9.2 决策树生成 129

9.2.1 从 ID3 算法到 C5.0 算法 131

9.2.2 CART 算法 134

9.3 决策树的剪枝 136

9.3.1 预剪枝策略 137

9.3.2 后剪枝策略 137

9.3.3 代价敏感学习 138

9.4 案例:用决策树分析客户违约情况 140

9.5 关于信息熵的扩展 147


第 10 章 人工神经网络:从人脑神经元开始 151

10.1 从人脑神经元到人工神经网络 152

10.2 感知机 154

10.3 人工神经网络 159

10.3.1 隐藏层的作用 159

10.3.2 人工神经网络算法 160

10.4 案例:利用人工神经网络分析某电信运营商的客户流失情况 164


第 11 章 物以类聚,人以群分:聚类分析 172

11.1 聚类思想的概述 173

11.2 聚类方法的关键:距离 175

11.3 K-Means 算法 176

11.3.1 K-Means 算法原理 176

11.3.2 轮廓系数(Silhouette coefficient) 177

11.4 案例:利用 K-Means 算法对不同型号汽车的属性进行聚类分群研究 179


第 12 章 啤酒+尿布=关联分析? 186

12.1 一个关于关联分析的传说 187

12.2 关联分析的基本概念 188

12.3 关联规则的有效性指标 190

12.4 Apriori 算法 192

12.4.1 生成频繁项集 193

12.4.2 生成关联规则 195

12.5 案例:利用 Apriori 算法对顾客的个人信息及购买记录进行关联分析 195


第 13 章 三个臭皮匠,赛过诸葛亮:集成学习算法 199

13.1 集成学习算法概述 200

13.2 3 种不同的集成学习算法 201

13.2.1 Bagging 算法 201

13.2.2 Boosting 算法 203

13.2.3 随机森林 204

13.3 集成学习算法实践 205

13.3.1 Bagging 算法和 Boosting 算法 205

13.3.2 随机森林 211

13.3.3 集成学习算法结果比较 214

短评

通俗易懂,深入浅出!还有37个视频讲解!!!实用的工具书!数据分析、数据挖掘必备~

2018-07-06

产品特色