书籍作者:任昱衡 | ISBN:9787121351129 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:8463 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书是为广大数据分析师量身定制的入门读物,它旨在帮助读者站在大数据时代的制高点。数据分析处于统计学、计算机信息科学、运筹学、数据库等多个领域的交叉地带,大数据时代的到来大大丰富了数据分析的内涵,数据分析师的职责与以往相比发生了巨大的改变。本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。无论是入门级的数据分析员还是有一定基础的数据分析师,都能通过本书完善、加深对数据分析的认识。
任昱衡,博士,副研究员,高级电子商务师,高级硬件工程师,中国电子商务协会电子商务研究院副院长,中国电子商务协会信用体系建设管理中心主任助理,中国电子商务师资质(职称)认证管理中心主任助理。参与国家多项电子商务法律、法规、标准制定工作,目前主要负责国家电子商务师职业水平(职称)认证体系的构建和国家电子商务行业企业信用监督工作。
前 言
自2015年以来,“大数据时代”已成为最热门的名词之一。大数据在企业决策中扮演着越来越重要的角色,各个行业都不约而同地提出了大数据的口号,与大数据相关的新名词、新产品不断涌现,“统计分析和数据挖掘”跻身最受欢迎的求职技能行列,数据分析师的薪酬待遇也远远超过平均薪资水平。与数据分析技能之火爆相对应的是数据分析人才的缺失。麦肯锡公司的研究报告表明,截至2018年,全球面临150万数据分析人才方面的缺口。这意味着,有150万的其他行业从业人员将有可能把握住机会,转型为令人艳羡的数据分析师。
全面的数据改革迫在眉睫,但如何真正落实大数据的应用,仍然是一个富于争议的话题。数据分析行业内部面临着相同的困境,在大数据时代,新的数据分析方法层出不穷,原有的数据分析方法也在不断完善,这些都导致数据分析师这一工作发生了令人措手不及的变化。为了帮助新的从业人员尽快熟悉数据分析这一工作,以及帮助原有的数据分析师尽快完成转型,本书精心选择了32个流行的数据分析算法,并佐以案例,供大家了解大数据时代下数据分析行业的最新动态。
?本书特色
1. 条理清晰,内容翔实,全面介绍了大数据时代下的数据分析算法体系
数据分析处于统计学、人工智能、模式识别、机器学习等多个领域的交叉处。本书分为8章,每章都有独立的主题,涵盖了数据分析所涉及的大部分学科。同时,本书不同章之间存在紧密的关联,揭示了不同学科之间的异同,以及它们是如何丰富数据分析的内涵并影响数据分析学科发展的轨迹的。通过阅读本书,读者将站在制高点,一览大数据时代下不同数据分析算法是如何彼此关联而构成完整体系的。
2.语言通俗易懂,内容由易到难,适合各层次的读者学习
本书语言诙谐有趣,对每个数学公式都不厌其烦地举例讲解,即使毫无高等数学基础的读者也能够读懂本书所讲解的内容。同时,本书严格按照由易到难的学习规律编写,从较为简单的经典数据分析方法写起,逐渐过渡到较为晦涩的模式识别、机器学习等内容,通过阅读本书,读者将从一个“数据分析小白”迅速进阶为基础扎实、能独当一面的数据分析师。本书的内容涵盖了每个算法的原理、公式、适用场景和优缺点。无论是数据分析菜鸟,还是有一定经验的数据分析师,本书都能够帮助你拓展、加深对数据分析的认识。
3.案例丰富精彩,应用贴近实际,满足读者的多重需求
本书为每个算法都配备了一个精心选择(兼顾时效性)的商业案例,这些案例横跨十几个行业,将大数据时代为人称道的经典案例一网打尽,满足了读者的三大需求:首先,结合案例能将算法讲解得更加清楚,加深读者对算法的认识;其次,这些案例展示了数据分析在各行各业的最新应用,读者能够通过它们切实感受到数据分析的魅力,激发读者学习数据分析的热情;最后,这些案例涉及多个领域,不仅能够迎合从事不同领域工作的读者的口味,也能够让读者了解数据分析在不同领域的现状,从而帮助读者选择进一步深入学习的方向。
?第2版说明
第2版在第1版的基础上,对每章的综述部分内容进行了扩充,增加了诸如现实进展、应用初窥、算法类型介绍、技术发展历程等内容。以便读者能够更加充分地了解这些算法及其落地应用的前世今生,清晰地把握算法是如何提出的、如何迭代的,以及如何应用在解决实际问题当中。此外,为了保证本书的时效性。第2版还修正和补充了一些新的案例和数据,添加了2015—2018年数据挖掘/数据分析领域中的一些新的进展和新的成果。这些努力的目的都是力图使本书变得更加丰富和形象化,引起读者对数据挖掘和数据分析相关方面的兴趣。此外,鉴于作者水平有限,可能存在谬误之处,希望您在阅读本书之时,带有一些批判的眼光,给予指正和批评。
?本书内容及体系结构
第1章 经典的探索性数据分析案例
本章介绍了4种最基本的数据分析方法,分别是数据收集、数据可视化、异常值分析和对比分析。通过学习这4种数据分析方法,读者将对数据分析师的工作内容有一个初步的了解,使读者能够完成初级的数据分析任务。
第2章 经典的相关分析与回归分析案例
本章的主题是相关分析和回归分析。这两种分析方法经典、古老而有效,至今仍被广泛应用。其中,相关分析能够为回归分析做准备,回归分析又从侧面验证了相关分析结果的正确性。本章涉及1种最常见的相关分析方法和3种最常见的回归分析方法,通过阅读本章,读者将获得解决小数据样本下的一大类数据分析问题的能力。
第3章 经典的降维数据分析案例
本章介绍了粗糙集算法、因子分析、最优尺度分析、PCA降维算法等4种降维算法。本章是小数据分析和大数据分析交界的一章,这4种降维算法既可以为小数据分析服务,也可以为大数据分析服务。本章展示了降维分析与相关分析、回归分析的关联,加深了读者对小数据分析的理解,并为读者打开了大数据分析的大门。
第4章 经典的模式识别案例
本章感兴趣的问题是模式识别问题。模式识别算法研究的是如何让机器像人一样认识世界,它运用了较多的数学知识,并借助编程方法来实现。图像分析、遗传算法、决策树、K均值是本章关心的主题,本章选取了与数据分析关系最密切的案例,旨在使读者了解模式识别与数据分析的区别与联系。
第5章 经典的机器学习案例
本章关心的内容是机器学习,机器学习学科致力于让机器拥有和人类一样的思考能力。通过阅读本章的语义搜索、顺序分析、文本分析、协同过滤4个算法,读者将发现机器学习更多的是从机器的角度来思考问题,这要求读者拥有更深入的编程思维方式,以便于更好地实现机器学习算法。
第6章 经典的深度学习案例
本章是对上一章的延伸,介绍了支持向量机、两种神经网络和RBM算法。深度学习是一个很大的命题,本章仅选取了与数据分析最相关的部分。另外,除向读者介绍4种深度学习算法以外,还向读者指明了机器学习未来的发展方向,这将同样影响到数据分析未来的发展。
第7章 经典的数据挖掘案例
本章介绍了判别分析、购物篮分析、马尔可夫链、AdaBoost元4种算法,实质上是对以上6章的查漏补缺。大数据时代加速了各个学科的融合,数据科学家借鉴了不同学科知识后创造出的数据分析算法也就具有了多种学科的特质。本章将这些“混血”算法集合起来,向读者展示了数据分析最多变的一面。
第8章 经典的商业智能分析案例
本章是对数据分析的升华和总结,在真正的数据分析项目中,数据分析师总是会运用多种数据分析方法来构建模型,本章所介绍的案例就是这样运用多种方法构建模型的例子。同时,本章还进一步辨析了数据分析和数据挖掘的异同,并隐含了作者对所有读者的寄语,读完本章后,读者就能对大数据时代下的数据分析有一个全面深入的认识了。
?本书读者对象
? 刚刚入行的数据分析人员;
? 统计学、管理学、金融学、计算机技术与科学等专业的学生;
? 想要提高数据分析能力的数据分析师;
? 希望转行做数据分析的从业人员;
? 想要增加对数据分析的了解的主管人员;
? 其他对数据分析感兴趣的读者。
目 录
第1章 经典的探索性数据分析案例 1
1.1 探索性数据分析综述 2
1.1.1 什么是探索性数据分析 2
1.1.2 如何收集数据 4
1.1.3 数据预处理技术 5
1.2 数据巧收集――红牛的大数据营销案例 8
1.2.1 状况百出的红牛企业 8
1.2.2 红牛企业巧妙收集消费者数据 9
1.2.3 数据收集小结 12
1.3 数据可视化――数据新闻促使英军撤军 13
1.3.1 维基解密带来的海量数据 13
1.3.2 百花齐放的数据新闻 15
1.3.3 数据可视化小结 18
1.4 异常值分析――Facebook消灭钓鱼链接 19
1.4.1 Facebook和广告商之间的拉锯战 20
1.4.2 异常值分析指导排名算法工作 22
1.4.3 异常值分析小结 26
1.5 对比分析――TrueCar指导购物者寻找最合算的车价 27
1.5.1 火中取栗的TrueCar网站 28
1.5.2 数据对比赢得消费者信赖 29
1.5.3 对比分析小结 32
第2章 经典的相关分析与回归分析案例 35
2.1 相关回归综述 36
2.1.1 相关回归简介 36
2.1.2 相关性分析的发展介绍 38
2.1.3 回归分析的发展介绍 39
2.2 皮尔逊相关值――纽约市政府利用相关分析监控违法建筑 40
2.2.1 简约而不简单的消防检测系统 40
2.2.2 使用相关分析洞察60个变量的关系 42
2.2.3 相关分析小结 45
2.3 时间序列分析――人寿保险的可提费用预测 47
2.3.1 人寿保险公司和可提费用 47
2.3.2 使用4种时间序列回归预测模型解决问题 49
2.3.3 时间序列分析小结 52
2.4 线性回归分析――梅西百货公司的12项大数据策略 54
2.4.1 从“一亿豪赌”说起的零售商困境 54
2.4.2 SAS公司帮助梅西百货构建模型 56
2.4.3 线性回归分析小结 59
2.5 Logistic回归分析――大面积流感爆发的预测分析 62
2.5.1 究竟谁才是流感预测算法之王 62
2.5.2 向Logistic算法中引入更多变量 64
2.5.3 Logistic回归分析小结 67
第3章 经典的降维数据分析案例 69
3.1 降维分析算法综述 70
3.1.1 为什么要使用降维算法 70
3.1.2 线性降维算法 72
3.1.3 非线性降维算法 73
3.2 粗糙集算法――协助希腊工业发展银行制定信贷政策 74
3.2.1 银行信贷政策的制定原则 75
3.2.2 粗糙集算法的原理和应用 76
3.2.3 粗糙集算法小结 80
3.3 因子分析――基于李克特量表的应聘评价法 82
3.3.1 源于智力测试的因子分析 82
3.3.2 使用因子分析解构问卷 84
3.3.3 因子分析小结 87
3.4 最优尺度分析――直观评估消费者倾向的分析方法 89
3.4.1 市场调查问题催生的最优尺度分析 89
3.4.2 6种经典的最优尺度分析解读方法 91
3.4.3 最优尺度分析小结 95
3.5 PCA降维算法――智能人脸识别的应用与拓展 97
3.5.1 刷脸的时代来了 97
3.5.2 使用PCA算法完成降维工作 99
3.5.3 PCA算法小结 102
第4章 经典的模式识别案例 105
4.1 模式识别综述 106
4.1.1 模式识别简介 106
4.1.2 模式识别的发展脉络 107
4.1.3 模式识别应用简介 110
4.2 图像分析――谷歌的超前自动驾驶技术 111
4.2.1 以安全的名义呼吁自动驾驶技术 111
4.2.2 快速成熟的无人驾驶技术 113
4.2.3 图像分析小结 116
4.3 遗传算法――经典的人力资源优化问题 118
4.3.1 使用有限资源实现利益最大化 118
4.3.2 遗传算法的计算过程 120
4.3.3 遗传算法小结 123
4.4 决策树分析――“沸腾时刻”准确判断用户健康水平 124
4.4.1 打造我国最大的健身平台 124
4.4.2 信息增益和决策树 126
4.4.3 决策树小结 129
4.5 K均值聚类分析――HSE24通过为客户分类降低退货率 131
4.5.1 在电子商务市场快速扩张的HSE24 131
4.5.2 使用K均值聚类为客户分类 133
4.5.3 K均值聚类小结 136
第5章 经典的机器学习案例 139
5.1 机器学习综述 140
5.1.1 机器学习简介 140
5.1.2 机器学习的主流发展和应用 142
5.2 语义搜索――沃尔玛搜索引擎提升15%销售额 143
5.2.1 注重用户体验的沃尔玛公司 144
5.2.2 语义搜索引擎的底层技术和原理 145
5.2.3 语义搜索技术小结 148
5.3 顺序分析――搜狗输入法的智能纠错系统 150
5.3.1 搜狗输入法的王牌词库和智能算法 151
5.3.2 频繁树模式和顺序分析算法 153
5.3.3 顺序分析小结 156
5.4 文本分析――经典的垃圾邮件过滤系统 158
5.4.1 大数据时代需要文本分析工作 158
5.4.2 垃圾邮件过滤中的分词技术和词集模型 160
5.4.3 文本分析小结 163
5.5 协同过滤――构建个性化推荐系统的经典算法 164
5.5.1 协同过滤算法为什么这么流行 165
5.5.2 基于用户和基于产品的协同过滤 166
5.5.3 协同过滤算法小结 169
第6章 经典的深度学习案例 171
6.1 深度学习综述 172
6.1.1 深度学习简介 172
6.1.2 深度学习在图像处理方面的应用 174
6.1.3 深度学习在自然语言处理方面的应用 176
6.2 支持向量机――乔布斯利用大数据对抗癌症 178
6.2.1 乔布斯和胰腺癌的抗争 178
6.2.2 医学统计学和支持向量机 180
6.2.3 支持向量机小结 184
6.3 感知器神经网络――最佳的房产价格预测算法 185
6.3.1 如何预测房价 186
6.3.2 多层感知器和误差曲面 188
6.3.3 感知器神经网络小结 191
6.4 自组织神经网络――如何又快又好地解决旅行商问题 193
6.4.1 最优路径问题的典型模式和解决方法 193
6.4.2 自组织神经网络的拓扑结构和权值调整 194
6.4.3 自组织神经网络小结 198
6.5 RBM算法――为新闻报道智能分类 199
6.5.1 新闻报道智能分类的难与易 199
6.5.2 RBM算法的学习目标和学习方法 201
6.5.3 RBM算法小结 204
第7章 经典的数据挖掘案例 207
7.1 数据挖掘综述 208
7.1.1 什么是数据挖掘 208
7.1.2 数据挖掘的主要应用领域 209
7.1.3 数据挖掘模型的评价指标 211
7.2 判别分析――美国运通构建客户流失预测模型 213
7.2.1 美国运通公司的旧日辉煌 213
7.2.2 判别分析的假设条件和判别函数 214
7.2.3 判别分析小结 218
7.3 购物篮分析――找出零售业的最佳商品组合 220
7.3.1 名动天下的“啤酒和尿布”案例 220
7.3.2 购物篮分析的频繁模式 222
7.3.3 购物篮分析小结 225
7.4 马尔可夫链――准确预测客运市场占有率 227
7.4.1 复杂的客运市场系统 227
7.4.2 概率转移矩阵的求解方法 229
7.4.3 马尔可夫链小结 232
7.5 AdaBoost元算法――有效侦测欺诈交易的复合算法 233
7.5.1 弱分类器和强分类器之争 233
7.5.2 AdaBoost元算法的分类器构建方法 235
7.5.3 AdaBoost元算法小结 238
第8章 经典的商业智能分析案例 241
8.1 商业智能分析综述 242
8.1.1 什么是商业智能 242
8.1.2 商业智能的主流发展与应用 244
8.2 KXEN分析软件――构建欧洲博彩业下注预测平台 246
8.2.1 现代博彩业背后的黑手 247
8.2.2 集体智慧和庄家赔率的联系 248
8.2.3 KXEN软件小结 252
8.3 数据废气再利用――物流公司数据成功用于评估客户信用 253
8.3.1 数据废气和黑暗数据的异同 254
8.3.2 论如何充分利用物流公司数据 255
8.3.3 数据废气再利用小结 258
8.4 必应预测――使用往期信息预测自然灾害 259
8.4.1 预测自然灾害的必要性 260
8.4.2 微软大数据预测的优与劣 261
8.4.3 必应预测小结 263
8.5 点球成金――助力NBA大数据分析的多种神秘软件 265
8.5.1 NBA的有效球员数据 265
8.5.2 有关点球成金的靠谱方法 268
8.5.3 点球成金小结 270