书籍作者:黄文青 | ISBN:9787121336546 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:5922 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
Python 已成为广受数据科学领域欢迎的开发语言。本书契合这一趋势,结合具体的业务场景,从数据思维的角度出发,剖析各业务环节中数据处理的策略、算法,并运用Python 代码呈现翔实的案例,构建出一个完整的数据分析体系。
在内容的组织和安排上,本书层次分明、详略得当:针对简单的数据分析工作,读者可以先浏览第1 章至第3 章;专职从事数据分析的工程师可以通篇阅读本书,以构建数据处理工程的完整知识框架;最后一章针对从事大数据分析的工程师提供了一些常见问题的解决思路和方法。
本书既适合刚接触数据工程的从业人员作为入门参考,也可以帮助具有一定经验的数据工程师搭建知识体系,洞悉业务场景中的数据奥秘,得心应手地运用数据指导业务。
黄文青,目前在百度公司任职,从事大数据、机器学习方向的研究与学习。对于如果成为一名数据工程师,有自己独特的理解与实践。
仅仅会Python编程是不够的。想成为一名优秀的数据分析工程师,还需要有全方位、透彻理解问题本质的能力,善于把实际的工作任务拆解成准确的数据问题,并运用相关的知识来解决。
本书恰好是从这个角度出发的,它条分缕析地帮助你认识任务的本质,教你从数据的角度来思考、拆解任务,并最终顺利地达成目标。
数据分析、数据挖掘、深度学习及云计算,是当前最热门的技术领域。1830年前后,Gauss、Legendre 等数学家奠基了数据分析的基础理论;1943 年,心理学家Warren McCulloch 和数理逻辑学家Walter Pitts 首次提出神经网络;19 世纪80 年代,Hinton、Yann LeCun 等人提出BP 算法及卷积神经网络;2006 年,深度置信网络研究成果发表。至此,数据建模理论研究的宏观大厦已初见雏形。
历史是如此的巧合,正当需要海量数据集和工程技术方案来处理数据时,云计算应运而生。2003 年,谷歌发表关于Google File System、Google Bigtable 及MapReduce 三篇论文,让大数据处理技术风靡全球。以此为基础,2010 年前后,整个云计算的概念及技术体系已经非常完善了。
数据理论的完善、工程技术的发展与无数创意的结合,使得2010 年以后,整个人类社会进入了“数据时代”。无论是精细化运营,还是人工智能产品,对数据的应用无处不在;无论是政府机构,还是私有的大、中、小型企业,使用数据的热情都达到空前的高度。
2014 年,我加入百度公司,从事大数据处理及数据建模等相关工作。回首过往,在该领域的几年中,我经历了云计算从雾里看花到如今的方兴未艾;人工智能的初现端倪到如今的高潮迭起。作为一名前线的数据工程师, 我深刻认识到,对我及大多数工程师而言,既无法像Jeff Dean 等一样提出经典的大数据计算模型;也无法像Hinton、Yann LeCun 一样提出具有深远影响的建模算法。我们所要做的,就是学习与汲取当前的理论与技术,结合应用领域,实现工程应用。这也是我写本书的初衷,希望能从宏观框架上梳理已有的数据分析理论与工程实施技术,并搭建相对系统的知识体系;同时,阐述工作实践中遇到的问题及解决的思路。
Python 简洁易懂的语法、丰富的类库、与大数据组件的无缝集成等诸多特点,使其成为数据工程师的首选编程语言。当然,只是掌握Python 还完全不足以成为顶级数据工程师,因此,本书介绍数据处理知识体系,并以Python 实现相关代码示例,力求让读者能使用Python 完成数据处理的各个环节。
本书的第1 章和第2 章,简要说明了数据处理领域的基本概念,旨在让读者对数据处理工作有宏观的了解。第3 章~第5 章,主要讲述数据分析理论。笔者按照难易程度,将其划分成三个部分,即基础分析、数据挖掘和深度学习。第6章针对大数据分析,介绍了在工程实施过程中需要用到的工程组件和架构模式,并以一个具体的案例说明整个数据工程的实施流程。
本书适合以下读者阅读:① 对人工智能和云计算感兴趣的读者;② 刚进入数据处理领域的IT 工程师;③ 希望从宏观上梳理数据处理知识体系的读者;④ 用Excel、SPSS、Python 做过数据分析的数据分析师;⑤ 应用过HDFS、Kafka等大数据组件的IT 工程师。
本书能够完稿,得益于外界诸多的帮助与指导。感谢数据领域的先驱者Geoffrey Hinton、Yann LeCun、Jeff Dean 等,他们的著作是数据时代最重要的理论依据;感谢在百度工作中遇到杨振宇、李华青、王珉然、陈合等许多优秀的同事和领导,在和他们一起试错、交流的过程中,让我取得巨大的进步;感谢本书的编辑刘皎,在她不厌其烦地督促下,本书才从凌乱的只言片语中编辑成书;特别感谢女友孙万兴,在本书的撰写过程中给予的谅解与支持。
1 概述 / 1
1.1 何为数据工程师 / 1
1.2 数据分析的流程 / 3
1.3 数据分析的工具 / 11
1.4 大数据的思与辨 / 14
2 关于Python / 17
2.1 为什么是Python / 17
2.2 常用基础库 / 19
2.2.1 Numpy / 19
2.2.2 Pandas / 26
2.2.3 Scipy / 37
2.2.4 Matplotlib / 38
3 基础分析 / 43
3.1 场景分析与建模策略 / 43
3.1.1 统计量 / 43
3.1.2 概率分布 / 48
3.2 实例讲解 / 55
3.2.1 谁的成绩更优秀 / 55
3.2.2 应该库存多少水果 / 57
4 数据挖掘 / 60
4.1 场景分析与建模策略 / 60
4.1.1 分类 / 61
4.1.2 聚类 / 76
4.1.3 回归 / 86
4.1.4 关联规则 / 90
4.2 数据挖掘的重要概念 / 93
4.2.1 数据预处理 / 93
4.2.2 评估与验证 /97
4.2.3 Bagging 与Adaboost / 99
4.2.4 梯度下降与牛顿法 / 102
4.3 实例讲解 /105
4.3.1 信用卡欺诈监测 / 105
4.3.2 员工离职预判 /110
5 深度学习/ 114
5.1 场景分析与建模策略 / 115
5.1.1 感知机 / 115
5.1.2 自编码器 / 119
5.1.3 限制玻尔兹曼机 /123
5.1.4 深度信念神经网络 / 127
5.1.5 卷积神经网络 / 129
5.2 人工智能应用概况 / 137
5.2.1 深度学习的历史 /137
5.2.2 人工智能的杰作 / 140
5.3 实例讲解 / 146
5.3.1 学习识别手写数字 / 146
5.3.2 让机器认识一只猫 / 151
6 大数据分析 / 160
6.1 常用组件介绍 / 160
6.1.1 数据传输 / 165
6.1.3 数据计算 / 174
6.1.4 数据展示 / 180
6.2 大数据处理架构 / 188
6.2.1 Lambda 架构 / 189
6.2.2 Kappa 架构 / 192
6.2.3 ELK 架构 / 193
6.3 项目设计 / 194
参考文献 / 202
不推荐购买。如果我不是拿到书后在书上用笔作了标记我就退货了。首先作为18年6月第一版的书,内容是基于2.X版本的不太合适吧;第二小错误太多;第三内容太小,总共202页,行距宽,而且无关痛痒的内容占了不少,众数,平均值,中位数都能介绍三几页。槽点太多,吐不过来了。建议各位别掉坑。
2018-07-20
书名起的比较大,理论不够深入。 书的内容还算提纲挈领,覆盖数据工程的各个知识点,梳理出的知识体系很赞。不太适合做算法策略的,对初级或者中级的做工程应用的人,特别脑袋一团浆糊的应该非常适用。看得出是作者实际从事过这块的工作,而不是千篇一律抄袭,给个四星。
2018-07-21
这本书最大的特色在于教工程师将工作任务拆解成数据分析的任务,也就是教你转换成数据分析的思维,而且都配了简洁易懂的案例帮助理解。从这个角度,是一本不错的书籍。市面上其他书要么纯讲数据分析,要么纯教Python编程,结合起来的很少。
2018-07-16