猜你喜欢

逆向工程权威指南 Dennis
汪曾祺人间别集全七册珍藏版礼盒精选汪曾祺两百余篇散文代表作特别赠送京东版汪曾祺私章钤印版藏书票和特制香包汪曾祺
室内设计基础教程图解空间尺度室内设计人体工程学尺寸尺寸数据图例室内装修设计书籍入门李戈
启动内在智慧的钥匙济群
Cadence印制电路板设计：Allegro PCB Editor设计指南（第3版）吴均
TCP/IP基础（第2版）刘化君,张文,丁濛等
飞机结构强度设计与验证张立新
奈落明明动心了！[综] 栗子豆腐
朝野祭榴莲小白狐
整体养育+养育的选择（套装共2册）陈忻
设计素描（高等教育艺术设计精编教材）陈伟
简单心理：向内看见简单心理
生活能治愈的，是愿意好起来的人（在夹缝里寻找快乐、希望和机会的人都勇敢极了。百花奖作家朱成玉作品）朱成玉
Re : 从零开始的异世界生活 15 [日] 长月达平
阴瑜伽2：经络瑜伽（中医经络与印度瑜伽完美结合，国内首本经络瑜伽）于伽
潜入万米深海马玲琪
基于典型场景的新型储能适用技术及运营机制李琼慧
在明明德杨斌
战场态势感知与信息融合刘熹
不确定时代的质量管理从“穿越周期”的视角解读华为质量管理密码，还原华为质量管理体系的基本逻辑和创新之处吴晓波于东海许伟陈川
光耀生命 B.K.S.艾扬格
三步玩转短视频吴永凯
多少青春，莞尔一笑（一部童年、少年、青春私人史，记录关于爱、成长和陪伴的点点滴滴）王启元
巴菲特致股东的信（原书第4版）沃伦·E.巴菲特
印象派迈耶·夏皮罗
培生儿童英语Level 1 戴安娜·本特利
【首发特惠买一发四】总有一天会长大·插图注音版（全3册） [5-8岁] 托摩脱·蒿根
随余而安青灯twilight
能识人，会说话：一本书搞定职场社交汪洋
深度探索Go语言封幼林
拉伸训练解剖全书奥斯卡·莫兰
智能RPA实战达观数据
如雾起时高永伟
LoRa物联网通信技术甘泉
地方故事与国家历史陈春声
2021艺术历：光的协奏曲中国国家地理·图书
别害怕冲突+玩的就是心计+中国式沟通艺术玩转职场商场的攻心术讲透人际关系中的心理博弈术（全3册）路天章
现代量子力学第2版中译本修订版樱井纯
影响一生的60个经典心理定律苏山
名家散文典藏版-徐志摩散文集：翡冷翠山居闲话徐志摩
Unity 3D游戏开发（第2版）宣雨松
我和我的命（梁晓声新作）梁晓声
加缪作品三种套装（局外人+鼠疫+西西弗神话）加缪
图文小百科：当代艺术家纳塔莉·海因里希
渤海小吏的封建脉络百战系列：楚汉双雄渤海小吏
跟老男孩学Linux运维：核心系统命令实战老男孩
大数据项目管理：从规划到实现 [美] 特德·马拉斯卡（Ted
自己动手做大数据系统（第2版）刘未昕张粤磊张魁吴茂贵著
斗罗大陆第二部绝世唐门1-26册全套（京东图书十周年定制版）唐家三少
世界政党政治发展研究报告（2021-2022）周淑真

大数据湖最佳实践

书籍作者：Alex	ISBN：9787519845902
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：7318
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

l 数据仓库、大数据、数据科学的简单介绍。

l 了解企业建立数据湖的各种途径。

l 探索如何构建自助服务模型，以及如何让分析师便捷访问数据的最佳实践。

l 使用不同的方法来构建数据湖。

l 了解不同行业专家实现数据湖的方法。

作者简介

Alex Gorelik是Waterline Data的首席技术官和创始人，也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理，负责管理公司的平台和数据集成技术。此外，他还曾是IBM杰出的工程师，也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。

前言

近些年来，很多企业开始尝试使用大数据和云技术来构建数据湖（data lake），用于支持数据驱动的企业文化和决策，但这些项目经常会陷入停滞甚至失败。因为很多互联网公司的工作方式未必适合这些企业，而市面上又没有全面实用的指南来指导大家如何进行相应的调整。在这个背景下我写了这本书，目的是希望能在这方面提供帮助。

我曾在IBM 和Informatica（主要的数据技术供应商）任管理职务，在Menlo Ventures（一家领先的VC 公司）担任常驻企业家，目前是Waterline（一家大数据初创企业）的创始人兼CTO，在此期间我有幸能和上百位专家、有想法的人、行业分析师以及一线从业者讨论关于成功建立数据湖、培养数据驱动文化的挑战。本书正是我对各个行业（从社交媒体到银行和政府机构）和各种角色（从首席数据官和其他IT 主管到数据架构师、数据科学家和业务分析师）将会遇到的不同场景及其最佳实践的总结。

大数据、数据科学和数据分析实现了数据驱动决策，并有望在许多方面带来前所未有的洞察力和效率，例如我们处理数据的方式、与客户合作的方式以及寻找治愈癌症的方法，但数据科学和数据分析都需要访问历史数据。认识到了这一点，许多公司开始部署大数据湖，将所有数据集中在一个地方并开始保存历史记录，使得数据科学家和分析人员可以访问他们需要的信息，以实现数据驱动的决策。企业大数据湖弥合了不同的现代互联网公司自由文化之间的鸿沟，在这种统一的文化中，数据是所有实践的核心，每个人都是分析师，大部分人都可以对自己的数据集进行编码和处理。

想要取得成功，企业数据湖必须提供三项新的能力：

?? 高性价比、可扩展的存储和计算能力，用于在存储和分析大量数据的同时不至于引入过高的计算开销。

?? 经济高效的数据获取和治理方式，使得每个人在查找和使用正确数据的同时避免进行编程或手工临时取数，从而避免引入过高的人力成本。

?? 分层的、受管理的访问方式，根据不同的用户需求、技术水平和适用的数据管理策略，不同级别的数据可供不同用户使用。

Hadoop、Spark、NoSQL 数据库和基于弹性云的系统是令人兴奋的新技术，它们提供了第一项能力——高性价比、可扩展的存储和计算能力。虽然它们仍处在逐渐成熟的过程中，并面临着任何新技术固有的一些挑战，但它们已迅速趋向稳定并成为主流。然而这些强大的技术并不能提供另外两项能力——经济高效和分层数据访问。因此，当企业创建大型集群并收集大量数据后，最终得到的是数据沼泽而不是数据湖。这是由不可用数据集组成的大型存储库，人们无法查找或理解这些数据集，也无法依赖它做任何决策，因为这太危险了。

本书主要讲解为全面实现大数据湖的三项能力所经历的思考以及最佳实践，讨论了创建和发展数据湖的各种方法，包括数据水洼（data puddle，用作分析沙盒）和数据池（data pond，用作大数据仓库），以及从零开始构建数据湖的方法。书中探讨了自建、云上和虚拟三种不同体系结构数据湖的优缺点，内容包括如何建立不同的区域来存储原始未处理的数据、精心管理和汇总的数据，以及如何管理对这些区域的访问。它解释了如何启用自助服务以便用户能够自助查找、理解和取用数据，如何为具有不同技术能力的用户提供不同的交互，以及如何在此过程中不违反企业的数据管理政策。

目标读者

本书的目标读者是在大型传统企业工作的下面这几类人员：

?? 数据服务和治理团队：首席数据官和数据管理员。

?? IT 主管和架构师：首席技术官和大数据架构师。

?? 分析团队：数据科学家、数据工程师、数据分析师和分析主管。

?? 合规团队：首席信息安全官、数据保护官、信息安全分析师和合规检查主管。

本书内容得益于我在30 年的职业生涯中接触过的先进数据技术，以及帮助世界上那些超大型企业解决过的棘手数据问题。它借鉴了世界领先的大数据公司和企业的最佳实践，以及来自一线从业者和行业专家的短文和成功案例，为成功构建和部署大数据湖提供了全面的指导。如果你想充分利用这些令人兴奋的新型大数据技术和方法给企业带来优势，那么本书是一个很好的起点。对于管理层来说，他们可以先读一遍此书，当工作中遇到大数据问题时再来翻阅。对于一线从业者来说，他们可以将此书作为规划和执行大数据湖项目的实用参考。

排版约定

本书采用下述排版约定。

斜体（Italic）

表示新术语、URL、电子邮件地址、文件名和扩展名。

等宽字体（Constant Width）

表示程序清单，在段落中出现则表示程序元素，例如变量、函数名、数据类型、环境变量、语句和关键字。

斜体等宽字体（Constant Width Italic）

表示应该替换成用户提供的值，或者由上下文决定的值。

O’Reilly 在线学习平台（O’Reilly Online Learning）

近40 年来，O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。

我们拥有独一无二的专家和革新者组成的庞大网络，他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly 的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境，以及O’Reilly 和200 多家其他出版商提供的大量文本和视频资源。有关的更多信息，请访问http://oreilly.com。

联系我们

请把对本书的评价和问题发给出版社。

美国：

O’Reilly Media, Inc.

1005 Gravenstein Highway North

Sebastopol, CA 95472

中国：

北京市西城区西直门南大街2号成铭大厦C座807室（100035）

奥莱利技术咨询（北京）有限公司

这本书有专属网页，你可以在那儿找到本书的勘误、示例和其他信息，地址是：http://bit.ly/Enterprise-Big-Data-Lake。

如果你对本书有一些评论或技术上的建议，请发送电子邮件到[email protected]。

要了解O’Reilly 图书、培训课程、会议和新闻的更多信息，请访问我们的网站，地址是：http://www.oreilly.com。

我们的Facebook：http://facebook.com/oreilly。

我们的Twitter：http://twitter.com/oreillymedia。

我们的YouTube 视频： http://www.youtube.com/oreillymedia。

致谢

首先我要对所有与我分享故事、专业知识和最佳实践的专家和从业者们表示深深的感谢，这是一本关于你们的书，也是为你们而写的书！

此外也非常感谢所有帮助我完成本书书写的人，这是我的第一本书，没有你们的帮助我肯定无法完成。感谢：

O’Reilly 团队：我的O’Reilly 编辑Andy Oram，他在我精疲力竭的时候为本书注入了新的活力，并帮助它从意识流转变为连贯的内容；产品编辑Tim McGovern，他帮助此书出版；文案编辑Rachel Head，她让我震惊的是，即便经过了两年多的写作、编辑、重写、评论，以及反复的修改与重写，这本书仍然可以改进那么多。

通过短文分享了自己想法和最佳实践的行业贡献者，你可以在书中相应论文旁找到他们的名字和履历。

以全新的视角、批判性的眼光和行业专业知识为本书做出巨大改进的审校者:Sanjeev Mohan、Opinder Bawa 和Nicole Schwartz。

最后，感谢我的妻子Irina，我的孩子Hannah、Jane、Lisa 和John，我的妈妈Regina，我的朋友以及Waterline 大家庭的各位。如果没有你们的支持和爱，就不会有这本书。

短评

正在学习。

2020-07-31 13:27:10

一般般，现在购买有点过时了。

2020-08-04 14:40:15

东西不错的，一直在购买的。一直在购买的，一直在购买的，一直在购买的，一直在购买的，一直在购买的，一直在购买的，一直在购买的，一直在购买的，一直在购买的。

2020-08-01 09:27:56

大数据湖最佳实践

内容简介

作者简介

前言

目录

短评

产品特色