Greenplum：从大数据战略到实现

书籍作者：冯雷	ISBN：9787111632160
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：7687
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

这是一本系统剖析Greenplum开源大数据平台的书籍，也是大数据战略制定与落地的实战型指导书！

本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求，从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考，并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读，又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。

本书作者来自Greenplum 核心研发团队，致力于以开源、开放的理念和先进的技术推进大数据产业生态，助力企业以更低的成本、更高的效率实现数字化转型，并基于Greenplum 开源社区培养大数据产业更多人才。

本书分为四个部分。

● 第一部分介绍大数据战略。其中，第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。

● 第二部分介绍大数据平台。其中，第 3 章将以数据平台演进历史和未来趋势为主题，描述三次整合的背景及影响，介绍选择大数据平台需要考虑的因素，以及为什么Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。

● 第三部分介绍机器学习。其中，第 8 章介绍 Greenplum 的各种过程化编程语言（用户自定义函数），用户可以使用 Python、R、Java 等实现用户自定义函数，还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib，数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析，并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍Greenplum 如何对文本数据和时空数据（GIS）进行存储、计算和分析。第 12 章将介绍Greenplum 丰富的图计算能力。

● 第四部分介绍运维管理和数据迁移。其中，第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从Oracle 和 Teradta 迁移到 Greenplum。

作者简介

冯雷(Ray Feng)

Pivotal中国常务董事(Managing Director)兼研发中心总经理。Pivotal中国成立至今，冯雷主持了近十亿人民币投资的中国运营和研发体系。作为Pivotal全球产品关键领导人，为Pivotal公司的数字化理念建立及其对应的Cloud Foundry和Greenplum产品提供战略输入。冯雷于2010年从美国硅谷归国，在世界500强公司EMC旗下组建了Pivotal中国。在归国之前，冯雷曾在500强企业甲骨文(Oracle)总部从事云计算产品研发。作为云计算早的一批从业人员，帮助甲骨文云计算资源调度领域成为意见领袖。拥有多项云计算专利。

姚延栋

Pivotal中国研发中心副总裁，在Pivotal公司全球范围内为Greenplum技术发展路线提供战略输入。联合创建了Pivotal中国研发中心，发起了Greenplum中国开源社区，奠定了包括阿里云、腾讯云和百度云在内的广大开源Greenplum用户群。在Pivotal中国招募并建设了Greenplum和HAWQ团队成为大数据和机器学习的意见领袖，培养团队成员同时成为Apache和Greenplum代码提交者。在创建Greenplum/Pivotal中国之前, 曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。拥有多项国内外云计算和大数据专利。

高小明

Pivotal中国研发中心Greenplum产品总监，先后参与和负责数据分析协作平台Chorus、开源PaaS云平台Cloud Foundry、MPP数据库Greenplum等产品的开发、运维和技术推广。目前着重关注PaaS云平台与大数据平台支撑下的数字化转型、微服务架构以及容器化与混合负载给数据产品带来的机遇和挑战。

杨瑜

Pivotal中国研发中心Greenplum工程技术总监，长期从事 Greenplum 内核的研发和管理工作，先后参与和负责基于Greenplum内核的机器学习库MADlib的研发、Greenplum 内核和PostgreSQL内核持续归并等工作，并参与组建Greenplum文本挖掘引擎GPText团队，有丰富的一线内核研发经验。

编辑推荐

适读人群：企业大数据战略制定者、大数据战略实施者、数据库管理员、数据分析人员、数据科学家、DBA及各种大数据感兴趣者或者相关从业者

Greenplum是业界领先的开源MPP大数据平台。2019年，Greenplum被Gartner评为全球排名第三的分析型数据库和排名第四的实时分析数据库，且为前十名中开源的产品。中国信息通信研究院评测的14款MPP数据库中约半数基于Greenplum。本书由Greenplum核心研发团队精心编写，融入了团队十余年来对云计算、大数据和人工智能驱动的企业数字化转型、先进技术发展趋势以及产品研发的深刻思考，对Greenplum这款快速成长的开源大数据平台进行了全方位深度解读，无论是企业决策者，还是大数据相关的技术人员，都能从本书中获益。

前言

序 Foreword

“大数据”一词最早出现于20世纪90年代，作为一个技术术语流行起来则始于2012年。时至今日，该词仍没有统一、明确的定义。人们通常从Volume、Velocity、Variety等角度定义大数据，而最吸引大众是Volume这一特点。根据维基百科的介绍，自20世纪80年代起，人均存储信息的能力每40个月增加一倍；截至2012年，全世界每天产生2.5艾字节（1018字节）的数据。IDC报告预测，全球数据将从2018年的33泽字节（1021字节）增长到2025年的175泽字节，其中近30%数据需要实时处理。世界正在以前所未有的速度数字化和创造数据。数字化时代到来了，数据时代到来了！

随着数据时代的到来，越来越多的企业和政府开始重视大数据及相关技术。2012年，美国政府宣布投资2亿美元拉动大数据相关产业发展，将“大数据战略”上升为国家意志。美国政府将数据定义为“未来的新石油”，并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。未来，对数据的占有和控制甚至将成为陆权、海权、空权之外的一种国家核心资产。随后多国政府和很多组织提出了相应的大数据战略。

然而，任何行业的升级、发展都不是一蹴而就的。就目前来看，不同企业和组织处于四种不同的数字化和大数据阶段：传统阶段、数字阶段、数据阶段和数学阶段。传统阶段指企业仍然以传统的方式使用软件技术，其主要特点是用软件支撑企业内部流程，通常是由企业内部的IT部门主导；数字阶段指企业开始用全新的视角看待和使用软件，软件成为公司主营业务的重要组成部分或者主要组成部分；数据阶段指企业通过全业务的数字化，积累大量数据，再通过数据分析，从数据中获取洞见，反过来促进业务健康发展；数学阶段是指自动化、智能化达到了高阶阶段，通过算法和模型的自动优化为公司提供动力，数学算法和模型成为公司发展的核心引擎。目前来看，虽然大家已经对“大数据”一词耳熟能详，但大多数企业和组织仍然处于传统阶段或者数字阶段早期。造成这一现象的主要原因之一是人才匮乏。根据中国商业联合会数据分析专业委员会统计，未来我国基础性数据分析人才缺口将达到1400万，而大数据专业技术人才缺口将达数百万。优秀的专业书籍对培育人才、缓解这一缺口大有裨益。

目前，市面上的大多数关于大数据的书籍要么侧重于大数据思维，要么侧重于某种或者某几种具体的大数据技术。与这些大数据书籍不同，本书立意新颖，涵盖范围很广，从多个角度对大数据战略到技术进行系统性介绍。本书横向从商业角度介绍了大数据、云计算和人工智能的关系，站在高阶数字化战略的高度解读大数据；纵向从数据处理背后的技术推动力的角度，阐述了大数据发展的历程及未来趋势；从技术实战角度则详细介绍了如何使用Greenplum大数据和机器学习平台实现大数据战略。

Greenplum是先进的开源分布式数据库之一，创建于2003年，2010年被EMC公司收购。它因出色的技术能力、易用性和丰富的企业级特性受到大量用户的欢迎，被广泛应用于金融、保险、证券、通信、航空、物流、零售、媒体、医疗、制造、能源等行业，在国内外有一大批拥趸者。2015年开源后更是发展迅速，目前在全球拥有大量的开源用户。腾讯云等主流的云厂商都将其列为重要的大数据存储、处理和分析服务之一。

本书作者均为Greenplum内核开发团队核心成员，在大数据和机器学习行业具有丰富的经验，全球视野和技术前瞻性都毋庸置疑。我也有幸和作者团队多次深度合作，相信他们精心打造的这本书可以给读者全新的启发，帮助大家用正确的理念和方法论来迎接大数据和人工智能时代的挑战与机遇。

祝各位阅读愉快！

王　龙

腾讯云副总裁

2019年3月

前　　言 Preface

数字原生

2010年11月，在Greenplum创始人的支持下，我们在北京建立了Greenplum中国研发体系。2013年4月，随着Pivotal公司的建立，我们在Greenplum中国研发的基础上合并了部分VMWare中国研发集团的P层云资产，建立了Pivotal中国办公室。截至本书完稿的时候，我们的中国核心研发团队和全球研发团队一起奋斗了8年，打造的Cloud Foundry产品和Greenplum产品成为Pivotal公司在纽约证券交易所上市荣登PaaS第一股的基础。作为Pivotal中国办公室的创始团队，我们一直在审视和提升Pivotal中国办公室的使命和愿景。高尚的使命和愿景是促使一个机构达到世界一流水平的必要条件，因为使命和愿景比战略更高一层。一个机构在前进的过程中，其战略不可避免地需要调整。在面对战略调整时，如果组织成员缺乏共同的使命和愿景，就很难在变化中存活下来。以PC行业为例，苹果公司由最初的苹果电脑公司（Apple Computers）发展到今天苹果（Apple）公司，业务也从以PC为重心迁移到以移动和云服务为重心。苹果公司的转型一路颠簸但最终成功，这与它们坚持艺术和科技的融合并提供一流的用户体验的使命是分不开的。对于不少没有完成转型的PC企业，仔细观察一下，会发现它们通常不能清楚地表达自己的使命。

那么Pivotal中国办公室的使命是什么？简单地说，是支持全球Pivotal产品和商业战略的成功。但是，这个回答显然不能说服和召集一批学霸把Pivotal中国办公室变成世界一流的创新机构。作者有幸参与Pivotal公司在EMC和VMWare内部的启动倡议（Pivotal Initiative），聆听到董事长Paul Maritz先生对Pivotal宣言（Manifesto）的解读。中国读者可能还不熟悉Maritz先生，根据维基百科的介绍，他是微软Windows平台的主要执行团队成员，负责过Windows 95和Windows NT等关键产品。在创建Pivotal之前，Maritz先生是VMWare公司的CEO，奠定了VMWare在虚拟化和I层云的行业领导地位。鉴于Maritz先生在业内的声望，作者仔仔细细阅读了他撰写的三页纸篇幅的Pivotal宣言，并且思考了Pivotal中国办公室如何既能拥抱Pivotal宣言又能在自己专注的领域成为国内意见领袖。今天，Pivotal的使命用一句话描述就是“The Way The Future Gets Built”，用中文直接翻译过来就是“构建未来的方式”。这句话显得有些抽象，所以在Pivotal中国办公室的日常事务中，我们会针对不同的团队来细化这句话：对于面向数字化转型客户的Pivotal Lab团队，这句话被表述为“交付一流的数字化转型体验”；对于云研发团队，这句话被表达为“通过Cloud Foundry云平台成为云原生平台的行业标杆”；对于数据库研发团队，这句话被阐述为“通过Greenplum成为大数据平台和机器学习的意见领袖”。这些使命背后的共同愿景就是提供“数字原生”世界的新产能，以及企业建立数字化所需要的软件平台和方法论。

数字原生就是从由物理世界为重心向数字世界为中心迁移时思考问题的方式。数字计算机发明之前，我们几乎没有什么数字资产和技术。数字计算机发明至今，我们对于数字资产的积累呈指数级增长，在我国更是呈现出跨越式发展的态势。举个例子，今天，如果我们出门不带手机，就会感觉寸步难行，本质上是因为手机已经成为我们进入数字世界的入口。通过手机，我们可以向数字世界发出各种请求，调度物理世界的资源为我们所用。Pivotal公司喜欢以“ask+综合部门@pivotal.io”的邮件方式来获得综合部门的支持。早期行政部门的同事刚加入Pivotal公司的时候常问我：“为什么不面对面请求，或者打个电话，又或者开个单子？”我的回答是这几种方式看似差别不大，但反映了思考问题方式的差别。Pivotal公司作为数字化的领导者，把软件和数据平台看作数字世界的入口。我们获取资源的方式是向这个数字世界发出请求。数字世界可能通过它的计算找到最优执行路径。有些工作的执行可能还需要转发给人进行人工处理，例如安装一台打印机。但是，有些请求则可以直接通过软件方式解决，例如申请一台云服务器。对于某些请求，虽然我们今天还无法完全以全数字化、无人干预的方式完成，但是，我们可以先把数字原生的框架奠定起来，为以后的进一步对接和持续改进做好准备。在作者看来，数字原生的持续改进过程分为三个阶段：

1）软件公司：通过数字应用实现数字世界和物理世界的无缝交互。

2）数据公司：通过大数据平台实现数据积累和数学模型运行支撑。

3）数学公司：通过数学模型的持续改进来最优化数字世界和物理世界资源。

因此，作者和团队希望能够以三部对应的著作（下面简称为“数字化三部曲”）在数字原生的征程上为读者提供战略参考和对应的软件平台及工具指导。

第一部曲：《Cloud Foundry：从数字化战略到实现》—这本书的主要目标是阐述企业如何实现数字原生第一阶段：实现数字化应用。该书讨论了云计算作为第三代技术平台带来的商业模式变更。在云计算的技术栈中，P层云带动了企业数字化浪潮。传统企业通过P层云可以迅速获得顶级互联网公司的软件迭代和发布速度，把与客户的交互通过消费级的应用数字化。书中例举福特公司通过FordPass建立了以汽车实体产品为核心的一系列用户数字化体验：汽车金融、远程监控车辆、停车位预留、旅途产品和服务推荐等。这个阶段也是一个持续改进的过程。以共享出行为例，今天用户通过手机平台进入数字世界，在打车应用中发送订单。打车平台通过选择最优执行路径，把订单发送给打车平台的司机。然后，司机在物理世界中驱车到达用户起点。随着有辅助的无人驾驶技术的成熟，这个数字世界的运行链条会继续延长，数字平台可以直接把无人车派送到用户起点。在其他的行业，数字应用的链条同样也在持续延长。

第二部曲：《Greenplum：从大数据战略到实现》（也就是本书）—我们的主要目的是阐述企业如何实现数字原生的第二阶段：大数据平台。随着数字应用的链条不断延长，企业需要一个大数据平台来积累应用生成的数据。这个工作听上去很容易，因为人们很早以前就使用磁带来存储数据，之后，存储媒介发生了巨大的变化，能够便捷地存储大量数据。那么为何还需要Greenplum这样一个大数据和机器学习平台？原因有两个：1）量大；2）快速计算。说到大，当数据量达到PB级别（相当于16000个64GB的iPhone中存储的数据）时，企业利用廉价但是可靠的存储来备份和管理是非常困难的。说到快，想象让用户从16000个iPhone的数据中寻找一张5年前的照片就可以感受到大海捞针般的困难；更何况企业的数据平台要支撑的机器学习和人工智能的数学模型的复杂度要比寻找一张照片的复杂度高几十到几万倍。可见，要想用极快的速度处理如此海量的数据是极其困难的。这也是企业在构建大数据平台时步履维艰的原因。Greenplum团队的优秀专家用企业积累了15年的知识和创新来解决这些难题：如何利用低价的存储设备来实现高可靠的数据存储？数据的存储如何为今天模型的计算做准备？如何给模型提供简单但又标准的接口？数据管理如何在“便于存储”和“便于日后查找”之间取得平衡？如何利用现在的I层云计算资源？如何访问文本和地理位置信息等各种数据源？如何访问和计算存储在其他系统（例如Hadoop）的数据？如何支撑今天主流的人工智能和机器学习模型？我们在创新过程中触碰到了很多计算机科学本身的极限。希望这本著作能给读者呈现一个解决了上述问题并可以实操的大数据平台和战略。

我们还在酝酿的第三部著作希望能帮助读者更好地实现数字原生的第三阶段：机器学习和人工智能。企业通过第一阶段和第二阶段的努力捕获和存储了大量的数据。为了更好地理解用户的需求，不少企业进入了更高阶的数字化战略：大数据驱动的机器学习和人工智能。在这个阶段的竞争中，企业会增设一个新的岗位：数据科学家。数据科学家会在大数据平台上创造和优化数学模型，以期待改进数字世界和物理世界的运作来更好地为人服务。前两部曲提供了软件工具和方法论以帮助企业成为基于大数据的人工智能和机器学习战略的数学公司，不少企业在实践过程中希望作者能够分享实践案例并就企业领导力转变提供咨询。考虑到这样一本著作的出版需要两年以上的时间，碰巧出版社和作者看到了顶级大数据咨询公司Booz Allen Hamilton的两位高管收集了大量实际案例的著作《The Mathematical Corporation: Where Machine Intelligence and Human Ingenuity Achieve the Impossible》，其中关于“数学公司”的提法和作者的观点不谋而合。通过出版社的努力，作者和团队把这部著作翻译成中文著作，可以作为第二部曲的伴侣著作来阅读。

虽然数字原生第三阶段的探讨还在创新者和早期用户者群体中进行，但是第二阶段大数据平台的建设已经在中国如火如荼地展开。大数据平台在数字原生三部曲中扮演了承上启下的关键角色，中大型的公司已经将大数据纳入信息平台的建设方案中。Greenplum因为开源生态和杰出的创新能力被列为方案的候选技术选项，这也使Pivotal中国办公室的同事们倍感欣慰。伴随Greenplum生态的持续发展壮大，希望这部著作能给企业高层制定战略提供建议和参考，既帮助工程团队开发应用，又能指导运营团队运维和保障。

本书内容组织方式

Greenplum经过15年的精心打磨，成为出色的开源MPP数据库和数据处理基础平台，已应用于银行、保险、证券、电信、物流、安保、零售、能源和广告等行业。我们希望本书能给已经建立或者准备建立大数据平台的企业决策者、架构师、开发人员、数据工程师、数据科学家和数据库管理员带来帮助，也希望从事大数据科研工作的教育工作者和学生能从中受益。

本书分为四个部分。

第一部分介绍大数据战略。其中，第1章将分享作者对于ABC（人工智能、大数据和云计算）之间关系的理解以及对人和人工智能的思考。第2章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。

第二部分介绍大数据平台。其中，第3章将以数据平台演进历史和未来趋势为主题，描述三次整合的背景及影响，介绍选择大数据平台需要考虑的因素，以及为什么Greenplum是理想的大数据平台。第4章为Greenplum数据库快速入门指南。第5章将介绍Greenplum架构的主要特点和核心引擎。第6章将介绍数据加载、数据联邦和数据虚拟化。第7章将介绍Greenplum的资源管理以及对混合负载的支持。

第三部分介绍机器学习与数据分析。其中，第8章介绍Greenplum的各种过程化编程语言（用户自定义函数），用户可以使用Python、R、Java等语言实现用户自定义函数，还可以通过容器化技术实现自定义函数的安全性和隔离性。第9章将介绍Greenplum内建的机器学习库MADlib，数据科学家可以使用内建的50多种机器学习算法基于SQL对数据进行高级分析，并介绍如何扩展MADlib以实现新算法。第10章和第11章将分别介绍Greenplum如何对文本数据和时空数据（GIS）进行存储、计算和分析。第12章将介绍Greenplum丰富的图计算能力。

第四部分介绍运维管理和数据迁移。其中，第13章将介绍各种监控和管理工具及相关企业级产品。第14章介绍数据库备份、恢复和迁移。第15章和第16章将分别介绍如何从Oracle和Teradata迁移到Greenplum。

限于作者学识，本书难免有疏漏之处，恳请同行和各位读者批判指正，我们将不胜感激。您可以通过数字化三部曲的官网（DigitX.cn）或Greenplum中文官方社区（greenplum.cn）给我们留言并了解Greenplum的技术信息、获得著作的相关学习资源。

冯　雷

Pivotal中国常务董事兼研发中心总经理

姚延栋

Pivotal中国研发中心副总裁

Greenplum：从大数据战略到实现

内容简介

作者简介

编辑推荐

前言

目录

产品特色