猜你喜欢
Spark大数据分析 源码解析与实例详解

Spark大数据分析 源码解析与实例详解

书籍作者:刘景泽 ISBN:9787121370519
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:5373
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书基于Spark 2.3.x、Spark 2.4.x系列版本,采用“理论+实践”的形式编写。全书共有90个实例,1个完整项目。

第1篇“准备”,包括认识大数据和Spark、安装与配置Spark集群、第1个Spark程序;

第2篇“入门”,包括读写分布式数据、处理分布式数据;

第3篇“进阶”,包括RDD的高级操作、用SQL语法分析结构化数据、实时处理流式数据;

第4篇“高阶”,包括实时处理流式数据、Spark的相关优化;

第5篇“商业项目实战”,用Spark的各种组件实现一个学生学情分析商业项目。

本书结构清晰、实例丰富、通俗易懂、实用性强,特别适合Spark的初学者和进阶读者作为自学用书。另外,本书也适合社会培训学校作为培训教材,还适合大中专院校的相关专业作为教学参考书。


作者简介

刘景泽

全栈工程师,长期从事大数据的研发工作,拥有丰富的大数据开发经验。

曾担任多家知名企的主力研发,并负责大数据云服务组件开发。

精通Java、Scala、Python等多种编程语言,擅长大数据生态圈的研发、算法、逆向工程等技术。

为多家企业提供技术支持,并长期面向企业一线开发人员分享实战经验。


编辑推荐
适读人群 :适合对大数据感兴趣的爱好者以及正在使用Spark的数据库管理员阅读使用。

过程完整:从基础配置过程一直到真正的商业项目开发

例子丰富:90个“实例”,1 个完整项目

原理清晰:重点概念、操作、思路都有图示,避免抽象理解

代码详尽:所有实例都有详细的代码,所有代码都有详尽的解读

知识点新:包含Structured Streaming详解

阅读感好:采用短段、短句,可以流畅阅读

辐射面广:讲解了Spark与周边框架的交互

服务完善:读者可加入本书QQ学习群在线交流


前言

Spark是一个较早实现完整生态圈的框架。它与Hadoop生态圈紧密结合,并能够独立运行。其高度完善的API及容错机制,能大大降低数据丢失或错乱的风险,从而让开发者将更多的精力放在数据分析的具体逻辑上。

-

过程涉及与周边框架的交互,包含HBase、Kafka、MySQL、Redis、HDFS、YARN、Hive,便于读者快速了解与周边框架的协作方式。

读者对象

- 大数据爱好者;

- 大数据分析工程师;

- 大数据挖掘工程师;

- 后台开发工程师;

- 大中专院校相关专业的学生。

致谢

诚挚感谢张皓先生为本书提供封面设计思路。

特别感谢家人、朋友的支持。

虽然我已对书中内容都进行了认真核实,并多次进行文字校对,但因作者水平所限,书中疏漏和错误在所难免,敬请广大读者批评与指正。

目录