大数据Hive离线计算开发实战
书籍作者:杨力 |
ISBN:9787115448088 |
书籍语言:简体中文 |
连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 |
下载次数:8983 |
创建日期:2021-02-14 |
发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
内容简介
本书从数据处理平台数据库和数据仓库入手,帮助读者逐步搭建大数据Hive数据仓库平台,并介绍了这种传统数据分析方法在大数据平台成功应用的典型案例。本书通过对Hive数据定义语言、Hive数据操纵语言、Hive数据基本查询、Hive数据复杂查询的详细介绍,全面阐述了Hive大数据平台工具的应用与开发。另外,还介绍了Hive数据库对象、用户自定义函数以及Azkaban工作流作业调度器,帮助读者掌握Hive平台的强大功能和特性。最后,通过电商推荐系统、汽车销售数据分析系统以及微博数据分析系统3个实战开发项目案例,让读者对Hive大数据平台数据仓库工具的实战应用有更深的理解。
作者简介
杨力,原北大青鸟学术部经理兼教学总监,中信国安创客霸王课特聘高级讲师,现任北京兄弟连IT教育大数据专家级讲师,一直从事大数据方向,是大数据领域专家,资深顾问,致力于大数据技术的推广与普及,拥有Apache Hadoop、Oracle OCM等多项产品的技术认证证书。曾创立国内**大数据校企合作大数据实验室平台,现已推广至全国高校,助力高校大数据学科的建设和研究,对国内大中型企业的信息系统设计与实施有丰富的实践经验。曾在一线任职新奥集团大数据平台首席架构师,京东万象大数据平台缔造人之一,二六三网络通信反垃圾邮件系统数据平台项目经理、中信银行网银数据平台技术经理等要职。
编辑推荐
1.项目经典:深度剖析三大企业级项目实战案例——电商推荐系统、汽车销售数据分析系统、微博数据分析系统,帮助读者进一步提高自己;
2.详细介绍HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大数据工具。
进入21世纪,我们迎来了数据爆炸式增长的时代,人们计量数据的单位由GB进入到了TB、PB、EB、ZB……举个简单的例子,十年前或者五年前我们购买移动硬盘,它的存储容量为80GB至500GB;现在我们购买移动硬盘,它的存储容量为1TB至2TB。因此,在数据爆炸式增长的同时,我们也迎来了大数据的时代。所谓大数据,简单来讲就是数据体量巨大、数据种类繁多、数据价值密度低、数据处理速度快,大数据是需要新处理模式才能具有更强大决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
在过去很多年,各个企业、单位都积累了大量丰富的数据,并购买服务器来存储这些数据。数据是积累下来了,可是对于持续不断增长的数据,除了需要不断购买服务器,花巨大的硬件成本来存储,我们又能从这些持续不断积累下来的数据中得到什么?如何去挖掘和利用这些数据?这些数据都是历史数据,也叫离线数据,于是一个全新的技术Hive离线计算进入了大众的视野。它提出海量数据可以继续沿用传统的数据分析方法SQL语句来处理,开发人员不需要学习新的脚本语言而继续使用熟悉的SQL结构化查询语句来处理大规模的数据。区别是,此时此刻SQL语句不再运行在传统的数据库或者数据仓库中,而是运行在大数据分布式并行计算处理平台上。该数据平台为我们提供了一个工具,那就是Hive离线计算处理工具,所用到的语言称之为HiveQL查询语言,其语法结构与传统SQL语言几乎是一模一样的,这就是本书将要介绍的Hive大数据离线计算的相关技术。它能解决不断增长的海量离线数据处理计算问题,帮助企业从数据中获取经验,并得到巨大的潜在商业价值。
本书将带您认识Hive大数据离线计算的基本概念。通过学习本书,您将对Hive大数据离线技术有一个深刻的认识,并且掌握大数据技术中主流的离线计算工具Hive,再通过大数据的离线计算项目案例,让您从Hive大数据离线计算技术的实战应用中得到训练。这也许是您学习大数据离线计算技术的最佳入门途径之一。
目录
目录
第01章 数据仓库基础 1
1.1 数据处理平台 1
1.2 数据库 2
1.3 关系型数据库 2
1.3.1 数据库三范式 3
1.3.2 数据库事务 6
1.3.3 数据库设计理念 7
1.4 数据仓库 7
1.4.1 无数据仓库的时代 7
1.4.2 数据仓库的发展 8
1.5 数据仓库设计理念 9
1.6 数据库与数据仓库的不同 10
1.7 本章总结 11
1.8 本章习题 11
第02章 Hive安装部署 12
2.1 Hive基本概念 12
2.1.1 Hive简介 12
2.1.2 Hive设计特性 13
2.1.3 Hive与传统数据库的对比 14
2.2 Hive安装部署 14
2.3 安装配置MySQL 16
2.4 配置启动Hive 22
2.5 Hive常用内部命令 26
2.6 Hive数据类型 27
2.6.1 Hive基本数据类型 28
2.6.2 Hive集合数据类型 30
2.7 本章总结 36
2.8 本章习题 36
第03章 Hive数据定义与操作 37
3.1 HiveQL数据定义语言 37
3.1.1 创建数据库 38
3.1.2 删除数据库 40
3.1.3 创建表 40
3.1.4 修改表 45
3.1.5 删除表 46
3.1.6 分区表 47
3.2 HiveQL数据操作 53
3.2.1 向管理表中装载数据 54
3.2.2 经查询语句向表中插入数据 54
3.2.3 单个查询语句中创建表并加载数据 55
3.2.4 导入数据 55
3.2.5 导出数据 56
3.3 本章总结 56
3.4 本章习题 57
第04章 HiveQL数据查询基础 58
4.1 HiveQL数据查询语句 58
4.1.1 SELECT语句 58
4.1.2 WHERE语句 59
4.1.3 GROUP BY语句 60
4.1.4 HAVING分组筛选 61
4.1.5 ORDER BY 语句和
SORT BY语句 62
4.2 HiveQL连接查询语句 64
4.3 本章总结 70
4.4 本章习题 70
第05章 HiveQL数据查询进阶 71
5.1 Hive内置函数 71
5.1.1 数学函数 72
5.1.2 字符函数 74
5.1.3 转换函数 76
5.1.4 日期函数 76
5.1.5 条件函数 77
5.1.6 聚合函数 77
5.2 Hive构建搜索引擎日志数据分析系统 79
5.2.1 数据预处理(Linux环境) 79
5.2.2 基于Hive构建日志数据的数据仓库 81
5.2.3 数据分析需求(1):条数统计 84
5.2.4 数据分析需求(2):关键词分析 84
5.2.5 数据分析需求(3):UID分析 85
5.2.6 数据分析需求(4):用户行为
分析 86
5.3 Sqoop应用与开发 88
5.3.1 Sqoop简介 89
5.3.2 Sqoop安装部署 89
5.3.3 Sqoop将Hive表中的数据导入MySQL 91
5.4 本章总结 96
5.5 本章习题 96
第06章 Hive数据库对象与
用户自定义函数 97
6.1 Hive视图 97
6.1.1 创建视图 98
6.1.2 查看视图 98
6.1.3 视图应用实战 99
6.1.4 删除视图 100
6.2 Hive分桶表 100
6.2.1 创建表 101
6.2.2 插入数据 101
6.3 Hive用户自定义函数 102
6.3.1 用户自定义函数简介 102
6.3.2 UDF应用开发 103
6.4 Hive用户自定义聚合函数 105
6.4.1 用户自定义聚合函数简介 105
6.4.2 UDAF应用开发 105
6.5 本章总结 108
6.6 本章习题 108
第07章 Azkaban任务调度器 109
7.1 Azkaban简介 109
7.1.1 Azkaban基本原理 110
7.1.2 Azkaban核心组件 111
7.2 Azkaban安装部署 112
7.2.1 准备工作 112
7.2.2 安装MySQL 112
7.2.3 配置MySQL 113
7.2.4 配置AzkabanWebServer 114
7.2.5 启动AzkabanWebServer
服务器 116
7.2.6 配置AzkabanExecutorServer 116
7.2.7 启动AzkabanExecutorServer
执行服务器 117
7.2.8 登录访问WebServer并创建
工作流调度项目 117
7.3 Hadoop作业的设置与书写 119
7.4 Hive作业的设置与书写 128
7.5 本章总结 130
7.6 本章习题 131
第08章 电商推荐系统开发实战 132
8.1 构建数据仓库 132
8.1.1 创建数据仓库 133
8.1.2 创建原始数据表 134
8.1.3 加载数据到数据仓库 136
8.1.4 验证数据结果 136
8.2 数据清洗 139
8.2.1 创建临时表 139
8.2.2 数据清洗详细步骤 140
8.2.3 验证清洗 143
8.3 推荐算法实现 144
8.3.1 Mahout安装部署 144
8.3.2 itembase协同过滤推荐算法 147
8.3.3 路径准备 148
8.3.4 运行推荐算法 150
8.3.5 查看推荐结果 151
8.4 数据ETL 152
8.4.1 获取数据 152
8.4.2 创建数据库和表 152
8.4.3 加载数据 153
8.4.4 验证ETL过程 153
8.5 本章总结 155
8.6 本章习题 156
第09章 汽车销售数据分析
系统实战开发 157
9.1 数据概况 157
9.2 项目实战 158
9.2.1 构建数据仓库 158
9.2.2 创建原始数据表 159
9.2.3 加载数据到数据仓库 161
9.2.4 验证数据结果 161
9.2.5 统计乘用车辆和商用车辆的
销售数量和销售数量占比 162
9.2.6 统计山西省2013年每个月的
汽车销售数量的比例 162
9.2.7 统计买车的男女比例及男女对车的
品牌的选择 163
9.2.8 统计车的所有权、车辆型号和
车辆类型 165
9.2.9 统计不同类型车在一个月(对应一段
时间,如每月或每年)的总销量 167
9.2.10 通过不同类型(品牌)车销售情况,
来统计发动机型号和燃料种类 168
9.2.11 统计五菱某一年每月的销售量 168
9.3 本章总结 169
9.4 本章习题 169
第 10章 新浪微博数据分析系统
实战开发 170
10.1 数据概况 170
10.1.1 数据参数 170
10.1.2 数据类型 171
10.2 项目实战 172
10.2.1 组织数据 172
10.2.2 统计需求 174
10.2.3 特殊需求 179
10.2.4 数据ETL 182
10.3 本章总结 184
10.4 本章习题 184
短评
书中总是会在你想看注释的时候成功没写注释,很好的培养了有问题问~的习惯,编辑错误也有例如:将“.”写成了“,”,多给你写个减号也不知道是啥意思,或者少个括号都是存在的。的物流和服务是棒棒哒,书的纸质也是手感很好,就是书的内容槽点多的让我忍不住要给它写评论。
2020-07-01 08:42:18
最近学习一下,工作用到了
2020-06-11 18:45:37
有很多干货,值得一读
2020-06-23 08:39:23
的物流服务还是很赞的哦,第三方店铺应该都用快递,估计早晚超过~。
2020-06-19 23:11:25
送货速度太快了,信奈。
2020-06-18 17:22:25
出发赶不及斤斤计较叽叽咕咕f个哈哈哈哈哈哈哈哈哈哈哈哈哈哈
2020-06-05 21:20:44