猜你喜欢
Hadoop+Spark大数据巨量分析与机器学习整合开发实战

Hadoop+Spark大数据巨量分析与机器学习整合开发实战

书籍作者:林大贵 ISBN:9787302453758
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:6562
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介
《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》从浅显易懂的“大数据和机器学习”原理介绍和说明入手,讲述大数据和机器学习的基本概念,如:分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单台Windows系统上通过Virtual Box虚拟机安装多台Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以将实践平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。
  《Hadoop + Spark 大数据巨量分析与机器学习整合开发实战》非常适合于学习大数据基础知识的初学者阅读,*适合正在学习大数据理论和技术的人员作为上机实践用的教材。
前言
如同本书作者所说的,信息技术已经来到了第五波浪潮一一“大数据”,在因特网、社交媒体、电子商务等交叉发展和呼应下,“网络”这个巨人已经拥有了难以计数的海量数据,有传统结构化的数据、半结构化的数据,但更多的是非结构化的数据。这些貌似杂乱无章、毫无意义的海量数据,却是一座等待发掘的巨大“金矿”。
  这些海量数据中蕴含着极为丰富的人类知识库,它是一笔巨大的信息资产。这些原本很难收集整理的大数据,随着云计算时代的来临,对它们进行及时甚至是实时分析和处理并加以有效利用,就不再是“海市蜃楼”了。
  与大数据相关的内容中,不外乎三个方面:大数据理论,大数据分析和处理的技术,大数据的实践应用。目前与大数据有关的出版物中,偏重于理论教学和技术介绍一类的比较多,而偏重于上机实践和自我学习的书却比较少见。因此,本书非常适合大数据学习的初学者和正在学习大数据理论和技术的人员作为上机实践用的教材。
  本书从浅显易懂的“大数据和机器学习”原理介绍和说明开始,介绍大数据和机器学习一一分类、分析、训练、建模、预测一一机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。
  在本书中,不是对这些原理进行纯理论的阐述,而是提供了丰富的上机实践操作和范例程序,这样极大地降低了读者学习大数据技术的门槛,对于需要直接上机实践的学习者而言,本书更像是一本大数据学习的实践上机手册。书中首先展示了如何在单台Windows系统上通过VirtualBox虚拟机安装多台Linux虚拟机,而后建立Hadoop集群,再建立Spark开发环境。搭建这个上机实践的平台并不限制于单台实体计算机,主要是考虑个人读者上机实践的实际条件和环境。对于有条件的公司和学校,参照这个搭建过程,同样可以将实践平台搭建在多台实体计算机上。
  在搭建好大数据上机实践的软硬件环境之后,就可以在各个章节的学习中结合本书提供的范例程序逐一设置、修改、调试和运行,从中学到大数据实践应用中核心技术的真谛一一对大数据进行高效的“加工”,萃取大数据中蕴含的“智能和知识”,实现数据的“增值”,并最终将其应用于实际工作或者商业中。
目录
第1章 大数据与机器学习
1.1 大数据定义
1.2 Hadoop简介
1.3 Hadoop HDFS分布式文件系统
1.4 Hadoop MapReduce的介绍
1.5 Spark的介绍
1.6 机器学习的介绍

第2章 VirtualBox虚拟机软件的安装
2.1 VirtualBox的下载和安装
2.2 设置VirtualBox语言版本
2.3 设置VirtualBox存储文件夹
2.4 在VirtualBox创建虚拟机

第3章 Ubuntu Linux操作系统的安装
3.1 下载安装Ubuntu的光盘文件
3.2 在Virtual设置Ubuntu虚拟光盘文件
3.3 开始安装Ubuntu
3.4 启动Ubuntu
3.5 安装增强功能
3.6 设置默认输入法
3.7 设置“终端”程序
3.8 设置“终端”程序为白底黑字
3.9 设置共享剪贴板

第4章 Hadoop Single Node Cluster的安装
4.1 安装JDK
4.2 设置SSH无密码登录
4.3 下载安装Hadoop
4.4 设置Hadoop环境变量
4.5 修改Hadoop配置设置文件
4.6 创建并格式化HDFS目录
4.7 启动Hadoop
4.8 打开Hadoop ResourceManager Web界面
4.9 NameNode HDFS Web界面

第5章 Hadoop Multi Node Cluster的安装
5.1 把Single Node Cluster复制到data1
5.2 设置VirtualBox网卡
5.3 设置data1服务器
5.4 复制data1服务器到data2、data3、master
5.5 设置data2、data3服务器
5.6 设置master服务器
5.7 master连接到data1、data2、data3创建HDFS目录
5.8 创建并格式化NameNode HDFS目录
5.9 启动Hadoop Multi Node Cluster
5.10 打开Hadoop ResourceManager Web界面
5.11 打开NameNode Web界面

第6章 Hadoop HDFS命令
6.1 启动Hadoop Multi-Node Cluster
6.2 创建与查看HDFS目录
6.3 从本地计算机复制文件到HDFS
6.4 将HDFS上的文件复制到本地计算机
6.5 复制与删除HDFS文件
6.6 在Hadoop HDFS Web用户界面浏览HDFS

第7章 Hadoop MapReduce
7.1 介绍wordCount.Java
7.2 编辑wordCount.Java
7.3 编译wordCount.Java
7.4 创建测试文本文件
7.5 运行wordCount.Java
7.6 查看运行结果
7.7 Hadoop MapReduce的缺点

第8章 Spark的安装与介绍
8.1 Spark的Cluster模式架构图
8.2 Scala的介绍与安装
8.3 安装Spark
8.4 启动spark-shell交互界面
8.5 设置spark-shell显示信息
8.6 启动Hadoop
8.7 本地运行spark-shell程序
8.8 在Hadoop YARN运行spark-shell
8.9 构建Spark Standalone Cluster执行环境
8.10 在Spark Standalone运行spark-shell

第9章 Spark RDD
9.1 RDD的特性
9.2 基本RDD“转换”运算
9.3 多个RDD“转换”运算
9.4 基本“动作”运算
9.5 RDD Key-Value 基本“转换”运算
9.6 多个RDD Key-Value“转换”运算
9.7 Key-Value“动作”运算
9.8 Broadcast广播变量
9.9 accumulator累加器
9.10 RDD Persistence持久化
9.11 使用Spark创建WordCount
9.12 Spark WordCount详细解说

第10章 Spark的集成开发环境
10.1 下载与安装eclipse Scala IDE
10.2 下载项目所需要的Library
10.3 启动eclipse
10.4 创建新的Spark项目
10.5 设置项目链接库
10.6 新建scala程序
10.7 创建WordCount测试文本文件
10.8 创建WordCount.scala
10.9 编译WordCount.scala程序
10.10 运行WordCount.scala程序
10.11 导出jar文件
10.12 spark-submit的详细介绍
10.13 在本地local模式运行WordCount程序
10.14 在Hadoop yarn-client运行WordCount程序
10.15 在Spark Standalone Cluster上运行WordCount程序
10.16 本书范例程序的安装说明

第11章 创建推荐引擎
11.1 推荐算法介绍
11.2 “推荐引擎”大数据分析使用场景
11.3 ALS推荐算法的介绍
11.4 ml-100k推荐数据的下载与介绍
11.5 使用spark-shell导入ml-100k数据
11.6 查看导入的数据
11.7 使用ALS.train进行训练
11.8 使用模型进行推荐
11.9 显示推荐的电影名称
11.10 创建Recommend项目
11.11 Recommend.scala程序代码
11.12 创建PrepareData()数据准备
11.13 recommend()推荐程序代码
11.14 运行Recommend.scala
11.15 创建AlsEvaluation.scala调校推荐引擎参数
11.16 创建PrepareData()数据准备
11.17 进行训练评估
11.18 运行AlsEvaluation
11.19 修改Recommend.scala为佳参数组合

第12章 StumbleUpon数据集
12.1 StumbleUpon数据集简介
12.2 下载StumbleUpon数据
12.3 用LibreOffice Calc 电子表格查看train.tsv
12.4 二元分类算法

第13章 决策树二元分类
13.1 决策树的介绍
13.2 创建Classification项目
13.3 开始输入RunDecisionTreeBinary.scala程序
13.4 数据准备阶段
13.5 训练评估阶段
13.6 预测阶段
13.7 运行RunDecisionTreeBinary.scala
13.6 修改RunDecisionTreeBinary调校训练参数
13.7 运行RunDecisionTreeBinary进行参数调校
13.8 运行RunDecisionTreeBinary不进行参数调校

第14章 逻辑回归二元分类
14.1 逻辑回归分析介绍
14.2 RunLogisticRegression WithSGDBinary.scala程序说明
14.3 运行RunLogisticRegression WithSGDBinary.scala进行参数调校
14.4 运行RunLogisticRegression WithSGDBinary.scala不进行参数调校

第15章 支持向量机SVM二元分类
15.1 支持向量机SVM算法的基本概念
15.2 RunSVMWithSGDBinary.scala 程序说明
15.3 运行SVMWithSGD.scala进行参数调校
15.4 运行SVMWithSGD.scala不进行参数调校

第16章 朴素贝叶斯二元分类
16.1 朴素贝叶斯分析原理的介绍
16.2 RunNaiveBayesBinary.scala程序说明
16.3 运行NaiveBayes.scala进行参数调校
16.4 运行NaiveBayes.scala不进行参数调校

第17章 决策树多元分类
17.1 “森林覆盖植被”大数据问题分析场景
17.2 UCI Covertype数据集介绍
17.3 下载与查看数据
17.4 创建RunDecisionTreeMulti.scala
17.5 修改RunDecisionTreeMulti.scala程序
17.6 运行RunDecisionTreeMulti.scala进行参数调校
17.7 运行RunDecisionTreeMulti.scala不进行参数调校

第18章 决策树回归分析
18.1 Bike Sharing大数据问题分析
18.2 Bike Sharing数据集
18.3 下载与查看数据
18.4 创建RunDecisionTreeRegression.scala
18.5 修改RunDecisionTreeRegression.scala
18.6 运行RunDecisionTreeRegression. scala进行参数调校
18.7 运行RunDecisionTreeRegression. scala不进行参数调校

第19章 使用Apache Zeppelin 数据可视化
19.1 Apache Zeppelin简介
19.2 安装Apache Zeppelin
19.3 启动Apache Zeppelin
19.4 创建新的Notebook
19.5 使用Zeppelin运行Shell 命令
19.6 创建临时表UserTable
19.7 使用Zeppelin运行年龄统计Spark SQL
19.8 使用Zeppelin运行性别统计Spark SQL
19.9 按照职业统计
19.10 Spark SQL加入文本框输入参数
19.11 加入选项参数
19.12 同时显示多个统计字段
19.13 设置工具栏
19.14 设置段落标题
19.15 设置Paragraph段落的宽度
19.16 设置显示模式