猜你喜欢
大数据分析:Python爬虫、数据清洗和数据可视化

大数据分析:Python爬虫、数据清洗和数据可视化

书籍作者:黄源 ISBN:9787302530541
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:6913
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书的编写目的是向读者介绍大数据分析的基本概念和相应的技术应用。全书共10章,具体内容包括大数据、爬虫与大数据、Scrapy爬虫、数据库连接与查询、数据可视化基础与应用、大数据存储与清洗、数据格式与编码技术、数据抽取与采集、pandas数据分析与清洗,以及数据分析与清洗综合实训。本书将理论与实践操作相结合,通过大量的案例帮助读者快速掌握和应用大数据分析相关技术,通过对书中重要的、核心的知识点的练习,达到熟练应用的效果。

本书可作为大数据专业、软件技术专业、信息管理专业、计算机网络专业的教材,也可作为大数据爱好者的参考书。


编辑推荐

采用“理实一体化”教学方式,配套大量上机操作
涵盖新大数据分析知识及相关开源库的使用
提供150分钟视频讲解及丰富的配套教学资源
提供教学大纲、教学课件、电子教案、程序源码、习题答案等教学课件


前言

前言


大数据是现代社会高科技发展的产物。大数据相对于传统的数据分析,它是海量数据的集合,它以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心,正广泛地应用在军事、金融、环境保护、通信等各个领域中。

当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加明显。2014年“大数据”首次出现在我国《政府工作报告》中。报告中提到,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。“大数据”一词逐渐在国内成为热议的词汇。2015年国务院正式印发《促进大数据发展行动纲要》,《纲要》明确指出要不断地推动大数据发展和应用,在未来打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。

本书以理论与实践操作相结合的方式深入地讲解了大数据分析的基本知识和实现的基本技术,在内容设计上既有上课时教师的讲述部分,包括详细的理论与典型的案例,又有大量的实训环节,双管齐下,可极大地激发学生在课堂上的学习积极性与主动创造性,让学生在课堂上跟上老师的思维,从而学到更多有用的知识和技能。

本书共10章,主要包括大数据、爬虫与大数据、Scrapy爬虫、数据库连接与查询、数据可视化基础与应用、大数据存储与清洗、数据格式与编码技术、数据抽取与采集、pandas数据分析与清洗,以及数据分析与清洗综合实训。

本书有如下特点。

(1) 采用“理实一体化”教学方式,课堂上既有教师的讲述,又有学生独立思考、上机操作等内容。

(2) 配套资源丰富,本书提供教学大纲、教学课件、电子教案、习题答案、程序源码等多种教学资源,扫描封底的课件二维码可以下载; 本书还提供150分钟的视频讲解,扫描书中相应位置的二维码可以在线观看、学习。

(3) 紧跟时代潮流,注重技术变化,书中包含了最新的大数据分析知识及一些开源库的使用。

(4) 编写本书的教师都具有多年的教学经验,重难点突出,能够激发学生的学习热情。

本书可作为大数据专业、软件技术专业、信息管理专业、计算机网络专业的教材,也可作为大数据爱好者的参考书。


本书建议学时为80学时,具体分布如下表所示。







章节建 议 学 时章节建 议 学 时


大数据4大数据存储与清洗6

爬虫与大数据12数据格式与编码技术6

Scrapy爬虫8数据抽取与采集12

数据库连接与查询6pandas数据分析与清洗12

数据可视化基础与应用10数据分析与清洗综合实训4



本书由黄源、蒋文豪、徐受蓉编写。其中,黄源编写了第1章、第6~10章; 蒋文豪编写了第2章,蒋文豪和黄源共同编写了第3章; 徐受蓉编写了第4章和第5章。徐受蓉教授对书中内容进行了审阅工作,全书由黄源负责统稿工作。

本书是校企合作共同编写的结果,在编写过程中得到了中国电信金融行业信息化应用重庆基地总经理助理杨琛的大力支持。

在编写过程中,我们参阅了大量的相关资料,在此表示感谢!

由于编者水平有限,书中难免出现疏漏之处,恳请广大读者批评指正。



编者


2019年10月于重庆



目录

目录


配套资源下载




目录

第1章大数据


1.1大数据概述


1.1.1大数据介绍


1.1.2大数据的特征


1.1.3大数据技术应用与基础


1.2大数据的意义


1.2.1大数据的国家战略意义


1.2.2大数据的企业意义


1.2.3我国大数据市场的预测


1.3大数据的产业链分析


1.3.1技术分析


1.3.2运营分析


1.4本章小结


1.5实训


习题


第2章爬虫与大数据


2.1爬虫概述


2.1.1爬虫介绍


2.1.2爬虫的地位与作用


2.2Python介绍


2.2.1Python开发环境搭建


2.2.2编写Python程序


2.2.3Python数据类型


2.3爬虫相关知识


2.3.1了解网页结构


2.3.2Python与爬虫


2.3.3基础爬虫框架


2.4利用爬虫抓取网页内容


2.4.1观察与分析页面


2.4.2抓取过程分析


2.4.3获取页面内容


2.5本章小结


2.6实训


习题


第3章Scrapy爬虫


3.1Scrapy爬虫概述


3.2Scrapy原理


3.2.1Scrapy框架的架构


3.2.2Request对象和Response对象


3.2.3Select对象


3.2.4Spider开发流程


3.3Scrapy的开发与实现


3.3.1Scrapy爬虫开发流程


3.3.2创建Scrapy项目并查看结构


3.3.3编写代码并运行爬虫


3.4本章小结


3.5实训


习题


第4章数据库连接与查询


4.1数据库


4.1.1数据库概述


4.1.2关系数据库设计


4.2MySQL数据库


4.2.1MySQL数据库概述


4.2.2MySQL数据库下载、安装与运行


4.2.3MySQL数据库命令行入门


4.3使用Python操作MySQL数据库


4.3.1pymysql安装与使用


4.3.2Python连接MySQL数据库


4.4本章小结


4.5实训


习题


第5章数据可视化基础与应用


5.1数据可视化


5.1.1数据可视化概述


5.1.2数据可视化工具


5.1.3数据可视化图表


5.2matplotlib可视化基础


5.2.1numpy库


5.2.2matplotlib认识与安装



5.2.3matplotlib测试


5.2.4matplotlib.pyplot库


5.3matplotlib可视化绘图


5.3.1绘制线性图形


5.3.2绘制柱状图形


5.3.3绘制直方图


5.3.4绘制散点图


5.3.5绘制极坐标图


5.3.6绘制饼图


5.4pyecharts可视化应用


5.5本章小结


5.6实训


习题


第6章大数据存储与清洗


6.1大数据存储


6.2数据清洗


6.2.1数据清洗概述


6.2.2数据清洗的原理


6.2.3数据清洗的流程


6.2.4数据清洗的工具


6.3数据标准化


6.3.1数据标准化的概念


6.3.2数据标准化的方法


6.3.3数据标准化的实例


6.4本章小结


6.5实训


习题


第7章数据格式与编码技术


7.1文件格式


7.2数据类型与编码


7.2.1数据类型概述


7.2.2字符编码


7.2.3数据转换


7.3Kettle数据清洗与转换工具的使用


7.3.1Kettle概述


7.3.2Kettle的安装与使用


7.4CSV格式的数据转换


7.4.1CSV格式概述


7.4.2CSV与JSON文件的转换


7.5本章小结


7.6实训



产品特色