猜你喜欢
基于Python的大数据分析基础及实战

基于Python的大数据分析基础及实战

书籍作者:余本国 ISBN:9787517064992
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:9773
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

《基于Python的大数据分析基础及实战》是一本介绍如何用Python 3.6进行数据处理和分析的学习指南。其主要内容包括:Python语言基础、数据处理、数据分析、数据可视化,以及利用Python对数据库的操作、自建Python应用库的共享发布等。

《基于Python的大数据分析基础及实战》分3个部分:第1部分为基础知识,第2部分为实战案例,第3部分为拓展与延伸。本书内容丰富,讲解通俗易懂,非常适合本科生、研究生,以及对Python语言感兴趣或者想要使用Python语言进行数据分析的广大读者。


作者简介

余本国,博士,硕士研究生导师。于中北大学理学系任教,主讲线性代数、微积分、Python语言、大数据分析基础等课程。2012年到加拿大York University做访问学者。出版有《Python数据分析基础》等著作。

前言

数据分析是科学研究中的重要环节。有人曾这样定义:数据分析是有针对性地收集、加工、整理数据,并采用数据统计、挖掘技术分析和解释数据的科学与艺术!本书就是针对数据分析而量身定做的,旨在引导对数据分析感兴趣和拟从事数据分析的读者入门,感受和领略Python数据处理及分析的魅力。

Python是当今炙手可热的数据分析工具,是一种面向对象的解释型计算机程序设计语言,拥有丰富和强大的库,已经成为继Java、C++之后的第三大语言。其特点是简单易学、免费开源、高级语言、可移植性强、面向对象,具有可扩展性、可嵌入性、丰富的库、规范的代码等。Python除了极少的事情不能做之外,基本上可以说是全能的,广泛应用在系统运维、图形处理、数学处理、文本处理、数据库编程、网络编程、Web编程、多媒体应用、PYMO引擎(PYMO全称为Python Memories Off)、黑客编程、爬虫编写、机器学习、人工智能等方面。

在学习数据分析类书籍之前,一定有许多“小白”跟当初的笔者一样未战先怯:数据分析要用到那么多的数学知识,还要用到编程知识,我能行吗?一提到“数学”,估计很多人连勇气都没有了,直接就放弃了。另外对计算机编程的要求,很多人会问是不是要对Python很精通才行?

其实这些多是误解。先来说说数学,如果仅仅做数据的一般分析,那对数学知识的要求其实根本没有读者想象的那么难,甚至根本用不上“高大上”的数学知识。对于编程更是这样,Python语言极其简单,完全可以现学现用。曾有人说,20个小时就能搞定Python。只要读者能跟着本书认真地输入代码,一定能够自如地利用Python工具在数据的海洋中遨游。俗话说:“拳不离手,曲不离口”,学习编程也要亲自多敲代码,复制、粘贴源代码对于学习编程是没有益处的,尽管数据分析中需要的编程知识不多。

在本书的写作过程中,得到了中北大学Python实验室各位同学的帮助和支持。陈粮同学执笔编写和测试了第9章;孙玉林、周俊琦同学执笔编写和测试了《红楼梦》文本分析代码;另外,杨阳、袁凤恩、温一川、魏炳琦、张方等同学对本书的部分代码进行了测试及校对工作,在此一并表示感谢。

由于时间仓促,书中错误及疏漏之处在所难免,恳请读者批评指正。本书对应的视频教程、源代码及源数据,可以扫描下方二维码,关注微信公众号进行获取。


目录

第1部分 基 础 篇

第1章

Python语言基础 /2

1.0 引子 /2

1.1 工欲善其事,必先利其器(安装Python) /3

1.2 学跑得先学走(语法基础) /9

1.3 程序结构 /11

1.3.1 Hello World ! /11

1.3.2 运算符介绍 /12

1.3.3 顺序结构 /14

1.3.4 判断结构 /17

1.3.5 循环结构 /18

1.3.6 异常 /20

1.4 函数 /24

1.4.1 基本函数结构 /24

1.4.2 参数结构 /25

1.4.3 回调函数 /28

1.4.4 函数的递归与嵌套 /28

1.4.5 闭包 /31

1.4.6 匿名函数lambda /32

1.4.7 关键字yield /32

1.5 数据结构 /35

1.5.1 列表(list) /35

1.5.2 元组(tuple) /38

1.5.3 集合(set) /39

1.5.4 字典(dict) /40

1.5.5 集合的操作 /41

1.5.6 学以致用 /45

1.6 3个函数(map、filter、reduce) /47

1.6.1 遍历函数(map) /47

1.6.2 筛选函数(filter) /48

1.6.3 累计函数(reduce) /48

1.7 面向对象编程基础 /50

1.7.1 类 /50

1.7.2 类和实例 /51

1.7.3 数据封装 /52

1.7.4 私有变量与私有方法 /53

本章小结 /54

第2章

数据处理 /60

2.1 Anaconda简介 /60

2.2 Numpy简介 /66

2.3 关于Pandas /68

2.3.1 什么是Pandas /68

2.3.2 Pandas中的数据结构 /68

2.4 数据准备 /68

2.4.1 数据类型 /68

2.4.2 数据结构 /69

2.4.3 数据导入 /79

2.4.4 数据导出 /86

2.5 数据处理 /88

2.5.1 数据清洗 /89

2.5.2 数据抽取 /97

2.5.3 插入记录 /114

2.5.4 修改记录 /117

2.5.5 交换行或列 /120

2.5.6 排名索引 /122

2.5.7 数据合并 /131

2.5.8 数据计算 /137

2.5.9 数据分组 /141

2.5.10 日期处理 /143

带你飞(数据处理案例) /148

本章小结 /160

第3章

数据分析 /165

3.1 基本统计分析 /165

3.2 分组分析 /169

3.3 分布分析 /171

3.4 交叉分析 /173

3.5 结构分析 /174

3.6 相关分析 /176

小试牛刀(相关分析案例:电商数据分析) /178

本章小结 /180

第4章

数据可视化 /181

4.1 使用Python对数据进行可视化处理 /181

4.1.1 准备工作 /181

4.1.2 Matplotlib绘图示例 /186

4.1.3 Seabon中的图例 /198

4.1.4 pandas的一些可视化功能 /212

4.1.5 文本数据可视化 /217

4.1.6 networkx网络图 /218

4.1.7 folium绘制地图 /220

4.2 Python图像处理基础 /221

4.2.1 PIL图库 /221

4.2.2 OpenCV图库 /224

本章小结 /226

第5章

字符串处理与网络爬虫 /228

5.1 字符串处理 /228

5.1.1 字符串处理函数 /228

5.1.2 正则表达式 /230

5.1.3 编码处理 /237

5.2 网络爬虫 /240

5.2.1 获取网页源码 /240

5.2.2 从源码中提取信息 /241

5.2.3 数据存储 /246

5.2.4 网络爬虫从这里开始 /248

本章小结 /260

第2部分 实战案例篇

第6章

词云 /262

6.1 安装文件包 /263

6.2 jieba功能用法 /264

6.2.1 cut用法 /264

6.2.2 词频与分词字典 /265

6.3 文本词云图 /269

6.4 背景轮廓词云图的制作 /271

6.4.1 数据准备 /271

6.4.2 分词 /272

6.4.3 构建词云 /273

本章小结 /278

第7章

航空客户分类 /279

7.1 问题的提出 /279

7.2 聚类分析相关概念 /280

7.3 模型的建立 /281

7.4 Python实现代码 /281

7.5 分类结果展示与分析 /284

本章小结 /287

第8章

《红楼梦》文本分析 /288

8.1 准备工作 /289

8.2 分词 /291

8.2.1 读取数据 /291

8.2.2 数据预处理 /293

8.2.3 对红楼梦进行分词 /301

8.2.4 制作词云 /303

8.3 文本聚类分析 /312

8.3.1 构建分词TF-IDF矩阵 /312

8.3.2 使用TF-IDF矩阵对章节进行聚类 /314

8.4 LDA主题模型 /322

8.5 人物社交网络分析 /328

本章小结 /334

第3部分 拓展与延伸

第9章

Python字符串格式化 /336

9.1 使用%符号进行格式化 /336

9.2 使用format()方法进行格式化 /339

9.3 使用f方法进行格式化 /341

本章小结 /342

第10章

在Python中操作MySQL数据库 /343

10.1 对MySQL的连接与访问 /344

10.2 对MySQL的增、删、改、查操作 /345

10.2.1 查询操作 /345

10.2.2 插入操作 /346

10.2.3 更新操作 /347

10.2.4 删除操作 /347

10.3 创建数据库表 /348

本章小结 /349

第11章

fractal(分形)库的发布 /350

11.1 用Python绘制分形 /351

11.1.1 分形简介 /351

11.1.2 先睹为快 /351

11.1.3 绘制方法简介 /352

11.2 第三方库发布到PyPi /364

本章小结 /369

参考文献 /370


产品特色