猜你喜欢
对比Excel,轻松学习Python统计分析

对比Excel,轻松学习Python统计分析

书籍作者:张俊红 ISBN:9787121447549
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:4537
创建日期:2023-05-30 发布日期:2023-05-30
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

《对比Excel,轻松学习Python统计分析》是“对比Excel”的第4本书,全书依旧突出对比学习的特点,通过对比 Excel 的方式来讲解如何利用 Python 学习统计学知识,即统计分析。是“对比 Excel”之前3本书的延续,同时也是数据分析师技能树的扩展。

《对比Excel,轻松学习Python统计分析》的主线是围绕统计学的理论知识展开的,层层递进,依次为描述性分析、概率和概率分布、抽样推 断与参数估计、假设检验、方差分析、卡方分析、回归模型、相关性分析、时间序列。每个理 论知识又由核心的 3 个部分组成:该理论知识在数据分析中的应用、理论知识讲解、Excel 和 Python 工具的实现,让大家学完本书以后既学到了理论知识,也知道如何将理论知识在数据分 析中应用,还知道如何用 Excel 和 Python 去实现。


作者简介

张俊红,某互联网公司资深数据分析师,畅销书《对比Excel,轻松学习Python数据分析》作者。对比学习法倡导者,入职数据分析师系列丛书作者。喜欢分享,致力于做一个数据科学路上的终身学习者、实践者、分享者。公众号“俊红的数据分析之路”运营人。

编辑推荐
适读人群 :主要面向数据分析师群体以及想要从事数据分析师的大学生。

“入职数据分析师系列”丛书

畅销4年,深受读者好评

总销量超过20万册

《对比Excel,轻松学习Python数据分析》

连续三年稳居各大网店畅销榜前列

出版有繁体版、韩语版

荣获中国工信出版集团2020年优秀出版物二等奖

荣获电子工业出版社2020年优秀畅销书奖

荣获博文视点公司2019年震撼力图书奖


前言

前言

为什么要写作本书

相比Excel、Python 这些数据分析工具,统计学算是数据分析师需要学的第一门比较偏理论的学科内容。目前市面上关于统计学的图书主要有如下特点。

?? 偏理论型的图书,更多的是学校教材,而很多分析师又非科班出身,读起来会相对晦涩难懂;偏科普型的图书,更多的是讲解生活中的一些统计学应用,和数据分析工作不直接相关。

综合身边分析师的反馈及笔者本人的一些经验发现,目前大部分分析师比较需要的图书是既能够通俗易懂地讲解理论内容,又能够介绍这些理论内容是如何被应用到数据分析工作中的,并利用Excel 和Python 数据分析工具来实现这些内容。

目前市面上还没有这样的书,而笔者又有一些学习经验。笔者曾经在网上更新统计学系列知识,读者普遍反映比较通俗易懂,再加上对比学习方法,降低了Python代码的学习门槛,于是,就有了《对比Excel,轻松学习Python 统计分析》这本书。

为什么要学习统计学

如果大家平常有关注数据分析师的招聘要求,会注意到,大部分招聘信息都会要求熟悉统计学,很多面试官也会问统计学相关的知识。这是因为随着数据分析专业性的提高,分析师的工作内容需要大量的理论作为支撑,而统计学就是被用得最多的理论,所以我们需要学习统计学。

本书写了什么

本书的主线是围绕统计学的理论知识展开的,层层递进,依次为描述性分析、概率和概率分布、抽样推断与参数估计、假设检验、方差分析、卡方分析、回归模型、相关性分析、时间序列。每个理论知识又由核心的3 个部分组成:该理论知识在数据分析中的应用、理论知识讲解、Excel 和Python 工具的实现,让大家学完本书以后既学到了理论知识,也知道如何将理论知识在数据分析工作中应用,还知道如何用Excel和Python 去实现。

本书学习建议

学习本书的主要目的是为了解决实际工作中的问题,所以关于理论知识部分,重点是要理解,而关于工具实现部分,和学习大多数工具一样,只有多练习,才能熟练掌握。

本书读者对象

?? 已经从事数据分析工作的读者,想要学习统计学相关知识提高自身专业能力;

?? 应届毕业生及想要转行成为数据分析师的读者,需要为面试做准备;

?? 产品及运营人员,希望对统计学知识有所了解,方便和数据分析师进行沟通。

本书说明

为了避免内容的重复,关于Python 的安装及Python 基础知识,本书不会涉及,如果想要学习,可以阅读笔者的另一本书《对比Excel,轻松学习Python 数据分析》。关于本书用到的数据及代码资源,可以关注笔者的个人公众号——俊红的数据分析之路(ID:zhangjunhong0428),回复关键词“统计学”获取。


目录

第1 章 认识统计学 / 1

1.1 统计学是什么 . 1

1.2 统计学和数据分析有什么关系 1

1.3 Python 统计学和统计学有什么区别 . 2

第2 章 描述性分析 / 3

2.1 描述性分析在数据分析中的应用场景 3

2.2 数据类型 . 3

2.3 数据整理与展示 . 3

2.3.1 分类型数据的整理与展示 . 4

2.3.2 数值型数据的整理与展示 . 7

2.4 概括性分析 . 17

2.4.1 集中趋势指标 . 18

2.4.2 离散程度指标 . 23

2.4.3 分布情况指标 . 25

2.5 其他容易混淆的概念 28

2.5.1 平均值与期望 . 28

2.5.2 比例和比率 . 30

2.5.3 百分比和百分点 . 31

第3 章 概率和概率分布 / 33

3.1 概率和概率分布在数据分析中的应用场景 33

3.2 常见概念 . 33

3.2.1 什么是随机事件 . 33

3.2.2 什么是随机变量 . 34

3.2.3 什么是概率 . 34

3.3 离散型随机变量概率分布 36

3.3.1 概率分布表与概率分布图 . 36

3.3.2 累积分布函数与百分点函数 . 37

3.3.3 期望与方差 . 37

3.3.4 常见离散型概率分布 . 38

3.4 连续型随机变量概率分布 46

3.4.1 概率密度与累积分布 . 46

3.4.2 期望与方差 . 50

3.4.3 常见连续型概率分布 . 50

第4 章 抽样推断与参数估计 / 65

4.1 抽样推断与参数估计在数据分析中的应用场景 65

4.2 抽样的基本概念 . 65

4.2.1 总体和样本 . 65

4.2.2 常用统计量 . 66

4.3 常用的抽样方式 . 66

4.3.1 简单随机抽样 . 67

4.3.2 分层抽样 . 67

4.4 为什么样本可以代表总体 68

4.4.1 中心极限定理 . 68

4.4.2 大数定理 . 70

4.5 参数估计的基本方法 71

4.5.1 点估计 . 71

4.5.2 区间估计 . 72

4.6 区间估计的类型 . 72

4.6.1 一个总体参数的区间估计 . 72

4.6.2 两个总体参数的区间估计 . 80

第5 章 假设检验 / 88

5.1 假设检验在数据分析中的应用场景 88

5.2 假设检验基本思想 88

5.3 假设检验中常见的两种错误 90

5.4 显著性水平和功效 90

5.5 假设检验的基本步骤 91

5.6 一个总体参数的检验 94

5.6.1 总体均值的检验 . 94

5.6.2 总体比例的检验 . 98

5.6.3 总体方差的检验 . 99

5.7 两个总体参数的检验 101

5.7.1 两个总体均值之差的检验 . 101

5.7.2 两个总体比例之差的检验 . 106

5.7.3 两个总体方差比的检验 . 107

5.8 假设检验中最小样本量的确定 109

5.9 A/B 测试的完整流程 . 111

第6 章 方差分析 / 113

6.1 方差分析在数据分析中的应用场景 . 113

6.2 方差分析的3 个假设 . 113

6.3 正态性检验方法 113

6.3.1 直方图检验 113

6.3.2 Q-Q 图检验 114

6.3.3 KS 检验 114

6.3.4 AD 检验 . 115

6.3.5 W 检验 . 116

6.3.6 非正态数据转换 116

6.4 方差齐性检验方法. 118

6.4.1 方差比检验 118

6.4.2 Hartley 检验 . 118

6.4.3 Bartlett 检验 . 119

6.4.4 Levene 检验 . 119

6.5 方差分析的基本步骤 120

6.6 方差分析的多重比较 125

6.6.1 LSD 多重比较法 . 125

6.6.2 Sidak 多重比较法 . 127

6.6.3 Bonferroni 多重比较法 . 128

6.7 多因素方差分析 . 129

6.7.1 无交互作用的多因素方差分析 . 129

6.7.2 有交互作用的多因素方差分析 . 134

第7 章 卡方分析 / 140

7.1 卡方分析在数据分析中的应用场景 140

7.2 理论讲解 . 140

7.3 Excel 与Python 实现 142

第8 章 回归模型 / 144

8.1 回归模型在数据分析中的应用场景 144

8.2 一元线性回归 . 144

8.2.1 一元线性回归方程形式 . 144

8.2.2 最小二乘参数估计法 . 145

8.2.3 拟合程度判断 . 147

8.2.4 显著性检验 . 147

8.2.5 Excel 与Python 实现 149

8.3 多元线性回归 . 151

8.3.1 多元线性回归方程形式 . 151

8.3.2 最小二乘参数估计法 . 151

8.3.3 拟合程度判断 . 151

8.3.4 显著性检验 . 152

8.3.5 多重共线性 . 153

8.3.6 Excel 与Python 实现 153

8.4 协方差分析 . 155

8.4.1 理论讲解 . 155

8.4.2 Excel 与Python 实现 157

第9 章 相关性分析 / 159

9.1 相关性分析在数据分析中的应用场景 159

9.2 相关系数的种类 . 159

9.2.1 皮尔逊相关系数 . 159

9.2.2 斯皮尔曼相关系数 . 162

9.2.3 肯德尔相关系数 . 162

9.2.4 Excel 与Python 实现 163

9.3 相关与因果 . 164

第10 章 时间序列 / 165

10.1 时间序列在数据分析中的应用场景 165

10.2 平稳时间序列预测 . 165

10.2.1 简单平均法 . 166

10.2.2 移动平均法 . 167

10.2.3 指数平滑法 . 169

10.3 时间序列预测模型 . 172

10.3.1 AR 模型 172

10.3.2 MA 模型 174

10.3.3 ARMA 模型 175

10.3.4 ARIMA 模型 . 176

10.4 时间序列分解预测 . 177

10.5 趋势时间序列预测 . 187

10.5.1 线性趋势预测 . 187

10.5.2 指数趋势预测 . 189

10.5.3 对数趋势预测 . 191


产品特色