猜你喜欢
统计至简(概率统计全彩图解 + 微课 + Python编程)

统计至简(概率统计全彩图解 + 微课 + Python编程)

书籍作者:姜伟生 ISBN:9787302643562
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:6671
创建日期:2024-04-19 发布日期:2024-04-19
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

数据科学和机器学习已经深度融合到我们生活的方方面面,而数学正是开启未来大门的钥匙。不是所有人生来都握有一副好牌,但是掌握“数学 + 编程 + 机器学习”的知识绝对是王牌。这一次,学习数学不再是为了考试、分数、升学,而是投资时间、自我实现、面向未来。为了让大家学数学、用数学,甚至爱上数学,在创作时,作者尽量克服传统数学教材的各种弊端,让大家学习时有兴趣、看得懂、有思考、更自信、用得着。

《统计至简:概率统计全彩图解 + 微课 + Python编程》是“鸢尾花数学大系—从加减乘除到机器学习”丛书中数学版块—“数学三剑客”的第三册,也是最后一本。“数学”板块的第一本《数学要素》是各种数学工具的“大杂烩”,可谓数学基础;《矩阵力量》专门讲解机器学习中常用的线性代数工具;本册《统计至简》则介绍机器学习和数据分析中常用的概率统计工具。《统计至简:概率统计全彩图解 + 微课 + Python编程》的核心是“多元统计”,离不开第二册《矩阵力量》中介绍的线性代数工具。《统计至简:概率统计全彩图解 + 微课 + Python编程》内容又可以归纳为 7 大板块——统计、概率、高斯、随机、频率派、贝叶斯派、椭圆。《统计至简:概率统计全彩图解 + 微课 + Python编程》在讲解概率统计工具时,会穿插介绍其在数据科学和机器学习领域的应用场景,让大家学以致用。

《统计至简:概率统计全彩图解 + 微课 + Python编程》读者群包括所有在工作中应用概率统计的朋友,尤其适用于初级程序员进阶、大学本科数学开窍、高级数据分析师、机器学习开发者。


作者简介

姜伟生 博士 FRM。

,热爱知识可视化和开源分享。自2022年8月开始,在GitHub上开源“鸢尾花书”学习资源,截至2023年9月,已经分享4000多页PDF、4000多幅矢量图、约2000个代码文件,全球读者数以万计。


前言



Preface

前言


感谢

首先感谢大家的信任。

  作者仅仅是在学习应用数学科学和机器学习算法时,多读了几本数学书,多做了一些思考和知识整理而已。知者不言,言者不知。知者不博,博者不知。由于作者水平有限,斗胆把自己有限所学所思与大家分享,作者权当无知者无畏。希望大家在 B 站视频下方和 GitHub 多提意见,让“鸢尾花数学大系—从加减乘除到机器学习”丛书成为作者和读者共同参与创作的优质作品。

  特别感谢清华大学出版社的栾大成老师。从选题策划、内容创作到装帧设计,栾老师事无巨细、一路陪伴。每次与栾老师交流,都能感受到他对优质作品的追求、对知识分享的热情。


出来混总是要还的

  曾经,考试是我们学习数学的唯一动力。考试是头悬梁的绳,是锥刺股的锥。我们中的绝大多数人从小到大为各种考试埋头题海,学数学味同嚼蜡,甚至让人恨之入骨。

  数学给我们带来了无尽的“折磨”。我们甚至恐惧数学,憎恨数学,恨不得一走出校门就把数学抛之脑后,老死不相往来。

  可悲可笑的是,我们很多人可能会在毕业的五年或十年以后,因为工作需要,不得不重新学习微积分、线性代数、概率统计,悔恨当初没有学好数学,走了很多弯路,没能学以致用,甚至迁怒于教材和老师。

这一切不能都怪数学,值得反思的是我们学习数学的方法和目的。


再给自己一个学数学的理由

为考试而学数学,是被逼无奈的举动。而为数学而学数学,则又太过高尚而遥不可及。

  相信对于绝大部分的我们来说,数学是工具,是谋生手段,而不是目的。我们主动学数学,是想用数学工具解决具体问题。

现在,本丛书给大家带来一个“学数学、用数学”的全新动力—数据科学、机器学习。


  数据科学和机器学习已经深度融合到我们生活的方方面面,而数学正是开启未来大门的钥匙。不是所有人生来都握有一副好牌,但是掌握“数学 + 编程 + 机器学习”的知识绝对是王牌。这次,学习数学不再是为了考试、分数、升学,而是投资时间、自我实现、面向未来。

未来已来,你来不来?


本丛书如何帮到你

  为了让大家学数学、用数学,甚至爱上数学,作者可谓颇费心机。在丛书创作时,作者尽量克服传统数学教材的各种弊端,让大家学习时有兴趣、看得懂、有思考、更自信、用得着。

为此,丛书在内容创作上突出以下几个特点。



  虽然本书标榜“从加减乘除到机器学习”,但是建议读者朋友们至少具备高中数学知识。如果读者正在学习或曾经学过大学数学 (微积分、线性代数、概率统计),那么就更容易读懂本丛书了。


聊聊数学

数学是工具。锤子是工具,剪刀是工具,数学也是工具。

  数学是思想。数学是人类思想高度抽象的结晶体。在其冷酷的外表之下,数学的内核实际上就是人类朴素的思想。学习数学时,知其然,更要知其所以然。不要死记硬背公式定理,理解背后的数学思想才是关键。如果你能画一幅图、用大白话描述清楚一个公式、一则定理,这就说明你真正理解了她。

  数学是语言。就好比世界各地不同种族有自己的语言,数学则是人类共同的语言和逻辑。数学这门语言极其精准、高度抽象,放之四海而皆准。虽然我们中大多数人没有被数学“女神”选中,不能为人类对数学认知开疆拓土,但是这丝毫不妨碍我们使用数学这门语言。就好比,我们不会成为语言学家,我们完全可以使用母语和外语交流。

  数学是体系。代数、几何、线性代数、微积分、概率统计、优化方法等,看似一个个孤岛,实际上都是数学网络的一条条织线。建议大家学习时,特别关注不同数学板块之间的联系,见树,更要见林。

数学是基石。拿破仑曾说:“数学的日臻完善和国强民富息息相关。”数学是科学进步的根基,

是经济繁荣的支柱,是保家卫国的武器,是探索星辰大海的航船。

  数学是艺术。数学和音乐、绘画、建筑一样,都是人类艺术体验。通过可视化工具,我们会在看似枯燥的公式、定理、数据背后,发现数学之美。


II


  数学是历史,是人类共同记忆体。“历史是过去,又属于现在,同时在指引未来。”数学是人类的集体学习思考,她把人的思维符号化、形式化,进而记录、积累、传播、创新、发展。从甲骨、泥板、石板、竹简、木牍、纸草、羊皮卷、活字印刷、纸质书,到数字媒介,这一过程持续了数千年, 至今绵延不息。

  数学是无穷无尽的想象力,是人类的好奇心,是自我挑战的毅力,是一个接着一个的问题,是看似荒诞不经的猜想,是一次次胆大包天的批判性思考,是敢于站在前人臂膀之上的勇气,是孜孜不倦地延展人类认知边界的不懈努力。


家园、诗、远方

诺瓦利斯曾说:“哲学就是怀着一种乡愁的冲动到处去寻找家园。”

  在纷繁复杂的尘世,数学纯粹得就像精神的世外桃源。数学是一束光、一条巷、一团不灭的希望、一股磅礴的力量、一个值得寄托的避风港。

  打破陈腐的锁链,把功利心暂放一边,我们一道怀揣一份乡愁,心存些许诗意,踩着艺术维度, 投入数学张开的臂膀,驶入它色彩斑斓、变幻无穷的深港,感受久违的归属,一睹更美、更好的远方。



前言 《统计至简》


III



Acknowledgement




致谢



To my parents.

谨以此书献给我的母亲父亲。



How to Use the Book



使用本书





丛书资源

本系列丛书提供的配套资源有以下几个。


在纸质图书中,为了方便大家查找不同配套资源,作者特别设计了以下几个标识。



数学家、科学家、艺术家等语录


代码中核心Python 库函数和讲解


思维导图总结本章脉络和核心内容




配套Python代码完成核心计算和制图


引出本书或本系列

其他图书相关内容


相关数学家生平贡献介绍


用Streamlit开发制作App



提醒读者格外注意的知识点


每章结束总结或升 华本章内容


介绍数学工具、机器学习之间的联系


每章配套微课视频二维码


本书核心参考文献和推荐阅读文献


微课视频

本书配套微课视频均发布在B站—生姜DrGinger。


  微课视频是以“聊天”的方式,和大家探讨某个数学话题的重点内容,讲解代码中可能遇到的难点,甚至侃侃历史、说说时事、聊聊生活。

本书配套微课视频的目的是引导大家自主编程实践、探究式学习,并不是“照本宣科”。

  纸质图书上已经写得很清楚的内容,视频课程只会强调重点。需要说明的是,图书内容不是视频的“逐字稿”。


App开发

本书配套多个用Streamlit开发的App,用来展示数学动画、数据分析、机器学习算法。

  Streamlit是个开源的Python库,能够方便快捷地搭建、部署交互型网页App。Streamlit简单易用,很受欢迎。Streamlit兼容目前主流的Python数据分析库,比如NumPy、Pandas、Scikit-learn、PyTorch、TensorFlow等。Streamlit还支持Plotly、Bokeh、Altair等交互可视化库。

  本书中很多App设计都采用Streamlit + Plotly方案。此外,本书专门配套教学视频手把手和大家一起做App。


大家可以参考如下页面,更多了解Streamlit:


实践平台

  本书作者编写代码时采用的IDE (Integrated Development Environment) 是Spyder,目的是给大家提供简洁的Python代码文件。

但是,建议大家采用JupyterLab或Jupyter Notebook作为鸢尾花书配套学习工具。

  简单来说,Jupyter集“浏览器 + 编程 + 文档 + 绘图 + 多媒体 + 发布”众多功能于一身,非常适合探究式学习。

  运行Jupyter无需IDE,只需要浏览器。Jupyter容易分块执行代码。Jupyter支持inline打印结果,直接将结果图片打印在分块代码下方。Jupyter还支持很多其他语言,如R和Julia。

  使用Markdown文档编辑功能,可以在编程的同时写笔记,不需要额外创建文档。在Jupyter中插入图片和视频链接都很方便,此外还可以插入LaTex公式。对于长文档,可以用边栏目录查找特定内容。

Jupyter发布功能很友好,方便打印成HTML、PDF等格式文件。



VI


  Jupyter也并不完美,目前尚待解决的问题有几个:Jupyter中代码调试不是特别方便。Jupyter没有variable explorer,可以在线打印数据,也可以将数据写到CSV或Excel文件中再打开。Matplotlib 图像结果不具有交互性,如不能查看某个点的值或者旋转3D图形,此时可以考虑安装 (Jupyter Matplotlib)。注意,利用Altair或Plotly绘制的图像支持交互功能。对于自定义函数,目前没有快捷键直接跳转到其定义。但是,很多开发者针对这些问题正在开发或已经发布相应插件,请大家留意。

  大家可以下载安装Anaconda。JupyterLab、Spyder、PyCharm等常用工具,都集成在Anaconda 中。下载Anaconda的地址为:


JupyterLab探究式学习视频:



代码文件

鸢尾花书的Python代码文件下载地址为:


同时也在如下GitHub地址备份更新:


  Python代码文件会不定期修改,请大家注意更新。图书原始创作版本PDF(未经审校和修订,内容和纸质版略有差异,方便移动终端碎片化学习以及对照代码)和纸质版本勘误也会上传到这个GitHub 账户。因此,建议大家注册GitHub账户,给书稿文件夹标星 (Star) 或分支克隆 (Fork)。

考虑再三,作者还是决定不把代码全文印在纸质书中,以便减少篇幅,节约用纸。

本书编程实践例子中主要使用“鸢尾花数据集”,数据来源是Scikit-learn库、Seaborn库。要是给

“鸢尾花数学大系”起个昵称的话,作者乐见“鸢尾花书”。


使用本书


《统计至简》


VII


学习指南

大家可以根据自己的偏好制定学习步骤,本书推荐如下步骤。



1

浏览本章思维导图, 把握核心脉络


4

用Jupyter 创建笔记,编程实践


2

下载本章配套

Python 代码文件


5

尝试开发数学动画、机器学习 App


3

观看微课视频,阅读本章正文内容


6

翻阅本书推荐参

考文献



  学完每章后,大家可以在社交媒体、技术论坛上发布自己的Jupyter笔记,进一步听取朋友们的意见,共同进步。这样做还可以提高自己学习的动力。

  另外,建议大家采用纸质书和电子书配合阅读学习,学习主阵地在纸质书上,学习基础课程最重要的是沉下心来,认真阅读并记录笔记,电子书可以配合查看代码,相关实操性内容可以直接在电脑上开发、运行、感受,Jupyter笔记同步记录起来。

强调一点:学习过程中遇到困难,要尝试自行研究解决,不要第一时间就去寻求他人帮助。


意见和建议

欢迎大家对鸢尾花书提意见和建议,丛书专属邮箱地址为:


也欢迎大家在B站视频下方留言互动。


目录

绪论 1

第1章 概率统计全景 7

1.1 必备数学工具:一个线性代数小测验 8

1.2 统计描述 9

1.3 概率 10

1.4 高斯 16

1.5 随机 19

1.6 频率派 19

1.7 贝叶斯派 20

1.8 椭圆三部曲 21

第2章 统计描述 23

2.1 统计两大工具:描述、推断 25

2.2 直方图:单特征数据分布 26

2.3 散点图:两特征数据分布 31

2.4 有标签数据的统计可视化 33

2.5 集中度:均值、质心 36

2.6 分散度:极差、方差、标准差 38

2.7 分位:四分位、百分位等 40

2.8 箱型图:小提琴图、分布散点图 42

2.9 中心距:均值、方差、偏度、峰度 44

2.10 多元随机变量关系:协方差矩阵、相关性系数矩阵 47

第3章 古典概率模型 51

3.1 无处不在的概率 52

3.2 古典概率:离散均匀概率律 56

3.3 回顾:杨辉三角和概率 64

3.4 事件之间的关系:集合运算 65

3.5 条件概率:给定部分信息做推断 67

3.6 贝叶斯定理:条件概率、边缘概率、联合概率关系 70

3.7 全概率定理:穷举法 73

3.8 独立、互斥、条件独立 76

第4章 离散随机变量 79

4.1 随机:天地不仁,以万物为刍狗 80

4.2 期望值:随机变量的可能取值加权平均 89

4.3 方差:随机变量离期望距离平方的平均值 91

4.4 累积分布函数(CDF):累加 94

4.5 二元离散随机变量 95

4.6 协方差、相关性系数 97

4.7 边缘概率:偏求和,相当于降维 100

4.8 条件概率:引入贝叶斯定理 101

4.9 独立性:条件概率等于边缘概率 104

4.10 以鸢尾花数据为例:不考虑分类标签 107

4.11 以鸢尾花数据为例:考虑分类标签 116

4.12 再谈概率1:展开、折叠 120

第5章 离散分布 123

5.1 概率分布:高度理想化的数学模型 124

5.2 离散均匀分布:不分厚薄 125

5.3 伯努利分布:非黑即白 128

5.4 二项分布:杨辉三角 129

5.5 多项分布:二项分布推广 132

5.6 泊松分布:建模随机事件的发生次数 135

5.7 几何分布:滴水穿石 136

5.8 超几何分布:不放回 138

第6章 连续随机变量 141

6.1 一元连续随机变量 142

6.2 期望、方差和标准差 145

6.3 二元连续随机变量 147

6.4 边缘概率:二元PDF偏积分 149

6.5 条件概率:引入贝叶斯定理 151

6.6 独立性:比较条件概率和边缘概率 153

6.7 以鸢尾花数据为例:不考虑分类标签 154

6.8 以鸢尾花数据为例:考虑分类标签 162

第7章 连续分布 171

7.1 连续均匀分布:离散均匀分布的连续版 172

7.2 高斯分布:最重要的概率分布,没有之一 173

7.3 逻辑分布:类似高斯分布 177

7.4 学生t-分布:厚尾分布 179

7.5 对数正态分布:源自正态分布 181

7.6 指数分布:泊松分布的连续随机变量版 183

7.7 卡方分布:若干IID标准正态分布平方和 184

7.8 F-分布:和两个服从卡方分布的独立随机变量有关 185

7.9 Beta分布:概率的概率 187

7.10 Dirichlet分布:多元Beta分布 190

第8章 条件概率 197

8.1 离散随机变量:条件期望 198

8.2 离散随机变量:条件方差 204

8.3 离散随机变量的条件期望和条件方差:以鸢尾花为例 206

8.4 连续随机变量:条件期望 215

8.5 连续随机变量:条件方差 216

8.6 连续随机变量:以鸢尾花为例 217

8.7 再谈如何分割“1” 221

第9章 一元高斯分布 231

9.1 一元高斯分布:期望值决定位置,标准差决定形状 232

9.2 累积概率密度:对应概率值 234

9.3 标准高斯分布:期望为0,标准差为1 236

9.4 68-95-99.7 法则 239

9.5 用一元高斯分布估计概率密度 243

9.6 经验累积分布函数 244

9.7 QQ图:分位-分位图 245

9.8 从距离到一元高斯分布 249

第10章 二元高斯分布 253

10.1 二元高斯分布:看见椭圆 254

10.2 边缘分布:一元高斯分布 258

10.3 累积分布函数:概率值 262

10.4 用椭圆解剖二元高斯分布 264

10.5 聊聊线性相关性系数 268

10.6 以鸢尾花数据为例:不考虑分类标签 272

10.7 以鸢尾花数据为例:考虑分类标签 281

第11章 多元高斯分布 287

11.1 矩阵角度:一元、二元、三元到多元 288

11.2 高斯分布:椭圆、椭球、超椭球 293

11.3 解剖多元高斯分布PDF 298

11.4 平移 → 旋转 302

11.5 平移 → 旋转 → 缩放 308

第12章 条件高斯分布 311

12.1 联合概率和条件概率关系 312

12.2 给定X条件下,Y的条件概率:以二元高斯分布为例 316

12.3 给定Y条件下,X的条件概率:以二元高斯分布为例 321

12.4 多元正态条件分布:引入矩阵运算 325

第13章 协方差矩阵 331

13.1 计算协方差矩阵:描述数据分布 332

13.2 相关性系数矩阵:描述Z分数分布 338

13.3 特征值分解:找到旋转、缩放 340

13.4 SVD分解:分解数据矩阵 345

13.5 Cholesky分解:列向量坐标 349

13.6 距离:欧氏距离 VS 马氏距离 350

13.7 几何视角:超椭球、椭球、椭圆 353

13.8 合并协方差矩阵 362

第14章 随机变量的函数 367

14.1 随机变量的函数:以鸢尾花为例 368

14.2 线性变换:投影视角 369

14.3 单方向投影:以鸢尾花两特征为例 372

14.4 正交系投影:以鸢尾花两特征为例 376

14.5 以椭圆投影为视角看线性变换 380

14.6 主成分分析:换个视角看数据 383

第15章 蒙特卡洛模拟 387

15.1 蒙特卡洛模拟:基于伪随机数发生器 388

15.2 估算平方根 389

15.3 估算积分 390

15.4 估算体积 391

15.5 估算圆周率 391

15.6 布丰投针估算圆周率 393

15.7 接受-拒绝抽样法 395

15.8 二项分布随机漫步 397

15.9 两个服从高斯分布的随机变量相加 399

15.10 产生满足特定相关性的随机数 400

第16章 频率派统计推断 411

16.1 统计推断:两大学派 412

16.2 频率学派的工具 414

16.3 中心极限定理:渐近于正态分布 416

16.4 最大似然:鸡兔比例 419

16.5 最大似然:以估算均值、方差为例 421

16.6 区间估计:总体方差已知,均值估计 424

16.7 区间估计:总体方差未知,均值估计 427

16.8 区间估计:总体均值未知,方差估计 429

第17章 概率密度估计 431

17.1 概率密度估计:从直方图说起 432

17.2 核密度估计:若干核函数加权叠合 435

17.3 带宽:决定核函数的高矮胖瘦 439

17.4 核函数:八种常见核函数 441

17.5 二元KDE:概率密度曲面 443

第18章 贝叶斯分类 447

18.1 贝叶斯定理:分类鸢尾花 448

18.2 似然概率:给定分类条件下的概率密度 450

18.3 先验概率:鸢尾花分类占比 451

18.4 联合概率:可以作为分类标准 451

18.5 证据因子:和分类无关 452

18.6 后验概率:也是分类的依据 453

18.7 单一特征分类:基于KDE 457

18.8 单一特征分类:基于高斯 461

第19章 贝叶斯分类进阶 467

19.1 似然概率:给定分类条件下的概率密度 468

19.2 联合概率:可以作为分类标准 470

19.3 证据因子:和分类无关 472

19.4 后验概率:也是分类的依据 474

19.5 独立:不代表条件独立 477

19.6 条件独立:不代表独立 478

第20章 贝叶斯推断入门 483

20.1 贝叶斯推断:更贴合人脑思维 484

20.2 从一元贝叶斯公式说起 486

20.3 走地鸡兔:比例完全不确定 488

20.4 走地鸡兔:很可能一半一半 495

20.5 走地鸡兔:更一般的情况 504

第21章 贝叶斯推断进阶 511

21.1 除了鸡兔,农场发现了猪 512

21.2 走地鸡兔猪:比例完全不确定 517

21.3 走地鸡兔猪:很可能各1/3 520

21.4 走地鸡兔猪:更一般的情况 525

第22章 马尔可夫链蒙特卡洛 529

22.1 归一化因子没有闭式解? 530

22.2 鸡兔比例:使用PyMC3 534

22.3 鸡兔猪比例:使用PyMC3 537

第23章 马氏距离 543

23.1 马氏距离:考虑数据分布的距离度量 544

23.2 欧氏距离:最基本的距离 546

23.3 标准化欧氏距离:两个视角 547

23.4 马氏距离:两个视角 549

23.5 马氏距离和卡方分布 553

第24章 线性回归 557

24.1 再聊线性回归 558

24.2 最小二乘法 561

24.3 优化问题 562

24.4 投影视角 563

24.5 线性方程组:代数视角 563

24.6 条件概率 564

24.7 最大似然估计(MLE) 568

第25章 主成分分析 571

25.1 再聊主成分分析 572

25.2 原始数据 574

25.3 特征值分解协方差矩阵 575

25.4 投影 577

25.5 几何视角看PCA 583

25.6 奇异值分解 586

25.7 优化问题 591

25.8 数据还原和误差 592



短评

《统计至简(概率统计全彩图解 + 微课 + Python编程)》 统计学是一门强大的学科,它帮助我们理解和分析数据,从而做出明智的决策。然而,对许多人来说,统计学似乎是一门复杂晦涩的学科,令人望而却步。幸运的是,有一种全新的方法正在崭露头角,将统计学变得易于理解和学习,那就是《统计至简》。 《统计至简》是一本令人惊叹的图书,它将概率统计呈现为一本全彩图解书籍。这本书的独特之处在于,它通过清晰的图表和图像,以生动的方式解释了统计学的各个概念和方法。无论您是初学者还是已经有一些统计学基础的人,都可以从这本书中受益匪浅。图解使复杂的统计概念变得容易理解,为学习者提供了直观的视觉参考。 但《统计至简》不仅仅是一本图解书籍。它还提供了一套精心设计的微课,帮助您更深入地理解每个概念。这些微课由经验丰富的统计学教师授课,以易于理解的方式解释了统计学的核心概念。无论您是在学校学习统计学还是自学,这些微课都将成为您的强大辅助工具。 更令人兴奋的是,除了图解和微课,《统计至简》还包括了与Python编程相关的内容。Python是一种强大的编程语言,广泛用于数据分析和统计学领域。这本书将教您如何使用Python进行统计分析,从而使您能够将统计学应用到实际问题中。无论您是数据科学家、研究人员还是业务分析师,掌握Python编程都将是一项宝贵的技能。 总之,《统计至简》是一本综合性的学习资源,旨在帮助您轻松掌握统计学。它通过全彩图解、微课和Python编程的结合,为学习者提供了多层次、多维度的学习体验。如果您想要深入了解统计学,并将其应用到实际生活中,那么这本书将成为您的不可或缺的伙伴。让我们一起探索统计学的奥秘,从《统计至简》开始吧!

2023-09-23 09:10:54

产品特色