猜你喜欢
统计之美:人工智能时代的科学思维

统计之美:人工智能时代的科学思维

书籍作者:李舰 ISBN:9787121354045
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:7805
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

《统计之美:人工智能时代的科学思维》每一章节都通过某个历史经典故事、网络热点事件、行业真实案例等背景知识引出对知识点的介绍,涵盖了经典的统计学模型和前沿的数据科学技术,并结合大数据实践领域的经验,构造了一套以实际应用为导向的知识体系,帮助读者轻松地掌握各分析方法的思想精髓,并能快速地应用到实际的工作中去。

作者简介

  李舰,统计学本科、软件工程硕士、商学博士,数据科学领域的多年从业者,见证并参与了统计学从冷门专业到显学的过程。是“统计之都”社区的核心成员之一、开源社区的活跃贡献者,致力于数据科学在实体行业中的应用。

  海恩,在硅谷著名互联网企业从事数据分析工作,业余时间亦喜欢自己抓数据做点好玩的分析。


编辑推荐
适读人群 :人工智能领域从业人员,计算机及相关专业在校生,统计学专业人员、对统计学感兴趣的人员、工作中需要用到统计学的人员、想学习统计学又不知如何学习的人员。广大的数据分析师。

人工智能的大潮开始往统计方向发展,越来越多的迹象表明AI的本质就是统计学。
统计之都核心成员李舰、硅谷知名互联网公司数据分析专家海恩通过一个个故事告诉我们如何通过定量的方法认识这个世界隐藏的秩序和深刻的美。
每一位在大数据和人工智能时代继续跳舞的人,都不容错过。

前言

序言

统计学可真是一个尴尬的存在,常常处在各种鄙视链的低端。从数学的角度看,统计学中的数学原理太肤浅,撑死也就一个大数定律,一个中心极限定律,这也能算数学?从应用学科的角度看(例如,计算机、管理学),统计学太数学,一点也不应用。分析数据就好好分析数据,还要整什么大数定律,什么中心极限定律,这也能算应用?作为一名统计学的工作者,对这样的观点虽然并不苟同,但确实很惭愧。常常为此,反省自问:问题到底出在哪里?我辈应该如何作为?
我有一个朴素的信念,任何东西只要是美的,就一定会被大家接受甚至追捧。但是,这里有两个非常具有挑战性的问题。第一、统计学的美到底是什么?第二、她那独特的美如何被大众感知?这是两个非常朴素的问题,作为一名统计学教员,我常常用这两个问题来检讨自己。统计学作为一个历史非常短的学科,在它的发展历史中,有不少杰出的学者做出了卓著的贡献。是他们的卓著努力为统计学建立了扎实的理论基础,为统计学的应用开疆拓土。在这个过程中,产生了很多有用的统计学思想,闪烁着统计学智慧的光芒,解决了太多的实际问题。因此,统计学的美是毋庸置疑的,但为什么大家感受不到?对此,作为一名统计学教员,我没有理由去埋怨大众,而应该做自我批评,自我检讨。如果,我们有能力把统计学中最闪光的智慧,用最朴素而有趣的语言,结合生动而有趣的故事表述出来,那世界又会怎样?如果能够做到,统计学的美就可以被大家感受到。届时,统计学是不是数学重要吗?统计学是不是应用重要吗?统计学就是统计学,她既有理论,又有应用。关键是,她很美,她真的很美,美得令人窒息,美得令人流连忘返,而我们都陶醉于她那独特的美。请问,到哪里去找这样一本书,专攻统计学之美?
要写这样一本书的难度可想而知。首先,你要对统计学的宏观理论框架,从历史到最新前沿,非常熟悉。说来惭愧,我做不到。其次,你要对推动统计学理论发展的重要故事、案例,甚至历史性事件如数家珍。太惭愧,我也做不到。还有,你需要很强的语言文字能力。让文字和数学公式自由穿插,流畅而优美地交织在一起。这对我来说也很难。这样一本书一定是跨学科的。与数据科学相关的领域可不仅仅是统计学,还有计算机科学、经济学、管理学等。不同学科的交叉融合,也极大地促进了统计学的发展。要对这么多学科有所研究,也不是一件简单的事情。
正当我一筹莫展的时候,突然老天眷顾,统计之都大侠舰哥送给我他的新书《统计之美》。首先,我一下子就被目录吸引了。从统计学科学入手,谈到数据与数学,讨论了数据可视化,当然也有模型与方法,还有大数据技术,以及数据的陷阱。每一章的立意都是如此独特,跟任何现有专著或者教材完全不同。这些章节的框架设计恢宏壮美,讨论的问题深刻而朴素,覆盖的内容从过去到未来。这样的框架设计,散发着强烈的舰哥独有的大侠风范。从微观处看,每个章节下面都是一个又一个短小、精炼、经典而深刻的小故事或者案例。这些小故事(或案例)有:上帝掷骰子、女士喝茶、寻找失踪的核潜艇等。每个小故事都突出讲述了一个统计学的智慧,一个知识点。通过这样精炼而经典的小故事,让人们感受到统计学之美,她美在哪里?她美就美在统计学的智慧上,这些智慧变成了统计学思想,统计学思想变成了统计学理论,统计学理论变成了统计学的模型算法。噢,这个路途太长了,难怪当人们看到模型算法的时候,实在是想不起她原来的美了。
不过,别着急,没关系。舰哥的《统计之美》为你揭开这层面纱,让你重新领略统计学的独特之美!为舰哥鼓掌,为《统计之美》点赞,我辈加油!

王汉生
北京大学光华管理学院教授 2018年 12月


目录

第1 章 统计与科学1

1.1 随机的世界 2

1.1.1 打台球的物理学家,确定、不确定与随机2

1.1.2 上帝掷骰子吗,决定论与随机性4

1.1.3 连环杀手的归案,随机与均匀 6

1.1.4 扔硬币的数学家们,大数定律9

1.2 认识概率 11

1.2.1 游戏奖金的分配,概率论的发展 11

1.2.2 6 连号和14 连号,概率的计算 13

1.2.3 主持人背后的山羊,条件概率 16

1.2.4 寻找失踪的核潜艇,贝叶斯概率18

1.3 统计思想和模型 20

1.3.1 女士品茶,假设检验 20

1.3.2 “渣男”去死,最大似然 23

1.3.3 六西格玛的奇迹,小概率 25

1.3.4 牛顿的苹果,模型拟合27

1.4 统计与科学 29

1.4.1 智多星与神机军师,统计预测29

1.4.2 深蓝与阿尔法狗,归纳和演绎 31

1.4.3 中药与西药,临床试验33

1.4.4 所有模型都是错的,科学和否定 36

第2 章 数据与数学38

2.1 数据与空间 39

2.1.1 多维世界的虫子,坐标和向量 39

2.1.2 黑客帝国和变形金刚,矩阵简介 42

2.1.3 九章算术与线性方程,线性方程组 45

2.1.4 二十八宿与黄道十二宫,线性变换 48

2.2 随机变量和分布 51

2.2.1 伯努利的硬币,随机分布 51

2.2.2 相亲多少次与神奇的37,离散型分布 54

2.2.3 棣莫弗的正态,连续型分布 56

2.2.4 醉鬼的步伐,随机过程 58

2.3 认识数据 59

2.3.1 忒修斯之船,数据、测量与变量 59

2.3.2 从性别到体重,数据的尺度 61

2.3.3 周岁与虚岁,连续变量与离散变量 63

2.3.4 一份体检记录,数据分析的基本数据结构 65

2.4 数理统计基础 66

2.4.1 管中窥豹与一叶知秋,总体和样本 66

2.4.2 恶赌鬼的诡计,数字特征 68

2.4.3 被平均的工资,统计量 70

2.4.4 小李飞刀与孔雀翎,参数估计 72

第3 章 数据可视化76

3.1 历史上的统计图形 77

3.1.1 河图与洛书,可视化简介 77

3.1.2 伦敦霍乱的防治,空间可视化 78

3.1.3 南丁格尔的玫瑰,玫瑰花瓣图 79

3.1.4 拿破仑远征,自定义统计图形 81

3.2 数据与可视化 83

3.2.1 女王的裙子,数据可视化83

3.2.2 画布与宣纸,图形设备 84

3.2.3 深水王子与针眼画师,绘图语言的变迁 86

3.2.4 “挑战者”号航天飞机,直观的可视化 88

3.3 基础统计图形 90

3.3.1 老忠实喷泉的秘密,分布图 90

3.3.2 统计图形的奠基人,条形图和饼图 91

3.3.3 古老国度的诗云,坐标变换 93

3.3.4 飞翔的动态气泡图,动态可视化 95

3.4 数据之间的关系 97

3.4.1 东上相的轨道,散点图 97

3.4.2 五十州的最高峰,箱线图 99

3.4.3 泰坦尼克号的幸存者,马赛克图 100

3.4.4 切尔诺夫的笑脸,样本关系的可视化 102

第4 章 模型与方法104

4.1 常用统计模型 105

4.1.1 穿杨与射雕,回归模型 105

4.1.2 降维攻击,主成分分析 108

4.1.3 顾客就是上帝,路径模型110

4.1.4 股票的走势,时间序列114

4.2 机器学习 116

4.2.1 啤酒和尿布的传说,关联规则 116

4.2.2 寻找“白富美” ,聚类分析118

4.2.3 宁可错杀与绝不放过,分类效果评估121

4.2.4 树木与森林,常用分类算法124

4.3 人工智能 128

4.3.1 人工智能的三起两落,AI 发展史128

4.3.2 深度学习的前生今世,深度学习简史 130

4.3.3 神秘的神经,神经网络简介 132

4.3.4 美丽的滤镜,卷积神经网络与深度学习135

4.4 其他分析方法 139

4.4.1 茶、酒与百事可乐,随机试验方法 139

4.4.2 蒙特卡罗和原子弹,蒙特卡罗方法142

4.4.3 医生的笔迹,文本分析 143

4.4.4 沙漠里的飞碟,最优化方法 146

第5 章 大数据时代 149

5.1 技术的变迁 150

5.1.1 统计学的滥觞统计学简介150

5.1.2 信息时代的来临计算机科学简介151

5.1.3 数据挖掘和商业智能,商业智能简介153

5.1.4 大数据时代新纪元,大数据简介154

5.2 分析工具 156

5.2.1 谁说菜鸟不会数据分析Excel 简介156

5.2.2 群雄逐鹿的分析软件统计软件和BI 系统158

5.2.3 全栈工程师的最爱,Python 简介160

5.2.4 本书作者最爱的R ,R语言简介162

5.3 计算框架 164

5.3.1 冰箱里的大象,可扩容的数据分析164

5.3.2 将兵与将将,并行计算 165

5.3.3 电老虎和电蚂蚁,大型机和云计算 167

5.3.4 摩尔定律的未来GPU ,计算框架170

5.4 大数据行业应用 172

5.4.1 互联网的兴起,互联网概览 172

5.4.2 流量的起点,搜索引擎173

5.4.3 收入的来源,精准广告 175

5.4.4 猜你喜欢和投其所好,推荐系统 177

第6 章 数据的陷阱180

6.1 一叶障目 181

6.1.1 神奇的天蝎座,规律的背后 181

6.1.2 赢家的诅咒,悖论与分布182

6.1.3 打飞机的油价,选择性关注184

6.1.4 和女神的缘分,频率与巧合 185

6.2 相关与因果 187

6.2.1 芳华与热饮,遗漏的关键变量187

6.2.2 热帖的秘密,不存在的相关 188

6.2.3 雪与火的城市,地理决定的因果 189

6.2.4 名字很重要吗,背后的关键因素 190

6.3 样本和调查192

6.3.1 测不准的美国大选,选择性抽样 192

6.3.2 不对称的杜蕾斯,数据无反应偏差194

6.3.3 幸运儿的传奇,幸存者偏差195

6.3.4 哈佛校长的辞职,样本方差的影响197

6.4 图形的误导 198

6.4.1 收入的变化,被掩盖的数据 198

6.4.2 收费站与汽车站,视觉的误区200

6.4.3 东莞的逃亡,隐含信息的误导201

6.4.4 有毒的拟合,图形与模型203

参考文献207


产品特色