书籍作者:王汉生 | ISBN:9787301336878 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:1386 |
创建日期:2023-06-02 | 发布日期:2023-06-02 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
在大数据时代背景下,统计学作为数据分析领域的基础,被应用于各行各业,其方法发挥着重要作用。为了更广泛地普及统计学知识,培养更多的统计学人才,本书应运而生。
作为入门级图书,本书内容安排如下。第 1 章从不确定性出发,讲述统计学和不确定性的关系,以及统计学中用于描述不确定性的各种概率模型。第 2 章是参数估计,系统讲述统计学中矩
估计和极大似然估计两种常用的参数估计方法,并基于两种方法介绍各种常见概率分布中参数的点估计和区间估计。第 3 章是假设检验,首先从不确定性的角度探讨实际中的各种决策问题,帮助读者理解假设检验的思想和应用场景,然后系统介绍假设检验的方法论及各种常见推广。第 4章是回归分析,首先介绍回归分析的思想和广泛的应用场景,然后系统地介绍各类常用模型,从线性回归到广义线性回归,最终落脚到两种机器学习算法(决策树、神经网络)。
本书特别强调实际应用,因此各个章节都辅以大量的实际案例,在介绍统计学基础知识的同时培养读者使用统计学方法解决实际问题的能力。
王汉生,北京大学光华管理学院商务统计与经济计量系,教授,博导,系主任。1998年北京大学数学学院概率统计系本科毕业,2001年美国威斯康星大学麦迪逊分校统计系博士毕业。2003年加入光华至今。国家杰出青年基金获得者,全国工业统计学教学研究会青年统计学家协会创始会长,美国统计学会(ASA)Fellow,国际统计协会(ISI)Elected Member,英国皇家统计协会(RSS)、美国数理统计协会(IMS)、泛华国际统计协会(ICSA)的当选会员。著有《数据思维》《数据资产论》(中国人民大学出版社出版)。
王菲菲,中国人民大学副教授,主要研究方向及代表性成果:感兴趣的研究方向包括文本挖掘、大规模数据分析等,曾在《中国科学(数学)》等国内外高水平期刊发表20余篇文章。
入门级统计学教程:融合大量情景案例,轻松理解统计知识;零基础起步商务统计,培养数据价值思维
理发的时候,Tony 老师总是希望跟我聊天,我想这也许是他们工作 KPI(Key Performance Indicator,关键绩效指标)的一部分。但是,作为一个教书匠,我每天的正常工作状态就是:开会、上课;开会、上课;开会、上课。等到下班后,实在是不想再多说一句话。这位 Tony 老师却揪着我不依不饶,总是希望撬开我的嘴跟我说点啥。“哥,您是做啥的?”“额,我是教书的。”“您教啥?”“额,我教统计学”。听到“统计学”三个字,Tony 老师的眼睛一下子亮了起来,说:“那您一定特别会统计!”“额……”然后现场就有点尴尬了。我知道他说的“统计”是啥,就是一堆表格呗。但是,这是我热爱的“统计学”吗?显然不是呀!如果统计学就是数数,那哪里需要一个学科去支持?但很遗憾的是,这就是社会大众对统计学的一个极大的误解,而这个误解可能也影响了统计学的普及和发展。我们有责任去纠正它,给更广泛的大众普及统计学知识,为国家为社会培养更多的统计学人才,用我们的努力去促进统计学在产业中的应用。而要实现这个雄心壮志,就需要一本面向非统计学专业读者的入门级书籍,而这也是我多年的夙愿,终于在北京大学出版社魏雪萍老师的督促下,还有菲菲老师和多位助教同学的支持下,完成本书并呈现给大家。
首先需要强调一点,作为一个有将近二十年教龄的教书匠,随着岁数的增加,似乎勇气和信心是单调下降的。教书时间越长,就越告诉自己:“我教的东西是没有办法保证绝对正确的。”原因很简单,任何一个理论的正确性,都会随着人们认知的增加,不停地被挑战。例如,在遥远的古代,如果人们提出一个理论说“大地是平的”,那么这个理论应该是“正确”的,因为该理论跟人们非常有限的物理活动范围所产生的认知是一致的。但是,后来人们进入了大航海时代,再后来又进入了太空时代,我们发现以前关于“大地是平的”理论无法解释我们感知到的这个世界,因为我们的活动空间变大了太多,所以我们目前的理论说“大地其实是一个球形”。直到今天,该理论是“正确”的,因为该理论与人们当前的物理活动范围所产生的认知是一致的。但是,随着科学技术的进步,会不会有一天未来的人们进入了某种高维空间,回过头来看地球的时候,是另外一个景象?铺垫了这么多,我其实是想诚实地告诉大家:接下来本书所呈现的各种理论和观点,我都没有能力保证它的绝对正确性。我能保证的是:第一,这是我多年深入而诚实的思考;第二,我忠实地想和你分享汇报,也请你审慎思考,批判性接受,真诚地希望你能够多多提出批评意见,虽然我并不一定会被说服,但是我一定会认真聆听。
在给大家打了上面这个关于理论没有绝对正确性的预防针后,我想分享下我对统计学理解的第一个执念,这个执念是统计学到底是研究什么的。我希望给统计学的核心研究内容一个最简单、直白、高度凝练的定义,将来再碰到 Tony 老师的时候,我能用一句话纠正他关于统计学的错误认识。那么,在我的执念中,统计学到底是研究什么的?答:不确定性。在我看来,统计学就是一个关于不确定性的学问,只有这个特点,能够将统计学准确且唯一地与其他学科严格区分开,并彰显它的独特之处。很多学者可能认为统计学是一个关于数据的学科。这显然是一个有道理的观点,但是我并不太认同。因为,关于数据的学科似乎不仅仅包括统计学,在我看来,计算机、数学、运筹优化等领域也都是同数据高度相关的学科。如果标准稍微宽松一点,其实所有的自然学科和社会学科都跟数据相关。毕竟,这是一个大数据时代了!所以,说统计学是一个关于数据的学科,这个说法有道理,但是并不准确,因为它不能准确地表达出统计学区别于其他学科的最独特之处。在我看来,统计学是所有学科中唯一的以不确定性为最核心研究目标的学科。为此,统计学的学习一定是从概率论开始,因为概率论是目前应用最广泛的关于不确定性测量的数学工具。所以,本书就是从这样一个执念开始的,那就是“统计学不研究统计,统计学研究不确定性”。
既然统计学研究不确定性,那么我们学习统计学的精彩旅程,就应该从不确定性开始。为此,本书的开篇不是讲任何数学模型,而是希望帮助大家了悟一个基本事实,那就是:大千世界,小到个人,中到企业机构,大到国家、全世界,不确定性无处不在,而且非常重要,影响巨大。因此,非常有必要通过建制一个完备的学科,全面系统地研究不确定性,而这个学科就是“统计学”。为此,你需要了解不同的数据类型,以及适用于不同数据类型的概率模型。为了能够用不同的概率模型去表达人们所看到的不确定性数据,需要学习以极大似然估计和矩估计为核心的参数估计方法,并在这个基础上学习以置信区间和假设检验为核心的统计学推断方法,并因此获得对不确定性问题做出科学决策的能力。为了进一步理解不确定性的构成,我们需要学习回归分析,不仅仅是从技术层面,还要从思想层面去学习。什么是回归分析?回归分析是统计学中最核心的工具之一,它能帮助我们从不确定性现象中洞察确定性的规律。能帮助我们理解一个看似完全不确定性的现象,其中可能有一部分是具有确定性规律的,因此是可以被把握利用的。
通过对不确定性的利用,回归分析能帮助我们为信贷业务提供风控模型,为在线营销提供精准广告和推荐算法,为量化投资提供自动化资产优化建议,以及其他各种非常精彩且重要的实际应用。那么,从纯技术的角度看,什么是回归分析?答:任何研究一个因变量Y 和解释性变量X 之间相关关系的模型都是回归分析。为此,人们需要根据Y 和X 的特点,对它们之间可能存在的相关关系,做出必要的数学假设。这样的假设可能是相对简单的,这就产生了线性回归模型和广义线性回归模型。当然,也可以是非线性的,这就产生了各种机器学习算法(如决策树、神经网络)。其中尤其值得注意的是,多层神经网络模型构成了深度学习算法的模型基础,它在非结构化数据(如图像、自然语言)的分析中获得了巨大的成功,支撑了大量的人工智能应用。
由此可见,本书的定位是非常独特的统计学入门书籍。第一,它面向的人群广泛,主要服务于非统计学的读者,但是对统计学专业的同学来说,本书也应该是一个不错的参考书;第二,它充满雄心壮志,从不确定性出发,历经经典统计学的内容(如参数估计、假设检验、回归分析),并最终抵达机器学习和人工智能的彼岸,希望为读者未来的进一步学习,提供一个好的起点;第三,它非常强调实际应用,全书从头到尾列举了大量的实际案例。希望本书能一边传授统计学基础知识,还能一边帮助读者了悟这些知识的实际用处。毕竟,编写本书的目的不仅仅是普及统计学知识和培养统计学人才,还包括推动统计学在产业中的应用,因此案例非常重要。
最后,感谢北京大学出版社的魏雪萍老师,没有他的督促,本书难以完成。感谢北京大学出版社的刘云老师,感谢她为本书提供的各种建议。感谢菲菲老师,能够被我拉上“贼船”,成为我最依赖的合作伙伴,一起完成这个辛苦的工作。感谢两位特别给力的助教,他们分别是来自中国人民大学的袁雪琼同学和来自北京交通大学的刘炯晖同学。两位同学为本书的形成付出了非常辛苦的工作,也受了不少委屈,谢谢你们!此外,还要感谢购买本书的读者,感谢你对统计学的好奇心。通过对本书的学习,希望你能掌握一套独特的方法论,能够对不确定性有更好的理解甚至把握,并因此为社会做出杰出的贡献。
王汉生
第1章 不确定性的描述
1.1 从不确定性出发 / 002
1.2 连续型数据 / 012
1.3 正态概率密度 / 023
1.4 t- 分布 / 037
1.5 指数分布 / 048
1.6 0-1 分布 / 059
1.7 泊松分布 / 069
第2章 参数估计
2.1 矩估计 / 081
2.2 极大似然估计 / 090
2.3 正态分布均值的区间估计 / 101
2.4 正态分布方差的区间估计 / 113
2.5 其他分布参数的区间估计 / 125
指数分布 / 125
0-1 分布 / 129
泊松分布 / 131
一般分布的均值 / 133
案例演示 / 134
两样本问题 / 135
2.6 样本量计算 / 138
指数分布 / 145
泊松分布 / 147
0-1 分布 / 149
一般分布 / 151
第3章假设检验
3.1 不确定性与决策 / 155
3.2 两种不同类型的错误 / 167
3.3 为什么推翻原假设 / 180
3.4 关于均值的假设检验问题 / 188
3.5 假设检验的各种推广 / 200
双样本检验 / 200
方差检验 / 204
双单边检验 / 209
3.6 假设检验中的 p 值 / 213
3.7 假设检验中的样本量计算 / 222
单边假设检验 / 223
双边假设检验 / 226
双单边假设检验 / 230
第4章回归分析
4.1 回归分析是什么 / 237
4.2 数据类型与回归模型 / 248
第一式:线性回归 / 248
第二式:0-1 回归 / 252
第三式:定序回归 / 254
第四式:计数回归 / 258
第五式:生存回归 / 260
4.3 线性回归模型 / 266
案例介绍 / 266
描述分析 / 268
理论模型 / 272
关于残差的讨论 / 274
参数估计 / 275
假设检验 / 279
4.4 时间序列模型 / 283
4.5 0-1 回归模型 / 297
案例介绍 / 297
描述分析 / 299
模型描述 / 302
参数估计与统计推断 / 306
4.6 决策树模型 / 311
4.7 神经网络模型 / 322"