书籍作者:David S. Brown | ISBN:9787121461910 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:5469 |
创建日期:2024-04-20 | 发布日期:2024-04-20 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
《R统计与数据可视化:社会科学数据分析实践(全彩)》讲解了数据分析的方法、逻辑、艺术与实践。全书共17章,第1章介绍了R、RStudio、R Markdown 的安装和使用;第2章介绍了数据分析的动机和四个构成要素:①描述数据并形成假设,②模型的构建与估计,③诊断,④提出下一个问题,后续章节将按照数据分析构成要素的顺序来组织;对数据了解得越多,我们就越能够提出更好的问题,形成更好的假设,描述与数据相关的概念和所需的工具,这些内容将在第3~9章中详述;模型的构建与估计是一个应该在理论和证据之间来回往复迭代的过程,关于构建模型的练习将在第10~14章中进行;诊断既能帮助我们发现问题,又能帮助我们发掘有意义的关联,形成额外的解释或假设,关于诊断将会在第15章和第16章中详述;第17章将讨论许多涉及二元因变量的问题;附录A将提供创建其他新假设的技巧和窍门。
《R统计与数据可视化:社会科学数据分析实践(全彩)》的基本理念是通过上手操作来学习。学习统计学以及数据分析的艺术与实践的最好方式,就是进行数据分析。本书用大量案例辅以数据可视化,将统计学知识融汇其中,循循善诱,帮助读者避坑排雷,培养正确的数据分析思维方式。本书适合数据分析初学者,也适合有经验的数据分析人员。
David S. Brown(戴维·S.布朗):科罗拉多大学博尔德分校政治学教授和社会科学系主任。获得了加利福尼亚大学洛杉矶分校的政治学博士学位,并且是科罗拉多大学博尔德分校行为科学研究所肯尼斯·博尔丁(他开辟了多个经济学和社会科学研究领域)的首届博士后研究员。在加入科罗拉多大学政治学系之前,他曾在莱斯大学担任助理教授。他研究的是比较政治学,侧重于体制及其对经济发展的影响。他的研究成果已发表在《美国政治科学评论》(American Political Science Review)、《美国政治学期刊》(American Journal of Political Science)、《英国政治学期刊》(British Journal of Political Science)和《美国地理学家协会年鉴》(Annals of the Association of American Geographers)上。
译者简介
李嘉平:曾在华大基因从事生物信息分析相关工作,目前就职于广西医科大学第一附属医院(广西心脑血管疾病防治精准医学重点实验室)。他是R布道师,希望能够通过翻译传播和推广R的应用与价值;亦是R铁杆用户,具有丰富的生物信息分析经验,擅长使用R和Python进行各类数据处理以及数据可视化。曾负责生物信息培训中所有R相关课程的设计与授课。对新技术始终抱有极大的热情,喜欢去体验那些目前仍不完善但有前景的新技术,并享受这个过程带来的乐趣与启发。
学习统计学及数据分析的艺术与实践的最好方式,就是进行数据分析
本书用大量案例辅以数据可视化,将统计学知识融汇其中,循循善诱,帮助读者避坑排雷,培养正确的数据分析思维方式
本书适合数据分析初学者,也适合有经验的数据分析人员
前言
本书旨在鼓励、启发和激发学生对社会科学数据分析的兴趣。其根本前提是学生通过做数据分析来学数据分析。为此,本书从简单的图形工具开始,探索数据并对数据提出有意义的问题。重点是用于发现深埋于回归表整洁外表之下的问题的那些方法。最后,读者会熟悉基本的数据分析技术,并形成数据分析方法,理解所做出的概念、分析乃至哲学的选择。在我看来,一个重要的目标是激发读者对所做事情的兴趣。本书的案例旨在让我们用真实的数据来面对现实世界的议题和问题。数据下载完成后,确保在开始前执行installD() 和libraries() 指令,第一个指令安装所有需要用到的包,而第二个指令加载这些包。installD() 指令只需要执行一次;libraries() 指令需要在每次重新启动R 后都执行。
本书为谁而写
本书面向多种读者,但主要还是为初学者准备的。本书假设读者事先没有统计学或微积分的相关知识,而扎实的统计学或微积分背景并不会使这些练习毫无收获。本书源于我在科罗拉多大学教授的大型课程——“定量方法导论(Introduction toQuantitative Methods)”。这是政治学专业学生的必修课,学生需要阅读、理解并审慎地考察越来越多的定量证据。我们真诚地希望在课堂上用一套技能武装学生,帮助他们解决问题。
数据分析师使用R 就像生物学家使用电子显微镜一样,这种面向对象的统计语言已经被广泛使用,主要是在数据科学家中间站稳了脚跟。虽然从教学的角度来讲,用纸笔学习统计学令人赞赏且有好处,但在这个大数据时代,学生必须掌握最先进的工具。本书充分为读者考虑,读者可下载配套数据并跟着一起做。这套代码根据我的经验提供了一组优秀的指令,初级、中级和高级的分析师都能用上。
对于那些经验更丰富的读者来说,本书提出了一种方法,强调简单的分析如何通过描述、理论和证据之间的来回往复迭代产生更好的议题。本书鼓励提出假设,查看证据,然后由这些证据产生新的假设。在我看来,为了提出下一个议题而构建假设时,读者就会展现出对案例的深刻理解。比起学习代码,比起理解概率论,本书设法形成一个永无止境的发现循环,体现为描述我们之所见,提出假设,根据经验检验它,然后产生下一个议题或假设。从这个意义上讲,即使是技术能力较高的读者,也能从中受益。
组织
大多数统计学教材都是从概率论的基础知识开始的,然后是抽样和假设检验,最后是相关性和回归分析。虽然概念上是连贯的,但学生首先要在学期之初克服对概率论的恐惧,必须解读标准正态分布表或t-分布表,然后在最后两周掌握二元或多元回归分析。这里存在两种思想流派,本书兼顾两者。一些人坚持认为,支撑回归理论的概率基础必须出现在首条数据拟合线之前。另一些人喜欢一开始就拟合曲线,构建模型。他们认为,学生只有在面对构建模型、生成估计以及评估模型拟合的挑战之后,才会有强烈的动机去理解用于生成t-比率、R2 统计量和置信区间的概率机制。
本书的设计是:在描述数据和进行比较之后,可以跳过第8章和第9章,直接进行回
归分析。关于诊断的章节,为支撑线性回归的高斯- 马尔可夫假设提供了直观的感受。还有一章专门介绍数据的展示(第7章)。如何向受众展示发现,往往连这样最基本的原则我们都不肯花时间。我将爱德华·塔夫特(Edward Tufte)的开创性工作与一些侧重于叙事过程的资料结合起来。
在掌握了多元回归分析的机制后,本书以逻辑回归作为结束——社会科学中的许多问题都涉及二元选择(是否投票)、所处的二元状态(是否大学毕业)以及二元环境(是否住在某个城市)。鉴于社会科学中这些问题的重要性和普遍性,本书会向学生介绍逻辑回归,如何分析以及报告其结果。
基本理念
在学术生涯的早期,我受到了我非常敬重的两位资深学者之间的争论的影响。我不记得主题了,但那是在两位教授的研究生研讨会上。当我们着手评估和审查一篇指定的文章时,其中一位教授显然介意其缺乏理论的严谨性。论文的论点似乎在随着每个新证据的出现而改变。面对论文中一个相当明显的事后推理的实例,两位教授开始争论这篇文章到底有没有做出什么贡献。虽然两人关系很好,但争论非常激烈,当其中一人强调“我不相信为了符合事实而不断改变理论的工作!”的时候,争论达到了顶点。我们等待着回应,房间里变得鸦雀无声。沉默片刻后,另一位教授笑着反讽道:“我不相信为了符合理论而不断改变事实的工作!”
正是如此。那天,关于如何打磨我的技艺,我的脑海中画出了清晰的线路。意识到“事实”从来都不是独立于我们的理解、背景和生活经历之外的,对我而言,这比用来解释它们的理论更为坚实。
话虽如此,我们还是得从某个地方开始,在我看来,最好的数据集是用有意义的、强效且重要的理论和问题构建的。因此,就像警察队长(《龙虎少年队》中由艾斯·库伯饰演)告诫下属(查宁·塔图姆和乔纳·希尔饰演)先打入毒品贩内部,然后找出供货商一样,本书鼓励学生先提出一个假设,然后根据经验去检验它。最后,关于社会科学是一种推演过程还是数据挖掘工作,本书不参与这场论战(毕竟,查宁·塔图姆确实问过他的队长,他们能否直接先找到供货商)。介于推演过程和数据挖掘工作之间,我希望能证明最好的实证研究有赖于二者之间开诚布公的讨论。
译者序
2021年底,机缘巧合下,了解到有一本R可视化方面的书需要翻译。看过目录之后,发现主要是介绍统计学的。虽然自诩是R十余年的老用户,也有过相关培训班的教学经验,但统计学并不是我的强项。不过,觉得趁这个机会把统计学知识再捋一捋也不错。回想起当年学习R 的时候,几乎没有什么中文资料,只能边啃官方文档,边被R 与众不同的诡谲语法蹂躏。好在后来觅得丁国徽前辈翻译的《R导论》,以及他和王学枫、谢益辉、李军焘翻译的R for beginners,仿佛在黑暗中摸索寻得一个火种,照亮了前路。想到这里,就决定应承下来,希望把优秀的R 内容传播给更多的人,将火种传递下去。于是便请好友牵线搭桥,几番辗转找到了张慧敏编辑。读了原版书,更加确信这是一本值得翻译的好书。
本书对初学者十分友好,作者提供了大量社会科学领域的实际案例,并仔细地将这些案例的分析思路拆解,逐步列出了所需要用到的R 代码。读者只需要利用本书提供的数据跟着代码同步练习,便能看到作者思考的过程,无痛掌握统计学知识。包装在典雅文笔之下的,是不断提问、反复迭代、持续获得新发现的思维模式——探索性数据分析。而可视化在这个过程中扮演了极其重要的角色。人脑在图形模式识别方面具有得天独厚的优势,作者利用这个优势,将数据可视化贯穿全书,引导读者从图中发现数据的各种模式,并将其与议题结合起来以获得洞见。干巴巴的统计量,其说服力远比不上恰到好处的数据可视化。至于怎样算恰到好处,作者也给出了十分具有操作性的建议和原则,劝谏读者不要过犹不及。
本书并不完美,存在一些小问题。但瑕不掩瑜,本书用大量案例辅以数据可视化,将统计学知识融汇其中,循循善诱,帮助读者避坑排雷,培养正确的数据分析思维方式,是一本不可多得的好书。希望读者能在本书的指引下,以探索性数据分析为道,以统计学知识为术,以R 为器,解决实际问题。
平时看惯了平铺直叙的软件文档,面对作者雅致的文风,想要原汁原味地翻译出来着实有难度。加上文章引经据典,大量使用了俚语,以及担心文化差异会带来理解偏差,我不得不花大力气查阅书中提及的文化典故,力求还原作者的本意。在这个过程中了解到不少地道的俚语表达和文化典故,还挺有意思的。
在翻译过程中,有些优秀的工具值得称道。首先是非常优秀的老牌译文管理软件OmegaT,大大提高了翻译的效率。其次是清华出品,能够据意查词的WantWords反向词典。此外,为了提高翻译的准确性和效率,我边译边开发了一款配合OmegaTBrower 插件使用的小工具,作用是快速同时查询多个在线词典并以最简洁的方式呈现出来(感兴趣的同行及读者可以自行到GitHub 搜索minimalist_browser_for_omegat获取)。本书如有翻译不当、疏漏之处,还请邮件联系指正:[email protected]。
在完美主义和拖延症的双重夹击下,本书的翻译时间大大超出预期。感谢我最喜欢的出版社之一,电子工业出版社和张慧敏编辑将这本好书交给我翻译,包容了我这个“拖稿大魔王”。感谢好友杨锦徐荣牵线搭桥提供了这个机会。感谢家人的陪伴与支持。最后,愿世界和平。
李嘉平
广西医科大学第一附属医院
广西心脑血管疾病防治精准医学重点实验室
第1章 l 入门指南 001
概述 001
R、RStudio 和R Markdown 002
对象与函数 004
RStudio 入门 006
RStudio 的R Markdown 导览 012
R Markdown 文件与R 脚本 017
小练习 019
第2章 l 数据分析导论 027
概述 027
数据分析的动机 028
大数据越来越大 028
数据分析是一项有市场需求的技能 029
数据分析是一种公益 030
数据分析的构成要素 031
描述数据并形成假设 033
假设一:民族语言碎片化 034
假设二:女性选举权 040
假设三:人力资本 046
假设四:政治稳定 048
模型的构建与估计 052
诊断 054
结果的稳定性 054
残差图 056
提出下一个问题 059
第3章 l 描述数据 064
概述 064
数据集和变量 066
不同类型的变量 068
连续变量 069
分类变量 069
有序分类变量 070
描述数据可以节省时间和精力 073
数据的形状 073
数据的极差 077
辨识困惑、问题、假设和线索 079
困惑和问题:重要的区别 079
描述数据以改进问题 081
描述数据披露了更多线索 084
度量 086
有效性 086
可靠性 088
第4章 l 集中趋势和离散程度 093
概述 093
集中趋势的度量:众数、平均数和中位数 094
众数 095
平均数 096
中位数 100
平均数与中位数 103
离散程度的度量:极差、四分位距和标准差 106
极差 107
四分位距 109
标准差 110
四分位距与标准差 116
关于方差的说明 117
第5章 l 数据的单变量和双变量描述 123
概述 123
好的、差的和离群值 124
单变量数据的5 种视图 125
频率表 126
条形图 127
箱线图(或盒须图) 128
直方图 131
茎叶图 135
变量间是否相关 138
散点图 139
箱线图(双变量) 145
马赛克图 145
交叉表 148
气泡图 148
第6章 l 数据变换 157
概述 157
数据变换的理论原因 158
变换数据确保符合理论 158
数据和问题都要变换以相互匹配 159
数据变换的实际原因 160
数据变换——从连续变量到分类变量 164
数据变换——改变类别 169
Box-Cox 变换 175
第7章 l 数据展示的一些原则 186
概述 186
一些风格要素 187
消除杂乱 188
聚焦 190
整合图文 192
一图应该胜千言 195
了解你的受众 201
了解你的目的:解释性、探索性或信息性 203
故事的基本要素 208
文档(树立讲述者的可信度) 209
建立直觉(设定背景) 211
展示因果关系(旅程) 211
从因果到行动(决议) 213
第8章 l 概率论精要 218
概述 218
总体和样本 219
样本偏差与随机样本 220
大数定律 222
大数定律的可视化 223
中心极限定理 227
平均数的抽样分布随着n 的增加而接近正态分布 228
和的抽样分布是正态的 230
从正态分布中抽取时的观测数量 231
中心极限定理的一个有用性质 232
从不同的分布中抽样 233
标准正态分布 239
标准正态分布与临界z 分数 242
第9章 l 置信区间与假设检验 250
概述 250
大样本的置信区间 251
求总体比例 251
求总体平均数 256
小样本与t- 分布 260
自由度 263
小样本的样本标准差 264
用小样本构建置信区间 269
例子:女性薪酬与男性薪酬 270
比较两个样本的平均数 272
例子:两个群体和两种收入 273
例子:种族和对警察的看法 275
例子:收入和对特朗普的支持 275
置信水平 277
关于统计推断和因果关系的简要说明 280
第10章 l 进行比较 285
概述 285
为什么要进行比较 286
需要比较的问题 287
比较两个分类变量 289
例子:对警察的看法 289
例子:哪些人去教堂 292
比较连续变量和分类变量 294
例子:奥巴马情感量表 294
比较两个连续变量 297
例子:性别与教育 297
例子:性别与政策制定 298
探索性数据分析:调查美国的堕胎率 301
重述要点 303
好的分析引出新的问题 308
第11章 l 受控比较 312
概述 312
什么是受控比较 313
比较两个分类变量,同时控制第三个变量 314
例子:对警察的看法 314
例子:对移民的看法 320
比较两个连续变量,同时控制第三个变量 327
例子:婴儿死亡率 328
例子:凶杀率 331
论点与受控比较 334
第12章 l 线性回归 340
概述 340
线性回归的优点 341
线性回归中的斜率和截距 342
对斜率和截距的解读 343
例子:选民投票率和教育 343
拟合优度(R2 统计量) 348
统计显著性 352
计算t- 比率 353
二元回归的例子 355
一个州的宗教信仰水平是否会影响堕胎率 356
宗教信仰是否会影响枪支法案 358
暴力会导致政治不稳定吗 359
收入(人均 GDP)与投票率有关吗 361
第13章 l 多元回归 368
概述 368
什么是多元回归 369
为什么要使用多元回归 370
回归模型和论点 371
回归模型、理论和证据 372
解读多元回归中的估计值 376
实质显著性 376
统计显著性 377
拟合优度:R2 378
例子:凶杀率与教育 379
理论 379
描述数据 380
估计 384
经验蕴涵 386
讨论 389
第14章 l 虚拟变量和交互作用 394
概述 394
什么是虚拟变量 395
加性模型与交互作用模型 396
二元虚拟变量回归 397
多元回归与虚拟变量 398
多元回归中的交互作用 398
例子:伯尼· 桑德斯,教育和收入 400
例子:外援,人均GDP 和民主 405
第15章 l 诊断1 :普通最小二乘法是否适用 412
概述 412
回归分析中的诊断 413
统计量与估计量的性质 414
高斯- 马尔可夫假设 419
残差图 425
第16章 l 诊断2 :残差、杠杆值与影响力的度量 438
概述 438
离群值 439
杠杆值 442
影响力的度量 448
库克距离 448
dfbeta 449
增加变量图 454
第17章 l 逻辑回归 461
概述 461
需要逻辑回归解决的议题与难题 462
逻辑回归违反了高斯- 马尔可夫假设 463
使用对数发生比 466
使用预测概率 469
二元逻辑回归 469
多元逻辑回归 471
例子:2012 年奥巴马赢得的选举人团 472
逻辑回归模型拟合 475
例子:奥巴马,收入和教育 475
接收者操作特征曲线和曲线下面积 476
附录A l 形成经验蕴涵 488
物流很快,包装完好,质量不错!
2023-09-19 23:45:45
书的包装很好,快递一如既往的给力,书的印刷质量也不错
2023-09-17 23:49:49
当今社会科学研究日益依赖于大规模数据的分析和可视化,以揭示有关社会现象和人类行为的洞察。在这个信息时代,数据是珍贵的资源,但要从中获取有用的信息,需要强大的工具和技能。R统计和数据可视化是社会科学研究中不可或缺的工具,本文将探讨它们在社会科学数据分析实践中的关键作用。 ### R统计:数据分析的核心 R是一种免费的、开源的统计计算和数据可视化软件,它提供了丰富的工具和包,用于处理、分析和可视化各种类型的数据。R的强大之处在于它的灵活性和可扩展性,使得研究人员能够根据他们的具体需求进行定制化的数据分析。 #### 数据清理与准备 在社会科学研究中,数据通常是杂乱无章的,包含缺失值、异常值和不一致的数据点。R提供了丰富的数据清理和准备工具,使研究人员能够清除无效数据、填补缺失值,并确保数据的一致性。这对于建立可靠的分析基础非常重要。 #### 统计分析 R具有广泛的统计分析功能,包括描述性统计、回归分析、假设检验、聚类分析等。研究人员可以使用R来探索数据、识别趋势和关联,以及测试假设。这有助于回答社会科学研究中的重要问题。 ### 数据可视化:传达洞察的力量 数据可视化是将复杂数据转化为易于理解和传达的图形形式的过程。在社会科学研究中,数据可视化是一种强大的工具,可以帮助研究人员向公众、政策制定者和同行传达研究发现。 #### 散点图和折线图 R提供了丰富的绘图功能,包括散点图和折线图,这些图形可用于展示变量之间的关系和趋势。例如,社会科学家可以使用折线图来显示时间序列数据中的趋势,或使用散点图来探索两个变量之间的相关性。 #### 条形图和饼图 除了连续数据的可视化,R还支持离散数据的可视化。条形图和饼图是常用的图表类型,用于展示分类数据的分布和比例。这对于展示社会科学研究中的调查结果和统计数据非常有用。 ### 社会科学数据分析实践:案例研究 为了更好地理解R统计和数据可视化在社会科学中的应用,让我们考虑一个案例研究。假设一个社会科学家正在研究教育水平与收入之间的关系。通过使用R,他可以对调查数据进行清理、计算相关系数,并创建散点图来可视化这一关系。此外,他还可以使用R绘制条形图,比较不同教育水平群体的平均收入。 这个案例研究突显了R统计和数据可视化的重要性,它们不仅可以帮助研究人员理解数据,还可以帮助他们有效地传达研究发现。 ### 结论 R统计和数据可视化是社会科学数据分析的强大工具,它们提供了处理和分析数据的能力,以及将研究发现传达给其他人的方式。在当今信息时代,社会科学研究需要不断进化,以适应不断增长的数据量和复杂性。因此,掌握R统计和数据可视化技能对于社会科学研究人员来说至关重要,它们将继续在社会科学领域的进步中发挥关键作用。
2023-09-26 10:10:37