书籍作者:杨德春 | ISBN:9787302641728 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:3071 |
创建日期:2024-05-09 | 发布日期:2024-05-09 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书以R语言常见数据处理方法、ggplot2可视化为主线,希望解决大多数R学习者在学习过程中碰到的难点。本书以实战为目的,聚焦R语言本身数据处理、可视化特点,以一个个例子循序渐进的讲述R语言数据处理及可视化中用到的经典软件包。以便读者能快速将所学内容运用到在实际场景中。
本书共6章,第1~3章分别介绍R语言及其软件安装、数据可视化入门介绍、数据存储结构及数据处理方法;第4章和第5章分别介绍ggplot2可视技巧、常见ggplot2增强包使用方法;第6章数据可视化分析示例,对数据处理及可视化技巧综合运用作了介绍;附录A简要介绍rmarkdown及大数据处理神器data.table包。
本书侧重数据处理及可视化在日常工作学习中的运用,以降低读者学习曲线。本书为R语言的入门书,也可以作为在财务分析、经营分析、商业分析、数据分析等有一定经验读者的参考图书。
杨德春,毕业于山西财经大学财务管理专业。长期参与企业信息化、数据流治理工作,从事过财务分析、经营分析、市场分析、数据挖掘等数据分析相关领域岗位工作。服务过多家大型企业,如家乐福、沃尔玛、顺丰等。熟悉R语言、数据库、Python等数据处理工具及方法的实际运用,近年在痴迷于数据可视化的同时,专注于高性能计算、机器学习、量化金融等领域。
R语言强大的统计分析及可视化能力是其他语言所不能比拟的,是统计学界、医学界比较流行的分析语言。正因为如此,R语言被蒙上了异常神秘的面纱,并且由于流行面窄,其优秀的功能不为大众所熟知,特别是在国内R语言基本处于不温不火的状态。
笔者使用R语言多年后发现: 市面上的经典R语言书籍大多出自外国作者,由于文化、原始数据示例均来自国外,增加了学习者理解的难度; 国内不少介绍R语言的书籍,也偏重统计等内容,而且不少书籍的内容安排对初学者不够友好: 可能刚介绍完一个R语言知识点,接着就出现一个复杂的例子,而且理论太多,感觉学了之后,在实际工作中无法运用或者需要很长的酝酿期。
基于上述内容,本书希望解决大多数R语言学习者在学习过程中碰到的难点,聚焦R语言本身数据处理、可视化特点,以举例子的方式循序渐进地讲述R语言数据处理及可视化中用到的经典软件包,以便读者能快速将所学内容运用到实际工作中。
本书主要内容
第1章介绍R语言入门内容,主要介绍R语言是什么、软件的具体安装过程及需要注意的问题。
第2章介绍R语言数据可视化入门知识,主要简要介绍R语言ggplot2可视化基本语法、例子,以便给读者一个大体印象,激励读者继续学习。理论上应该在第1章的基础上讲解数据处理方法,但其是一个枯燥抽象的过程,初学者难以坚持,容易半途而废。
第3章介绍数据储存结构及数据处理(重点章节),介绍R语言中的数据存储结构、数据处理经典包。可视化分析需要数据输入,实际情况中的数据基本上需要重塑处理才能可视化,因此学习可视化分析的重要环节是掌握一定的数据处理技巧。
第4章介绍ggplot2可视化(重点章节)。以常用图形开始,逐个讲解ggplot2中各类图形绘制的具体语法和关键点。最后介绍图形的美化等工作(坐标轴、颜色、图例等的调整)。
第5章介绍ggplot2增强包。由于ggplot2非常流行,为了满足更为广泛的功能需求,不同作者围绕ggplot2开发了增强包,如ggforce、rplotly、ggstream等,本章将对此进行介绍。
第6章介绍数据可视化分析示例,介绍R语言在实际使用过程中的运用实例,按照由难到易的顺序运用本书前几章所学的内容,涉及外部数据采集、数据整合、分析可视化等内容。
附录A简要介绍rmarkdown环境,以便满足部分读者希望R语言直接生成报告的需求。另外,介绍数据量在吉字节级别的处理神器data.table包。
阅读建议
笔者从事财务分析、经营分析、数据挖掘多年,以非统计、医学等专业视角介绍R语言,把它视作Excel、Python、Tableau、数据库等同类分析工具介绍给大家,侧重数据处理及可视化在日常工作和学习中的运用,降低学习难度。扫描目录上方的二维码可下载本书源码。
相信本书对数据分析有兴趣或从业者学习R语言有一定帮助; 对于财务分析、经营分析、商业分析等有一定经验的读者,如果想突破Excel、Tableau等数据处理及可视化瓶颈,则本书也是不错的选择。当然,本书没有涉及统计、医学等专业领域特定的软件包,但对于该领域的读者学习数据处理及ggplot2绘图还是有积极借鉴意义的。
致谢
感谢我的父母及妻子,在我写作的过程中承担了全部的家务并照顾小孩儿,使我可以全身心地投入写作工作。感谢清华大学出版社赵佳霓编辑,在写作过程中不厌其烦地指点修正版式、结构等内容。
由于时间仓促,书中难免存在不妥之处,请读者见谅,并提宝贵意见。
杨德春
2023年8月15日
本书源码
第1章R语言介绍及软件安装
1.1R语言介绍
1.2R软件及RStudio软件安装
1.2.1R软件安装
1.2.2RStudio软件安装
1.2.3R及RStudio界面介绍
1.2.4关于R语言程序包
1.2.5R语言基础运算
第2章R语言数据可视化入门
2.1散点图
2.2柱形图及条形图
2.3折线图
2.4饼图
2.5直方图
2.6热力图
2.7其他图形
第3章数据储存结构及数据处理
3.1数据框
3.2向量
3.3列表
3.4矩阵
3.5readr包介绍
3.5.1read_csv()函数
3.5.2其他主要函数
3.6tidyr包
3.6.1expand_grid()函数
3.6.2drop_na()函数
3.6.3replace_na()函数
3.6.4extract()函数
3.6.5fill()函数
3.6.6gather()函数
3.6.7pivot_longer()函数
3.6.8spread()函数
3.6.9pivot_wider()函数
3.7dplyr包
3.7.1select()函数
3.7.2filter()函数
3.7.3mutate()函数
3.7.4group_by()与summarise()函数
3.7.5arrange()函数
3.7.6join()函数集合
3.7.7R语言循环及判断
3.8map()函数群
第4章ggplot2可视化介绍
4.1散点图
4.2散点图局部放大
4.3气泡图
4.4棒棒糖图
4.5哑铃图
4.6柱状图
4.7柱状图填充色调整
4.8堆积柱状图
4.9百分比柱状图
4.10条形图
4.11折线图
4.12折线图强调某些序列
4.13折线图添加拟合曲线
4.14折线图显示不同纲量数据
4.15阶梯图
4.16面积图
4.17多系列面积图
4.18饼图
4.19圆环图
4.20玫瑰图
4.21直方图
4.22密度曲线
4.23累计密度曲线
4.24箱线图
4.25向箱线图添加槽口和平均值
4.26箱线图+散点图
4.27不等宽箱线图
4.28小提琴图
4.29小提琴图与箱线图叠加显示
4.30小提琴图与箱线图水平并列显示
4.31二维密度图
4.32分面
第5章ggplot2增强包介绍
5.1ggforce包介绍
5.1.1ggforce中的分面
5.1.2标注区域
5.1.3平行集合图
5.1.4沃罗诺伊图
5.2cowplot包介绍
5.2.1添加脚注
5.2.2双坐标轴图
5.2.3图形添边际密度图
5.3ggstream包介绍
5.4ggrepel包介绍
5.5treemapify包介绍
5.6waterfalls包介绍
5.7geomtextpath包介绍
5.7.1geom_textpath函数
5.7.2geom_textline函数
5.7.3geom_textdensity函数
5.7.4geom_textsmooth和geom_labelsmooth
5.7.5geom_contour_filled和geom_textcontour
5.7.6添加带标签的参考线
5.8ggfittext包介绍
5.9ggtext包介绍
5.9.1在theme()函数中使用element_markdown()
5.9.2在theme()函数中使用element_textbox()
5.10ggbreak包介绍
5.11ggpointdensity包介绍
5.12ggridges包介绍
5.13ggmosaic包介绍
5.14ggcharts包介绍
5.14.1ggcharts包对分面优化
5.14.2棒棒糖图
5.14.3哑铃图
5.14.4正负值条形图
5.14.5正负值棒棒糖图
5.14.6金字塔图
5.15patchwork包介绍
5.16绘图相关的其他包介绍
第6章数据可视化分析示例
6.1销售数据分析
6.1.1日均销售研究
6.1.2销售结构研究
6.2库存结构分析
6.3中国上市公司分析
6.3.1数据获取及清洗
6.3.2上市公司数量概况
6.3.3上市公司收入概况