猜你喜欢
R语言数据处理及可视化分析

R语言数据处理及可视化分析

书籍作者:杨德春 ISBN:9787302641728
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:3071
创建日期:2024-05-09 发布日期:2024-05-09
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书以R语言常见数据处理方法、ggplot2可视化为主线,希望解决大多数R学习者在学习过程中碰到的难点。本书以实战为目的,聚焦R语言本身数据处理、可视化特点,以一个个例子循序渐进的讲述R语言数据处理及可视化中用到的经典软件包。以便读者能快速将所学内容运用到在实际场景中。

本书共6章,第1~3章分别介绍R语言及其软件安装、数据可视化入门介绍、数据存储结构及数据处理方法;第4章和第5章分别介绍ggplot2可视技巧、常见ggplot2增强包使用方法;第6章数据可视化分析示例,对数据处理及可视化技巧综合运用作了介绍;附录A简要介绍rmarkdown及大数据处理神器data.table包。

本书侧重数据处理及可视化在日常工作学习中的运用,以降低读者学习曲线。本书为R语言的入门书,也可以作为在财务分析、经营分析、商业分析、数据分析等有一定经验读者的参考图书。


作者简介

杨德春,毕业于山西财经大学财务管理专业。长期参与企业信息化、数据流治理工作,从事过财务分析、经营分析、市场分析、数据挖掘等数据分析相关领域岗位工作。服务过多家大型企业,如家乐福、沃尔玛、顺丰等。熟悉R语言、数据库、Python等数据处理工具及方法的实际运用,近年在痴迷于数据可视化的同时,专注于高性能计算、机器学习、量化金融等领域。

前言





R语言强大的统计分析及可视化能力是其他语言所不能比拟的,是统计学界、医学界比较流行的分析语言。正因为如此,R语言被蒙上了异常神秘的面纱,并且由于流行面窄,其优秀的功能不为大众所熟知,特别是在国内R语言基本处于不温不火的状态。


笔者使用R语言多年后发现: 市面上的经典R语言书籍大多出自外国作者,由于文化、原始数据示例均来自国外,增加了学习者理解的难度; 国内不少介绍R语言的书籍,也偏重统计等内容,而且不少书籍的内容安排对初学者不够友好: 可能刚介绍完一个R语言知识点,接着就出现一个复杂的例子,而且理论太多,感觉学了之后,在实际工作中无法运用或者需要很长的酝酿期。


基于上述内容,本书希望解决大多数R语言学习者在学习过程中碰到的难点,聚焦R语言本身数据处理、可视化特点,以举例子的方式循序渐进地讲述R语言数据处理及可视化中用到的经典软件包,以便读者能快速将所学内容运用到实际工作中。



本书主要内容


第1章介绍R语言入门内容,主要介绍R语言是什么、软件的具体安装过程及需要注意的问题。


第2章介绍R语言数据可视化入门知识,主要简要介绍R语言ggplot2可视化基本语法、例子,以便给读者一个大体印象,激励读者继续学习。理论上应该在第1章的基础上讲解数据处理方法,但其是一个枯燥抽象的过程,初学者难以坚持,容易半途而废。


第3章介绍数据储存结构及数据处理(重点章节),介绍R语言中的数据存储结构、数据处理经典包。可视化分析需要数据输入,实际情况中的数据基本上需要重塑处理才能可视化,因此学习可视化分析的重要环节是掌握一定的数据处理技巧。


第4章介绍ggplot2可视化(重点章节)。以常用图形开始,逐个讲解ggplot2中各类图形绘制的具体语法和关键点。最后介绍图形的美化等工作(坐标轴、颜色、图例等的调整)。


第5章介绍ggplot2增强包。由于ggplot2非常流行,为了满足更为广泛的功能需求,不同作者围绕ggplot2开发了增强包,如ggforce、rplotly、ggstream等,本章将对此进行介绍。


第6章介绍数据可视化分析示例,介绍R语言在实际使用过程中的运用实例,按照由难到易的顺序运用本书前几章所学的内容,涉及外部数据采集、数据整合、分析可视化等内容。


附录A简要介绍rmarkdown环境,以便满足部分读者希望R语言直接生成报告的需求。另外,介绍数据量在吉字节级别的处理神器data.table包。



阅读建议


笔者从事财务分析、经营分析、数据挖掘多年,以非统计、医学等专业视角介绍R语言,把它视作Excel、Python、Tableau、数据库等同类分析工具介绍给大家,侧重数据处理及可视化在日常工作和学习中的运用,降低学习难度。扫描目录上方的二维码可下载本书源码。


相信本书对数据分析有兴趣或从业者学习R语言有一定帮助; 对于财务分析、经营分析、商业分析等有一定经验的读者,如果想突破Excel、Tableau等数据处理及可视化瓶颈,则本书也是不错的选择。当然,本书没有涉及统计、医学等专业领域特定的软件包,但对于该领域的读者学习数据处理及ggplot2绘图还是有积极借鉴意义的。


致谢


感谢我的父母及妻子,在我写作的过程中承担了全部的家务并照顾小孩儿,使我可以全身心地投入写作工作。感谢清华大学出版社赵佳霓编辑,在写作过程中不厌其烦地指点修正版式、结构等内容。


由于时间仓促,书中难免存在不妥之处,请读者见谅,并提宝贵意见。




杨德春

2023年8月15日








目录





本书源码






第1章R语言介绍及软件安装


1.1R语言介绍


1.2R软件及RStudio软件安装


1.2.1R软件安装


1.2.2RStudio软件安装


1.2.3R及RStudio界面介绍


1.2.4关于R语言程序包


1.2.5R语言基础运算


第2章R语言数据可视化入门


2.1散点图


2.2柱形图及条形图


2.3折线图


2.4饼图


2.5直方图


2.6热力图


2.7其他图形


第3章数据储存结构及数据处理


3.1数据框


3.2向量


3.3列表


3.4矩阵


3.5readr包介绍


3.5.1read_csv()函数


3.5.2其他主要函数


3.6tidyr包


3.6.1expand_grid()函数


3.6.2drop_na()函数


3.6.3replace_na()函数


3.6.4extract()函数


3.6.5fill()函数


3.6.6gather()函数


3.6.7pivot_longer()函数


3.6.8spread()函数


3.6.9pivot_wider()函数


3.7dplyr包


3.7.1select()函数


3.7.2filter()函数


3.7.3mutate()函数


3.7.4group_by()与summarise()函数


3.7.5arrange()函数


3.7.6join()函数集合


3.7.7R语言循环及判断


3.8map()函数群


第4章ggplot2可视化介绍


4.1散点图


4.2散点图局部放大


4.3气泡图


4.4棒棒糖图


4.5哑铃图


4.6柱状图


4.7柱状图填充色调整


4.8堆积柱状图


4.9百分比柱状图


4.10条形图


4.11折线图


4.12折线图强调某些序列


4.13折线图添加拟合曲线


4.14折线图显示不同纲量数据


4.15阶梯图


4.16面积图


4.17多系列面积图


4.18饼图


4.19圆环图


4.20玫瑰图


4.21直方图


4.22密度曲线


4.23累计密度曲线


4.24箱线图


4.25向箱线图添加槽口和平均值


4.26箱线图+散点图


4.27不等宽箱线图


4.28小提琴图


4.29小提琴图与箱线图叠加显示


4.30小提琴图与箱线图水平并列显示


4.31二维密度图


4.32分面


第5章ggplot2增强包介绍


5.1ggforce包介绍


5.1.1ggforce中的分面


5.1.2标注区域


5.1.3平行集合图


5.1.4沃罗诺伊图


5.2cowplot包介绍


5.2.1添加脚注


5.2.2双坐标轴图


5.2.3图形添边际密度图


5.3ggstream包介绍


5.4ggrepel包介绍


5.5treemapify包介绍


5.6waterfalls包介绍


5.7geomtextpath包介绍


5.7.1geom_textpath函数


5.7.2geom_textline函数


5.7.3geom_textdensity函数


5.7.4geom_textsmooth和geom_labelsmooth


5.7.5geom_contour_filled和geom_textcontour


5.7.6添加带标签的参考线


5.8ggfittext包介绍


5.9ggtext包介绍


5.9.1在theme()函数中使用element_markdown()


5.9.2在theme()函数中使用element_textbox()


5.10ggbreak包介绍


5.11ggpointdensity包介绍


5.12ggridges包介绍


5.13ggmosaic包介绍


5.14ggcharts包介绍


5.14.1ggcharts包对分面优化


5.14.2棒棒糖图


5.14.3哑铃图


5.14.4正负值条形图


5.14.5正负值棒棒糖图


5.14.6金字塔图


5.15patchwork包介绍


5.16绘图相关的其他包介绍


第6章数据可视化分析示例


6.1销售数据分析


6.1.1日均销售研究


6.1.2销售结构研究


6.2库存结构分析


6.3中国上市公司分析


6.3.1数据获取及清洗


6.3.2上市公司数量概况


6.3.3上市公司收入概况