猜你喜欢
数据可视化(第二版)

数据可视化(第二版)

书籍作者:李伊 ISBN:9787563833306
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:5332
创建日期:2023-05-09 发布日期:2023-05-09
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书主要介绍了数据可视化的基础知识、可视化工具的入门和应用、使用Python流行的库创建美观的数据可视化效果,并总结了了7大类40种不同的可视化图形,从基本信息、构成与视觉通道、适用数据、使用场景、注意事项、变体等多方面详细介绍了每种可视化图形的使用权方法,可作为常用可视化图形的使用手册。本书还提供了6个贴近大学生学习生活的可视化案例,为读者自由灵活应用可视化参考提供了有力的参考。

本书可作为高等院校数据科学与大数据技术、统计学及其相关专业的本科课程教材,也可供有一定实践经验的软件开发人员、管理人员作为自学和参考用书。

  


作者简介

李伊,西南财经大学统计学院副教授,美国佐治亚州立大学统计学博士。主要研究领域包括统计学,数量经济学,数据科学,在包括《Computational Statistics and Data Analysis》,《Canadian Journal of Statistics》,《Statistica Sinica》在内的国内外主流学术期刊发表论文近十篇。

前言

总序

当前 ,以人工智能和大数据技术为代表的新一轮科技革命正在重塑全球的社会经济结构 ,“数据 ”是这个过程中最重要、最有活力的生产要素。如何高效发挥大数据的作用并实现其价值,成为社会各界必须面临和思考的重要问题。除实验、理论和仿真之外 ,新的科学研究范式———“数据科学 ”因此应运而生。数据科学与大数据技术同人工智能一道 ,将成为改变人类社会活动和改变世界的新引擎。

世界主要发达国家已把发展数据科学与大数据技术作为提升国家竞争力、维护国家安全的重大战略 ,加紧出台了规划和政策 ,围绕核心技术、顶尖人才、标准规范等强化部署 ,力图在新一轮国际科技竞争中掌握主导权。 2015年 8月,我国国务院印发的《关于促进大数据发展行动纲要》明确了发展大数据的指导思想、发展目标和发展任务 ,标志着大数据正式上升为国家核心战略。同年 10月,《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》提出要 “实施国家大数据战略 ,推进数据资源开放共享 ”,标志着大数据正式成为 “十三五 ”规划的核心内容。 2016年的政府工作报告中也专门提出 “促进大数据、云计算、物联网广泛应用 ”,这就意味着自 2014年首次进入政府工作报告以来 ,大数据连续三年受到我国政府的高度关注。在党的十九大报告中 ,习近平总书记强调要推动互联网、大数据、人工智能和实体经济深度融合 ,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点 ,形成新动能。 2017年,国务院印发的《新一代人工智能发展规划》中指出 ,要抢抓人工智能发展的重大战略机遇 ,构筑我国人工智能发展的先发优势 ,加快建设创新型国家和世界科技强国 ,并提出了我国人工智能发展的重点任务之一就是加快培养人工智能高端人才。然而在我国数据科学与大数据技术、人工智能领域发展过程中仍旧面临着众多制约因素。

在国务院印发的《新一代人工智能发展规划》的重点任务中 ,明确提出要研究统计学习基础理论、不确定性推理与决策、分布式学习与交互、隐私保护学习、小样本学习、深度强化学习、无监督学习、半监督学习、主动学习等学习理论和高效模型 ,并统筹布局概率统计、深度学习等人工智能范式的统一计算框架平台和人工智能创新平台。

数据科学与大数据技术是一个需要具备多方面学科知识背景并涉及多个应用领域的交叉专业。当前我国共有 280多所高校在工学和理学学科门类中开设数据科学与大数据技术本科专业 ,培养掌握统计学、计算机科学、数学等主要知识、符合国家发展战略的重大需求的高级人才。相对于其他成熟的本科专业 ,数据科学与大数据技术人才的稀缺成为制约大数据领域发展的重要因素 ,是当前亟须解决的重大问题。

数据科学与大数据技术本科专业的建设实际上是一场教育革命 ,是受业界需求驱动形成的,其理论基础、课程体系和知识结构框架均处于探索阶段。但有一点非常明确 ,“实践 ”是学习该专业最重要、最高效的方式 ,这也成为本套教材 ———“普通高等教育数据科学与大数据技术专业 ‘十三五 ’规划教材 ”的编写导向。这不仅需要学生夯实统计学、应用数学以及计算机科学等学科的基础 ,也需要学生具备大数据所服务行业的相关知识积累和实践经验。只有掌握多学科融会贯通的能力 ,才能真正成为一个有思想的数据科学家。

……


 数据可视化 (第二版 )

首都经济贸易大学在 2014年共同搭建了 “大数据分析硕士 ”培养协同创新平台。在不断的摸索中 ,一套科学完整的课程体系逐渐建立起来。随后 ,相关课程也在全国多所院校中实施 ,成为我国大数据技术高端人才培养体系的蓝本。

为紧跟科学技术的发展潮流 ,引领中国大数据理论、技术、方法与应用 ,在北京大数据协会及相关机构的组织下 ,开展了教材编写的大量前期国内外调研工作 ,并于 2017年 6月在云南举办了 “第一届全国数据科学与大数据技术本科专业建设研讨会 ”,展示了调研成果 ,为中国数据科学与大数据技术人才培养奠定了基础。为进一步厘清该专业的培养方案和课程内容建设的目标和路径 ,从培养方案、课程体系、培养过程、教材建设等方面深入交流探讨 ,于 2019年 5月在北京召开了 “第二届全国数据科学与大数据技术本科专业建设研讨会 ”,会上正式发布了本套系列教材。

本套教材凝聚了全国相关院校数据科学与大数据技术领域著名专家和学者的智慧和力量。在教材编写过程中更加关注的是数据分析思想的引导 ,体现数据分析的艺术 ,侧重于从数据和案例出发 ,厘清数据分析的基本思路 ,这样能够让读者更好地理解各种假设、公式、定理和模型背后的逻辑。为了结合现实需求 ,每本教材均配套相关的 Python编程代码 ,让读者在练中学、学中练的过程中夯实基础 ,积累经验 ,提升竞争力。尽管编写人员投入了大量的心血 ,但教材内容还需不断突破和完善 ,希望能够得到各位专家和同行的批评指正 ,共同实现此套教材满足教学需求的编写宗旨。

本套系列教材是集体创作的成果。感谢编委会成员和其他编写人员的辛勤付出 ,以及北京大学出版社和首都经济贸易大学出版社的大力支持。希望此套教材能对广大教师和学生及各数据科学领域的从业人员具有重要的参考价值。

北京大数据协会会长


2019年 9月

     2

第二版前言

这是一个令人振奋的时代 ,也是一个迎接空前挑战的时代 ,大数据时代的大门已经开启 ,它不再是未来而已然成为现在。数据智慧 ,已成为政府决策和社会发展的科学依据。可视化通常是理解数据和交流分析的第一步 ,因为当数据以图形方式而非数字方式呈现时 ,人们会更善于理解数据。数据可视化也是传达发现的有效方式 ,利用人类视觉的快速感知直觉 ,支持更轻松的协作和更快的创新。随着数据的普及 ,数据可视化技术的应用越来越多 ,并且在众多学科中不断涌现。

正因如此 ,本书的第一版在问世以来的短短两年时间内 ,在我国高等院校内引起强烈反响 ,成为包括西南财经大学在内的多所高校数据科学相关专业的指定教材。在教材使用过程中 ,作者团队获得了教师及学生们积极踊跃提出的众多意见和建议 ,因此 ,为了更好地为高等院校相关专业的教师和学生服务 ,我们对教材进行了大刀阔斧的调整和补充。

首先 ,为了更好地理解人类视觉对于可视化图形的感知 ,教材补充了格式塔原理、视觉感知及视觉通道等理论知识 ,为读者理解众多可视化方式的特点提供了更深入的理论依据。

其次 ,教材在原有基于 Python的可视化工具介绍中增加了 Seaborn这一常用的可视化库 ,为读者实现可视化提供了更多工具选择。特别是 ,这一版的教材系统归纳总结了 7大类 40种不同的可视化图形 ,从基本信息、构成与视觉通道、适用数据、使用场景、注意事项、变体等多方面详细介绍了每种可视化图形的使用方法 ,为读者提供了常用可视化图形的使用手册。

再次 ,在案例分析方面 ,教材重新编写了 6个更贴近大学生学习生活的可视化案例 ,为读者灵活自主使用可视化方法提供了有力参考。

最后 ,由于教材篇幅原因 ,原有的 Python使用基础部分放在附录中 ,为 Python初学者提供零基础的使用指导。

在教材数字化方面 ,为了让读者更好地使用教材 ,每一章的彩图都将以二维码的形式提供给读者查阅。除此之外 ,教材中使用的数据及代码都将提供给读者参考。

本书的组织结构

本书一共分为四个部分。

第一部分为数据可视化概论 ,主要介绍数据可视化在数据科学中的作用以及数据可视化的价值。

第二部分为如何做好数据可视化 ,主要介绍什么是好的数据可视化 ,数据可视化的一般流程,以及常用数据可视化工具。

第三部分为数据可视化基础图形与叙事 ,主要介绍包括比较与排序、局部与整体、分布、时间趋势、地理特征、相关类以及网络关系类在内的 7大类 40种基础可视化图形 ,如何使用可视化进行叙事 ,以及美国枪击、电影票房、高中教学、世界杯、就业岗位、B站番剧等 6个案例分析。

第四部分为数据可视化建模 ,扩展性地介绍常用的数据可视化建模方法 ,包括统计学习模型,网络模型等。教材附录主要介绍 Python使用基础。


目录

目 录

第一部分 数据可视化概论

1 数据可视化在 DIKW体系中的作用 ……………………………………………………(3)    1. 1 DIKW体系 ……………………………………………………………………………(3)    1. 2 数据可视化的作用 …………………………………………………………………… (5) 2 数据可视化的价值 …………………………………………………………………………(9)    2. 1 什么是数据可视化 ……………………………………………………………………(9)    2. 2 数据可视化的历史 …………………………………………………………………(10)    2. 3 数据可视化的优势 …………………………………………………………………(13)    2. 4 数据可视化的应用场景 ……………………………………………………………(17)

第二部分 如何做好数据可视化

3 什么是好的数据可视化 …………………………………………………………………(23)    3. 1 视觉感知 ……………………………………………………………………………(23)    3. 2 视觉通道 ……………………………………………………………………………(24)    3. 3 好的数据可视化 …………………………………………………………………… (30) 4 数据可视化的一般流程 …………………………………………………………………(34)    4. 1 数据收集、处理与分析 ……………………………………………………………(34)    4. 2 数据可视化展示 ……………………………………………………………………(35)    4. 3 数据可视化叙事 …………………………………………………………………… (40) 5 常用数据可视化工具 ……………………………………………………………………(41)    5. 1 Python中的 Matplotlib库 …………………………………………………………(41)

   5. 2 Python中的 Seaborn库……………………………………………………………(44)


   5. 3 Python中的 Pyecharts库 …………………………………………………………(51)


   5. 4 其他数据可视化工具 ……………………………………………………………… (57)



  1


 数据可视化 (第二版 )

第三部分 数据可视化基础图像与叙事

6 比较与排序类可视化图像 ………………………………………………………………(65)    6. 1 柱状图 ………………………………………………………………………………(65)    6. 2 环形柱状图 …………………………………………………………………………(70)    6. 3 子弹图 ………………………………………………………………………………(73)    6. 4 哑铃图 ………………………………………………………………………………(76)    6. 5 雷达图 ………………………………………………………………………………(80)    6. 6 平行坐标图 …………………………………………………………………………(86)    6. 7 词云图 ………………………………………………………………………………(89)    6. 8 比较与排序类可视化图像总结 ……………………………………………………… (92) 7 局部与整体类可视化图像 ………………………………………………………………(95)    7. 1 维恩图 ………………………………………………………………………………(95)    7. 2 饼图 …………………………………………………………………………………(97)    7. 3 环形图 ………………………………………………………………………………(101)    7. 4 旭日图 ………………………………………………………………………………(104)    7. 5 圆堆积图 ……………………………………………………………………………(107)    7. 6 矩形树图 ……………………………………………………………………………(110)    7. 7 漏斗图 ………………………………………………………………………………(113)    7. 8 整体与局部可视化图像总结 ……………………………………………………… (116) 8 分布类可视化图像 ………………………………………………………………………(119)    8. 1 直方图 ………………………………………………………………………………(119)    8. 2 密度图 ………………………………………………………………………………(123)    8. 3 箱线图 ………………………………………………………………………………(128)    8. 4 小提琴图 ……………………………………………………………………………(132)    8. 5 嵴线图 ………………………………………………………………………………(136)    8. 6 分布类可视化图像总结 …………………………………………………………… (139) 9 时间趋势类可视化图像 …………………………………………………………………(142)

   9. 1 折线图 ………………………………………………………………………………(142)


   9. 2 面积图 ………………………………………………………………………………(146)


   9. 3 地平线图 ……………………………………………………………………………(151)


   9. 4 河流图 ………………………………………………………………………………(153)


   9. 5 瀑布图 ………………………………………………………………………………(157)


   9. 6 烛形图 ……………………………………………………………………………… (160)



     2

目 录 


   9. 7 时间趋势类可视化图像总结 ……………………………………………………… (165) 10 地理特征类可视化图像 ………………………………………………………………(171)    10. 1 分级地图 …………………………………………………………………………(171)    10. 2 蜂窝热力地图 ……………………………………………………………………(175)    10. 3 变形地图 …………………………………………………………………………(178)    10. 4 关联地图 …………………………………………………………………………(181)    10. 5 气泡地图 …………………………………………………………………………(183)    10. 6 地理特征类可视化图像总结 …………………………………………………… (187) 11 相关类可视化图像 ……………………………………………………………………(190)    11. 1 散点图 ……………………………………………………………………………(190)    11. 2 气泡图 ……………………………………………………………………………(196)    11. 3 相关图 ……………………………………………………………………………(200)    11. 4 热力图 ……………………………………………………………………………(207)    11. 5 二维密度图 ………………………………………………………………………(213)    11. 6 相关类可视化图像总结 ………………………………………………………… (218) 12 网络关系类可视化图像 ………………………………………………………………(221)    12. 1 网络图 ……………………………………………………………………………(221)    12. 2 弧形链接图 ………………………………………………………………………(228)    12. 3 环形链接图 ………………………………………………………………………(233)    12. 4 和弦图 ……………………………………………………………………………(236)    12. 5 桑基图 ……………………………………………………………………………(241)    12. 6 网络关系图总结 ………………………………………………………………… (246) 13 使用数据可视化讲述故事 ……………………………………………………………(249)    13. 1 主动式叙事 ………………………………………………………………………(249)    13. 2 互动式叙事 ……………………………………………………………………… (252) 14 基础数据可视化案例 …………………………………………………………………(257)

   14. 1 美国暴力枪击事件可视化分析 ……………………………………………………(257)


   14. 2 TMDB电影数据可视化分析 ……………………………………………………(265)


   14. 3 高中教学分析系统数据可视化探索 ………………………………………………(272)


   14. 4 历届足球世界杯数据可视化分析 …………………………………………………(283)


   14. 5 基于招聘岗位的就业形势可视化分析 ……………………………………………(292)


   14. 6 B站番剧数据可视化网站设计 …………………………………………………… (304)




 数据可视化 (第二版 )

第四部分 数据可视化建模

15 统计学习模型 …………………………………………………………………………(313)    15. 1 K-近邻法 …………………………………………………………………………(313)    15. 2 逻辑斯谛回归 ……………………………………………………………………(315)    15. 3 支持向量机 ………………………………………………………………………(318)    15. 4 集成学习 …………………………………………………………………………(320)    15. 5 主成分分析 ………………………………………………………………………(322)    15. 6 K-均值聚类 ……………………………………………………………………… (325) 16 图论与网络模型 ………………………………………………………………………(330)    16. 1 无向图与有向图 …………………………………………………………………(331)

   16. 2 图的集聚系数 ……………………………………………………………………(333)


   16. 3 常见的网络优化问题 ……………………………………………………………(334)


   16. 4 社交网络分析 ……………………………………………………………………(340)


   16. 5 Networkx工具包 …………………………………………………………………(349)



附录: Python使用基础 …………………………………………………………………… (354)

     4