猜你喜欢
数据可视化分析(第二版)

数据可视化分析(第二版)

书籍作者:喜乐君 ISBN:9787121461729
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:1607
创建日期:2024-04-15 发布日期:2024-04-15
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书以敏捷分析工具Tableau为基础,部分章节辅以SQL讲解,系统介绍了数据可视化分析的体系和方法,内容涵盖问题分析方法、数据合并和建模、可视化图形的选择和构建、多种交互方式及其组合、仪表板设计与高级交互、基本计算和高级计算等。

本书以Tableau Desktop的应用为中心,借工具讲解原理,以原理深化工具应用,并由点及面地介绍了业务分析的思考和原理,特别是提出了实践性的“业务—数据—分析”层次框架,并以三类“详细级别”的概念贯通数据模型、高级筛选和高级计算三大主题。

本书重点介绍工具应用背后的思考方式和原理,帮助读者建立“详细级别”的思考框架,举一反三,从而实现多维、结构化分析。


作者简介

Tableau Visionary(2020—2023)、数据分析咨询顾问、培训讲师·敏捷BI“布道师”。

连续创业者、上海唯知唯识创始人。

山东大学法学学士、教育学硕士,首届“硕士研究生国家奖学金”获得者。

站在业务角度、深入行业一线,借Tableau洞悉敏捷分析,重新理解和诠释“业务数据分析”。


前言
第2版自序

感谢Tableau和读者的支持,是你们给了笔者继续前进的动力。

2020年年初,我把多年学习Tableau的所思、所想毫无保留地写出来,配以精致的图片出版发行。《数据可视化分析:Tableau原理与实践》一书收到了众多读者的一致好评,累计印刷8次,发行逾万册,多次入围“京东大数据推荐榜单”前三名。在读者群中,笔者认识了很多Tableau粉丝、企业用户及可视化爱好者。

过去两年多,Tableau产品持续更新迭代,笔者也进一步补充了SQL、数据库、数据仓库等基础知识,并对比学习了Power BI、帆软、观远等国内外多家优秀BI产品的应用。“实践是最好的老师”,笔者在分析项目咨询、Tableau企业培训、可视化开发项目的锻炼中,日渐意识到这本书中的诸多不足甚至错误,并放弃了小修小补的计划,重写此书作为近两年学习的总结。

于是,2022年4月,笔者开始重写本书的内容,并重新绘制、调整了大部分插图,作为第2版。历经波折,多次延迟,本书终于与读者见面。

这里,笔者总结第2版相对于第1版的内容改进。

1. 第2版改进

?? 增加对数字化转型的实践思考。

结合笔者多年的切身项目实践,本书总结了数据的应用及其发展阶段,数字化转型的多种路径和循序渐进的组织方案(见第1章)。

?? 业务分析方法和体系更加成熟。

业务是分析的“土壤”。在项目咨询过程中,笔者提出了“业务—数据—分析”的框架体系,可以与企业业务流程相结合绘制数据地图(见第2章)。同时,围绕问题结构、聚合、聚合度和详细级别,构建了一个普适性的业务分析方法,适用于各种分析和BI工具,甚至可以作为衡量分析工具的一种尺度(见第3章)。

?? 在数据合并、筛选、计算三大主题中,对比介绍了Excel、Tableau和SQL的应用场景。书中总结了“数据合并的分类矩阵”“两类筛选位置”“计算的分类”等实用方法,帮助没有相关技术背景的人更快实现超越,也有助于熟悉SQL的“技术派”更好地理解敏捷BI的精髓。高阶的BI工具绝非拖曳那般简单,在技术平民化的背后,是更巧妙的“业务灵魂”。

?? 将“数据筛选和交互”独立为第6章内容,进一步强调筛选在业务分析中的重要性。筛选的类型多样、优先级复杂,应该尽可能避免滥用SUM+IF类型的条件聚合。将筛选视为分析的独立环节,是优化分析性能的关键方式。

?? 强化“详细级别”的概念(替代之前的“层次”概念)。在数据表详细级别(Table LOD)、视图详细级别(Viz LOD)之外,使用“引用详细级别”(Reference LOD)代表视图之外预先指定的详细级别。笔者把数据关系、筛选和计算融为一体,这是本书最重要的知识资产,是超越Tableau理解不同工具背后的分析共性的关键。

?? 调整了第3篇的知识框架。没有计算,就没有无尽的业务分析,这也是本书最重要的内容之一。

?? 第8章深入介绍了计算的两大分类:行级别计算完成数据准备、聚合计算完成业务分析。在介绍常见函数后,借助逻辑计算介绍了两类计算的区别和联系。

?? 第9章使用了新的框架介绍Tableau表计算和SQL窗口函数,表计算代表的“抽象的二次抽象”,是迈向高级分析的台阶。

?? 第10章则结合“SQL聚合子查询”深入讲解LOD原理,结合购物篮分析、客户分析等经典案例,把高级分析中“预先聚合”的理念,推广到更普遍的业务分析中。

?? 增加了“从数据管理到数据仓库”的内容(见第11章),相关内容是从可视化分析走向专业的数据建模、数据方法的关键。“视Tableau Server为DW/BI平台”,给了更多企业全新选择。

?? 受限于篇幅,移除了之前Prep Builder数据处理、Tableau Server相关的大部分内容。

2. 致谢

每次写作完成,笔者总是迫不及待地分享。本书付梓之前,笔者在上海组织了“喜乐君精品课”线下活动,详尽介绍了本书的核心内容。教学相长,在分享过程中笔者进一步发现了自身知识体系的盲点。感谢来自天合光能、汉德车桥、上海电气、海南航空、上汽集团、英飞凌等企业的热心读者。

感谢继续支持和信任笔者的企业客户,笔者希望能用专业和热爱回报大家。

感谢Tableau,你给了笔者穿过迷雾的勇气,笔者也将无期限地支持你,对得起“Tableau传道士”的称号,对得起Tableau Zen Master/Visionary的全球荣誉。

感谢父母,感谢家人,“大爱无言”,笔者当用余生以行动回报。

喜乐君


目录

内容及说明 XVIII

第1篇 奠基:数字化转型与业务分析原理

第1章 数字化转型:21世纪的机遇与挑战 2

1.1 理解数据的层次及分析的价值 2

1.2 数据应用的3个阶段 4

1.3 数字化转型到底“转”什么 10

参考资料 18

第2章 “业务—数据—分析”体系与企业数据地图 19

2.1 “业务—数据—分析”体系:BDA分析框架 19

2.2 建立全局视角:企业数据地图 24

2.3 两种企业级分析推进路径:“自上而下”与“自下而上” 26

2.4 可视化是大数据分析的桥梁和媒介 28

2.5 Tableau:大数据敏捷业务分析的“代表作” 32

参考资料 34

第3章 业务可视化分析:关键概念与方法论 35

3.1 解析问题结构、理解聚合过程和指标 35

3.1.1 问题的结构及其相互关系 36

3.1.2 聚合是问题分析的本质 38

3.1.3 基于聚合的字段分类:维度描述问题,度量回答问题 40

3.1.4 指标是聚合度量的业务形态 41

3.2 明细表与聚合表:聚合的逻辑过程 42

3.2.1 业务明细表和问题聚合表:聚合的起点和终点 43

3.2.2 物理表与逻辑表:数据表的抽象类型 45

3.2.3 字段的数据类型:数据表字段的抽象类型 46

3.3 可视化图形:聚合交叉表的“另一面” 49

3.3.1 问题类型与可视化增强分析 50

3.3.2 可视化背后的数据类型:连续和离散 51

3.3.3 Tableau中的字段属性及其作用 55

3.4 简单问题的“三步走”方法和Tableau示例 56

3.5 聚合度和详细级别:构建复杂问题层次理论 58

3.5.1 数据明细表和聚合度:多个问题的基准点和衡量尺度 59

3.5.2 详细级别:不同“聚合度”问题对应的抽象依据 60

3.5.3 结构化分析的两个应用方向 62

3.5.4 关键概念汇总:聚合、聚合度、详细级别、颗粒度 64

参考资料 66

练习题目 66

第2篇 数据准备、可视化、交互设计

第4章 数据合并与关系模型(Tableau/SQL) 68

4.1 概论:数据合并与连接数据源 69

4.1.1 理解数据合并、数据模型的重要性 69

4.1.2 数据合并和数据模型的相关概念 71

4.2 数据合并的分类矩阵与数据模型案例 72

4.2.1 “所见即所得”的行级别数据合并:Union和Join 72

4.2.2 Excel的局限:基于数据透视表的数据合并 74

4.2.3 Tableau数据混合初探,在聚合后完成连接 76

4.2.4 数据合并分类矩阵:两种合并方法、两个合并位置 78

4.3 行级别并集、连接与Tableau/SQL方法 81

4.3.1 数据并集 81

4.3.2 数据连接:连接条件与连接方式 84

4.3.3 高级连接的形式:仅左侧连接、交叉连接与“自连接” 89

4.3.4 明细表并集与连接的异同点与局限性 93

4.4 从数据关系匹配到关系模型 96

4.4.1 “临时”数据关系:基于问题层次创建数据关系匹配 96

4.4.2 数据模型:在最详细且有业务意义的详细级别预先构建数据关系 98

4.4.3 【关键】层次分析方法:从数据合并到数据关系模型 100

4.4.4 【难点】关系模型优化(上):匹配类型(基数) 106

4.4.5 【难点】关系模型优化(下):匹配范围(引用完整性) 111

4.4.6 共享维度表:从雪花模型到网状模型 116

4.4.7 通往最佳实践:业务关系模型的可视化表达 117

4.4.8 案例:图书及销售的数据关系模型 118

4.5 重说数据混合:编辑匹配关系和匹配详细级别 120

4.5.1 数据混合设置:自定义混合条件和自定义匹配字段 121

4.5.2 高级数据混合:数据匹配详细级别不同于主视图 123

4.6 不同数据合并类型的相互影响 127

4.7 Tableau与SQL/Python的结合 128

4.7.1 Tableau和SQL的结合 128

4.7.2 SQL中的连接 129

4.7.3 Tableau Table Extension:给数据源插上“算法之翼”(Tableau 2022.3+版本) 132

参考资料 133

练习题目 133

第5章 可视化分析与探索 134

5.1 数据准备:理解业务过程与整理数据字段 134

5.1.1 数据表:理解业务过程及数据表详细级别 134

5.1.2 字段:理解业务过程的对象并做分组分类 136

5.2 从问题到可视化图形:如何确定主视图框架 138

5.2.1 从问题类型到主要的可视化图形 138

5.2.2 初级可视化:“三图一表” 139

5.2.3 中级可视化:分布分析、相关性分析 143

5.2.4 地理位置可视化 148

5.2.5 数据图像角色可视化(Tableau 2022.4+版本) 155

5.3 可视化绘制方法与可视化增强 156

5.3.1 像油画一样做可视化:可视化三步骤和标记的使用 156

5.3.2 度量双轴及其综合处理 158

5.3.3 多个坐标轴的“公共基准”:度量值 160

5.4 高级分析入门:参考线与参考区间 161

5.4.1 参考线的创建及其组合 161

5.4.2 标准甘特图和标靶图:条形图与参考线的两种结合方式 163

5.4.3 参考区间 166

5.4.4 置信区间模型 167

5.4.5 趋势线与预测线 168

5.4.6 群集 169

5.5 格式设置:必要调整,但不要过度 170

5.5.1 常见的设置格式工具栏 170

5.5.2 设置“标签”格式,自定义文本表 171

5.5.3 工具提示的格式设置、交互和“画中画” 172

5.5.4 其他常用小技巧 173

参考资料 175

练习题目 175

第6章 Tableau/SQL筛选与集操作 176

6.1 理解不同工具背后的筛选方法与共同点 176

6.2 筛选的分类方法:基于详细级别的视角 182

6.3 筛选范围的交互方法:快速筛选和参数控制 195

6.4 多个筛选的处理:交集计算和优先级 199

6.5 集(Set):把筛选保留下来的“神奇容器” 207

6.6 集的运算、优先级和应用 212

6.7 中级交互:仪表板中的快速筛选、集交互 218

6.8 更多实用工具:分组、数据桶、分层结构、排序 224

参考资料 228

练习题目 228

第7章 仪表板设计、进阶与高级交互 230

7.1 仪表板:最重要的主题展现形式 230

7.2 故事:以数据故事叙事、探索 241

7.3 仪表板进阶:指标、初始模板、性能优化与“数据指南” 243

7.4 三种基本交互类型:筛选、高亮和页面 252

7.5 两类高级交互工具:参数、集交互 257

7.6 参数动作:参数、计算和交互(Tableau 2019.2+版本) 264

7.7 高级交互:指定区域对象的动态可见性(Tableau 2022.3+版本) 272

7.8 高级互动的巅峰:集动作和集控制 275

练习题目 283

第3篇 以有限字段做无尽分析:Tableau、SQL函数和计算体系

第8章 计算的底层框架:行级别计算与聚合计算 286

8.1 计算的演进及分类:从Excel、SQL到Tableau 287

8.2 计算的两大分类:分析是聚合的抽象过程 297

8.3 数据准备类函数(上):字符串函数、日期函数 302

8.4 数据准备类函数(下):正则表达式 316

8.5 分析函数:从明细到问题的“直接聚合” 318

8.6 通用型计算:算术函数和逻辑函数 325

8.7 行级别计算与聚合计算的区别与结合 332

8.8 专题:地理空间分析之“空间函数” 338

参考资料 345

练习题目 345

第9章 高级分析函数:Tableau表计算/ SQL窗口函数 346

9.1 合计的两个方法及“广义LOD表达式” 346

9.2 “同/环比”偏移计算及表计算设置方法 356

9.3 小结:表计算的独特性及两种设置方法 365

9.4 高级分析函数之排序计算:INDEX与RANK 369

9.5 最重要的二次聚合函数:WINDOW(窗口)函数 380

9.6 最常用的表计算:快速表计算及其附加计算 389

9.7 表计算应用(1):自定义参考线、“合计利润率” 393

9.8 表计算应用(2):标杆分析——多种类型的计算组合 402

9.9 表计算应用(3):帕累托分布——累计、合计及嵌套 406

9.10 表计算应用(4):金融ANR计算——表计算高级嵌套 409

9.11 表计算筛选器:优先级最低的筛选类型 413

9.12 表计算延伸应用:预测建模函数 416

练习题目 420

第10章 结构化问题分析:LOD表达式与SQL聚合子查询 421

10.1 业务解析:理解LOD表达式的逻辑和本质 421

10.2 LOD表达式的“详细级别”及其与视图关系 428

10.3 相对指定的LOD表达式及运算优先级 435

10.4 超越LOD:计算的详细级别体系及其优先级 441

10.5 走向实践:多遍聚合问题与结构化分析方法 446

10.6 客户分析专题:客户RFM相关案例分析 454

10.7 产品分析高级专题:购物篮分析的多个角度 470

10.8 总结:高级计算的最佳实践 480

练习题目 484

第11章 从数据管理到数据仓库:敏捷分析的基石 486

11.1 数据管理功能:以数据为中心 486

11.2 从数据管理(DM)到数据仓库(DW) 499

11.3 ETL:数据仓库中的数据处理 504

11.4 建议:视Tableau为DW/BI平台 506

参考资料 507