书籍作者:喜乐君 | ISBN:9787121461729 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:1607 |
创建日期:2024-04-15 | 发布日期:2024-04-15 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书以敏捷分析工具Tableau为基础,部分章节辅以SQL讲解,系统介绍了数据可视化分析的体系和方法,内容涵盖问题分析方法、数据合并和建模、可视化图形的选择和构建、多种交互方式及其组合、仪表板设计与高级交互、基本计算和高级计算等。
本书以Tableau Desktop的应用为中心,借工具讲解原理,以原理深化工具应用,并由点及面地介绍了业务分析的思考和原理,特别是提出了实践性的“业务—数据—分析”层次框架,并以三类“详细级别”的概念贯通数据模型、高级筛选和高级计算三大主题。
本书重点介绍工具应用背后的思考方式和原理,帮助读者建立“详细级别”的思考框架,举一反三,从而实现多维、结构化分析。
Tableau Visionary(2020—2023)、数据分析咨询顾问、培训讲师·敏捷BI“布道师”。
连续创业者、上海唯知唯识创始人。
山东大学法学学士、教育学硕士,首届“硕士研究生国家奖学金”获得者。
站在业务角度、深入行业一线,借Tableau洞悉敏捷分析,重新理解和诠释“业务数据分析”。
感谢Tableau和读者的支持,是你们给了笔者继续前进的动力。
2020年年初,我把多年学习Tableau的所思、所想毫无保留地写出来,配以精致的图片出版发行。《数据可视化分析:Tableau原理与实践》一书收到了众多读者的一致好评,累计印刷8次,发行逾万册,多次入围“京东大数据推荐榜单”前三名。在读者群中,笔者认识了很多Tableau粉丝、企业用户及可视化爱好者。
过去两年多,Tableau产品持续更新迭代,笔者也进一步补充了SQL、数据库、数据仓库等基础知识,并对比学习了Power BI、帆软、观远等国内外多家优秀BI产品的应用。“实践是最好的老师”,笔者在分析项目咨询、Tableau企业培训、可视化开发项目的锻炼中,日渐意识到这本书中的诸多不足甚至错误,并放弃了小修小补的计划,重写此书作为近两年学习的总结。
于是,2022年4月,笔者开始重写本书的内容,并重新绘制、调整了大部分插图,作为第2版。历经波折,多次延迟,本书终于与读者见面。
这里,笔者总结第2版相对于第1版的内容改进。
1. 第2版改进
?? 增加对数字化转型的实践思考。
结合笔者多年的切身项目实践,本书总结了数据的应用及其发展阶段,数字化转型的多种路径和循序渐进的组织方案(见第1章)。
?? 业务分析方法和体系更加成熟。
业务是分析的“土壤”。在项目咨询过程中,笔者提出了“业务—数据—分析”的框架体系,可以与企业业务流程相结合绘制数据地图(见第2章)。同时,围绕问题结构、聚合、聚合度和详细级别,构建了一个普适性的业务分析方法,适用于各种分析和BI工具,甚至可以作为衡量分析工具的一种尺度(见第3章)。
?? 在数据合并、筛选、计算三大主题中,对比介绍了Excel、Tableau和SQL的应用场景。书中总结了“数据合并的分类矩阵”“两类筛选位置”“计算的分类”等实用方法,帮助没有相关技术背景的人更快实现超越,也有助于熟悉SQL的“技术派”更好地理解敏捷BI的精髓。高阶的BI工具绝非拖曳那般简单,在技术平民化的背后,是更巧妙的“业务灵魂”。
?? 将“数据筛选和交互”独立为第6章内容,进一步强调筛选在业务分析中的重要性。筛选的类型多样、优先级复杂,应该尽可能避免滥用SUM+IF类型的条件聚合。将筛选视为分析的独立环节,是优化分析性能的关键方式。
?? 强化“详细级别”的概念(替代之前的“层次”概念)。在数据表详细级别(Table LOD)、视图详细级别(Viz LOD)之外,使用“引用详细级别”(Reference LOD)代表视图之外预先指定的详细级别。笔者把数据关系、筛选和计算融为一体,这是本书最重要的知识资产,是超越Tableau理解不同工具背后的分析共性的关键。
?? 调整了第3篇的知识框架。没有计算,就没有无尽的业务分析,这也是本书最重要的内容之一。
?? 第8章深入介绍了计算的两大分类:行级别计算完成数据准备、聚合计算完成业务分析。在介绍常见函数后,借助逻辑计算介绍了两类计算的区别和联系。
?? 第9章使用了新的框架介绍Tableau表计算和SQL窗口函数,表计算代表的“抽象的二次抽象”,是迈向高级分析的台阶。
?? 第10章则结合“SQL聚合子查询”深入讲解LOD原理,结合购物篮分析、客户分析等经典案例,把高级分析中“预先聚合”的理念,推广到更普遍的业务分析中。
?? 增加了“从数据管理到数据仓库”的内容(见第11章),相关内容是从可视化分析走向专业的数据建模、数据方法的关键。“视Tableau Server为DW/BI平台”,给了更多企业全新选择。
?? 受限于篇幅,移除了之前Prep Builder数据处理、Tableau Server相关的大部分内容。
2. 致谢
每次写作完成,笔者总是迫不及待地分享。本书付梓之前,笔者在上海组织了“喜乐君精品课”线下活动,详尽介绍了本书的核心内容。教学相长,在分享过程中笔者进一步发现了自身知识体系的盲点。感谢来自天合光能、汉德车桥、上海电气、海南航空、上汽集团、英飞凌等企业的热心读者。
感谢继续支持和信任笔者的企业客户,笔者希望能用专业和热爱回报大家。
感谢Tableau,你给了笔者穿过迷雾的勇气,笔者也将无期限地支持你,对得起“Tableau传道士”的称号,对得起Tableau Zen Master/Visionary的全球荣誉。
感谢父母,感谢家人,“大爱无言”,笔者当用余生以行动回报。
喜乐君
内容及说明 XVIII
第1篇 奠基:数字化转型与业务分析原理
第1章 数字化转型:21世纪的机遇与挑战 2
1.1 理解数据的层次及分析的价值 2
1.2 数据应用的3个阶段 4
1.3 数字化转型到底“转”什么 10
参考资料 18
第2章 “业务—数据—分析”体系与企业数据地图 19
2.1 “业务—数据—分析”体系:BDA分析框架 19
2.2 建立全局视角:企业数据地图 24
2.3 两种企业级分析推进路径:“自上而下”与“自下而上” 26
2.4 可视化是大数据分析的桥梁和媒介 28
2.5 Tableau:大数据敏捷业务分析的“代表作” 32
参考资料 34
第3章 业务可视化分析:关键概念与方法论 35
3.1 解析问题结构、理解聚合过程和指标 35
3.1.1 问题的结构及其相互关系 36
3.1.2 聚合是问题分析的本质 38
3.1.3 基于聚合的字段分类:维度描述问题,度量回答问题 40
3.1.4 指标是聚合度量的业务形态 41
3.2 明细表与聚合表:聚合的逻辑过程 42
3.2.1 业务明细表和问题聚合表:聚合的起点和终点 43
3.2.2 物理表与逻辑表:数据表的抽象类型 45
3.2.3 字段的数据类型:数据表字段的抽象类型 46
3.3 可视化图形:聚合交叉表的“另一面” 49
3.3.1 问题类型与可视化增强分析 50
3.3.2 可视化背后的数据类型:连续和离散 51
3.3.3 Tableau中的字段属性及其作用 55
3.4 简单问题的“三步走”方法和Tableau示例 56
3.5 聚合度和详细级别:构建复杂问题层次理论 58
3.5.1 数据明细表和聚合度:多个问题的基准点和衡量尺度 59
3.5.2 详细级别:不同“聚合度”问题对应的抽象依据 60
3.5.3 结构化分析的两个应用方向 62
3.5.4 关键概念汇总:聚合、聚合度、详细级别、颗粒度 64
参考资料 66
练习题目 66
第2篇 数据准备、可视化、交互设计
第4章 数据合并与关系模型(Tableau/SQL) 68
4.1 概论:数据合并与连接数据源 69
4.1.1 理解数据合并、数据模型的重要性 69
4.1.2 数据合并和数据模型的相关概念 71
4.2 数据合并的分类矩阵与数据模型案例 72
4.2.1 “所见即所得”的行级别数据合并:Union和Join 72
4.2.2 Excel的局限:基于数据透视表的数据合并 74
4.2.3 Tableau数据混合初探,在聚合后完成连接 76
4.2.4 数据合并分类矩阵:两种合并方法、两个合并位置 78
4.3 行级别并集、连接与Tableau/SQL方法 81
4.3.1 数据并集 81
4.3.2 数据连接:连接条件与连接方式 84
4.3.3 高级连接的形式:仅左侧连接、交叉连接与“自连接” 89
4.3.4 明细表并集与连接的异同点与局限性 93
4.4 从数据关系匹配到关系模型 96
4.4.1 “临时”数据关系:基于问题层次创建数据关系匹配 96
4.4.2 数据模型:在最详细且有业务意义的详细级别预先构建数据关系 98
4.4.3 【关键】层次分析方法:从数据合并到数据关系模型 100
4.4.4 【难点】关系模型优化(上):匹配类型(基数) 106
4.4.5 【难点】关系模型优化(下):匹配范围(引用完整性) 111
4.4.6 共享维度表:从雪花模型到网状模型 116
4.4.7 通往最佳实践:业务关系模型的可视化表达 117
4.4.8 案例:图书及销售的数据关系模型 118
4.5 重说数据混合:编辑匹配关系和匹配详细级别 120
4.5.1 数据混合设置:自定义混合条件和自定义匹配字段 121
4.5.2 高级数据混合:数据匹配详细级别不同于主视图 123
4.6 不同数据合并类型的相互影响 127
4.7 Tableau与SQL/Python的结合 128
4.7.1 Tableau和SQL的结合 128
4.7.2 SQL中的连接 129
4.7.3 Tableau Table Extension:给数据源插上“算法之翼”(Tableau 2022.3+版本) 132
参考资料 133
练习题目 133
第5章 可视化分析与探索 134
5.1 数据准备:理解业务过程与整理数据字段 134
5.1.1 数据表:理解业务过程及数据表详细级别 134
5.1.2 字段:理解业务过程的对象并做分组分类 136
5.2 从问题到可视化图形:如何确定主视图框架 138
5.2.1 从问题类型到主要的可视化图形 138
5.2.2 初级可视化:“三图一表” 139
5.2.3 中级可视化:分布分析、相关性分析 143
5.2.4 地理位置可视化 148
5.2.5 数据图像角色可视化(Tableau 2022.4+版本) 155
5.3 可视化绘制方法与可视化增强 156
5.3.1 像油画一样做可视化:可视化三步骤和标记的使用 156
5.3.2 度量双轴及其综合处理 158
5.3.3 多个坐标轴的“公共基准”:度量值 160
5.4 高级分析入门:参考线与参考区间 161
5.4.1 参考线的创建及其组合 161
5.4.2 标准甘特图和标靶图:条形图与参考线的两种结合方式 163
5.4.3 参考区间 166
5.4.4 置信区间模型 167
5.4.5 趋势线与预测线 168
5.4.6 群集 169
5.5 格式设置:必要调整,但不要过度 170
5.5.1 常见的设置格式工具栏 170
5.5.2 设置“标签”格式,自定义文本表 171
5.5.3 工具提示的格式设置、交互和“画中画” 172
5.5.4 其他常用小技巧 173
参考资料 175
练习题目 175
第6章 Tableau/SQL筛选与集操作 176
6.1 理解不同工具背后的筛选方法与共同点 176
6.2 筛选的分类方法:基于详细级别的视角 182
6.3 筛选范围的交互方法:快速筛选和参数控制 195
6.4 多个筛选的处理:交集计算和优先级 199
6.5 集(Set):把筛选保留下来的“神奇容器” 207
6.6 集的运算、优先级和应用 212
6.7 中级交互:仪表板中的快速筛选、集交互 218
6.8 更多实用工具:分组、数据桶、分层结构、排序 224
参考资料 228
练习题目 228
第7章 仪表板设计、进阶与高级交互 230
7.1 仪表板:最重要的主题展现形式 230
7.2 故事:以数据故事叙事、探索 241
7.3 仪表板进阶:指标、初始模板、性能优化与“数据指南” 243
7.4 三种基本交互类型:筛选、高亮和页面 252
7.5 两类高级交互工具:参数、集交互 257
7.6 参数动作:参数、计算和交互(Tableau 2019.2+版本) 264
7.7 高级交互:指定区域对象的动态可见性(Tableau 2022.3+版本) 272
7.8 高级互动的巅峰:集动作和集控制 275
练习题目 283
第3篇 以有限字段做无尽分析:Tableau、SQL函数和计算体系
第8章 计算的底层框架:行级别计算与聚合计算 286
8.1 计算的演进及分类:从Excel、SQL到Tableau 287
8.2 计算的两大分类:分析是聚合的抽象过程 297
8.3 数据准备类函数(上):字符串函数、日期函数 302
8.4 数据准备类函数(下):正则表达式 316
8.5 分析函数:从明细到问题的“直接聚合” 318
8.6 通用型计算:算术函数和逻辑函数 325
8.7 行级别计算与聚合计算的区别与结合 332
8.8 专题:地理空间分析之“空间函数” 338
参考资料 345
练习题目 345
第9章 高级分析函数:Tableau表计算/ SQL窗口函数 346
9.1 合计的两个方法及“广义LOD表达式” 346
9.2 “同/环比”偏移计算及表计算设置方法 356
9.3 小结:表计算的独特性及两种设置方法 365
9.4 高级分析函数之排序计算:INDEX与RANK 369
9.5 最重要的二次聚合函数:WINDOW(窗口)函数 380
9.6 最常用的表计算:快速表计算及其附加计算 389
9.7 表计算应用(1):自定义参考线、“合计利润率” 393
9.8 表计算应用(2):标杆分析——多种类型的计算组合 402
9.9 表计算应用(3):帕累托分布——累计、合计及嵌套 406
9.10 表计算应用(4):金融ANR计算——表计算高级嵌套 409
9.11 表计算筛选器:优先级最低的筛选类型 413
9.12 表计算延伸应用:预测建模函数 416
练习题目 420
第10章 结构化问题分析:LOD表达式与SQL聚合子查询 421
10.1 业务解析:理解LOD表达式的逻辑和本质 421
10.2 LOD表达式的“详细级别”及其与视图关系 428
10.3 相对指定的LOD表达式及运算优先级 435
10.4 超越LOD:计算的详细级别体系及其优先级 441
10.5 走向实践:多遍聚合问题与结构化分析方法 446
10.6 客户分析专题:客户RFM相关案例分析 454
10.7 产品分析高级专题:购物篮分析的多个角度 470
10.8 总结:高级计算的最佳实践 480
练习题目 484
第11章 从数据管理到数据仓库:敏捷分析的基石 486
11.1 数据管理功能:以数据为中心 486
11.2 从数据管理(DM)到数据仓库(DW) 499
11.3 ETL:数据仓库中的数据处理 504
11.4 建议:视Tableau为DW/BI平台 506
参考资料 507