猜你喜欢
数据血缘:理论与业务实践

数据血缘:理论与业务实践

书籍作者:Irina Steenbeek ISBN:9787121459511
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8050
创建日期:2024-04-13 发布日期:2024-04-13
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书共分为四篇。前三篇分别对应数据血缘的理论、实现和应用:第一篇阐明数据血缘的概念,主要介绍有关数据血缘概念的综合知识;第二篇介绍如何实现数据血缘,包括一些关于实现数据血缘的可行性见解和建议;第三篇介绍如何使用数据血缘,利用数据血缘结果实现不同的业务目的。第四篇是关于“构建数据血缘业务案例”的研究,介绍如何将数据血缘落地到业务案例中。

本书主要面向数据开发人员和数据管理人员,用于针对数据血缘及其应用领域拓宽思路。本书也适合具有技术背景的数据业务人员参考阅读,便于更好地理解业务需求和数据血缘需求。


作者简介

Irina Steenbeek 博士是一位拥有超过 11 年经验的数据管理从业者。她擅长的主要领域是数据管理成熟度评估、数据管理框架的实施和数据血缘。Irina 在 ERP 和 DWH/BI、管理咨询、财务和业务控制及数据科学等软件实施方面具有丰富的实践经验。多年来,她曾服务于全球机构及不同领域的大中型组织,包括金融机构、专业服务和 IT 公司。2016年,她创立了Data Crossroads——一家数据管理培训和辅导服务企业。 Data Crossroads 专注于通过建立适合公司业务目标和资源的有效数据管理框架来帮助客户改进决策。


译者简介

王琤,Datablau(北京数语科技有限公司)创始人兼CEO,信通院数据资产专家委员会成员,数据资产管理实践白皮书主要撰写人之一,国资委数据要素专家组成员,复旦大学、北京航空航天大学客座讲师,曾任CA ERwin全球研发负责人。

车春雷,高级工程师、信息系统分析师,在科技和数据领域有30余年工作经历,先后从事企业自动化、软件研发、网络设计、商业智能与企业级数据仓库、数据标准、数据质量、数据建模等工作,积累了丰富的数据管理经验。


编辑推荐

数据血缘在数据治理、数据分析、数据集成、元数据管理等工作中发挥着重要作用。然而,对许多用户来说,数据血缘仍然是一个抽象且未知的概念。数据血缘的实现过程是复杂且耗费资源的。即使实现了,它也未必能如预期一样使用。

本书专门为数据开发人员和数据管理人员打造,书中不仅提供了关于数据血缘的定义和模型,还展示了数据血缘的最佳实践案例,并讨论了数据血缘的主要应用领域。

本书适用于以下不同专业领域的人群:

(1)数据管理和数据业务相关专业人员,通过本书可以在数据血缘及其应用领域方面获得启发并拓宽思路。

(2)具有技术背景的专业人员,通过本书可以更好地了解业务需求和数据血缘需求。

(3)项目管理专业人员,通过本书可以熟练掌握数据血缘的最佳实践。


前言

多年前,作者(我)第一次听到“数据血缘”这个词,当时团队正在实施一个数据仓库解决方案。一位顾问建议使用Excel表格记录数据血缘,IT团队的反应既简单又直接:“不可能。”他们认为没有必要记录这些信息,即使在最坏的情况下,他们也可以通过检查软件代码对数据进行追踪。后来,在另一个与监管合规相关的项目中,有人再次提起了数据血缘的话题。我的一位同事曾试图收集数据血缘的需求,但是没有成功。在某个时刻,他绝望地说:“每个人都需要数据血缘,但是没有人能解释什么是数据血缘。”随后,我接手了他的任务。从此,数据血缘就成了我的专业领域和业余爱好。这些年来,我见证了数据血缘的重大变化,并观察到了一些新的趋势。

数据血缘的趋势

多年来,根据我的观察及验证,关于数据血缘有以下三个最重要的发展趋势。

1. 日益增加的监管和业务需求压力需要对数据血缘进行记录。

几年前,对数据血缘的需求还如“奢侈品”一般不够广泛。如今,它已经成为数据管理中的一种常规需求。最近,不同的监管机构发布了许多法规文件,其中都对数据管理提出了特殊需求。要满足这些需求,不同行业的企业必须实施数据血缘管理。经济环境快速和不可预测的变化要求业务环境随之变化和发展。任何业务环境的变化都涉及数据,例如数据集成、数字化转型、大数据、高级数据分析和云平台等。要成功开展这些工作,需要了解数据存储的位置和数据在数据链上进行的传递等信息。数据血缘就是这类信息的来源。

2. 专业的技术和业务人员都表现出对数据血缘的需要和兴趣。

不久前,还只有一些技术人员知道数据血缘,而且有相关使用经验的人才很少。如今,数据血缘已成为业务人员经常使用的术语。但是对他们中的大多数人来说,这个概念仍然是抽象的,他们仍未认识到“数据血缘已成为最急迫的业务需求之一”这一事实。

3. 市场上已出现了许多不同的数据血缘软件解决方案。

此前,数据血缘文档还普遍是微软的Excel和Word文件。近期,市场上已经有一些先进的数据血缘解决方案。不同规模、不同行业的企业都可以找到满足自身需求且适配自身资源的解决方案。根据这些趋势,我认识到了实现数据血缘面临的一些挑战。

实现数据血缘面临的挑战

数据血缘的实现经历了许多挑战,下面列举三个主要的挑战。

1. 对大多数用户来说,数据血缘的概念仍然很抽象。

数据血缘是一个复杂的概念,数据管理社区对它还没有一致的定义,因此每家企业都要通过开发数据血缘的元模型来启动数据血缘的相关工作。

2. 实现数据血缘是复杂的,并且会消耗大量的时间和资源。

无论如何,实现数据血缘都需要付出大量的努力,并消耗许多资源。正确识别需求和实施范围是成功的关键因素之一。

3. 即使实现了数据血缘,数据管理和业务专业人员也不会完全按照预期使用。

在工作的起始阶段,许多利益相关者并不熟悉数据血缘的概念。得到的实际结果往往不符合他们最初的期望。此外,使用数据血缘还需要一些技术技能和知识。所有这些因素都可能导致数据血缘的实现结果无人认可的情况。

在克服上述挑战的过程中,我对数据血缘的发展趋势有所了解并积累了经验,这赋予了我写作本书的灵感。

主要目标和目标受众

本书面向数据管理和业务专业人员,从不同的角度介绍数据血缘。

本书的目标如下。

(1)提出数据血缘的定义和模型。

数据血缘是一个复杂的概念,每家企业都可能以不同的方式定义数据血缘的重要组件,从而在最大程度上满足企业的需要。

(2)展示数据血缘的最佳实践。

实现数据血缘既耗时又耗资源。为了成功实现数据血缘,每家企业都应该定义合适的范围、方法和解决方案。

(3)讨论应用数据血缘的主要业务领域。

在数据血缘工作上的投资应通过正确使用数据血缘而获得回报。不同的业务职能都可能受益于数据血缘的结果。

不同领域的专业人员可以通过不同的方式来使用本书。

(1)数据管理和业务专业人员,可以针对数据血缘及其应用领域拓宽思路。

与数据血缘概念有关的资源很少,互联网上的文章和数据血缘解决方案供应商网站是主要的信息来源。目前,数据血缘还缺乏统一的定义。这些都给初学者带来了挑战。本书深入分析了数据血缘,并提出了数据血缘元模型和相应的术语。这有助于不同的利益相关者针对数据血缘进行交流。

(2)具有技术背景的专业人员,可以更好地理解业务需要和数据血缘需求。

不同的利益相关者对数据血缘的理解、要求和需求明显不同。技术专业人员主要关注实现物理层面上的元数据血缘,但这个术语对业务专业人员来说毫无意义。本书未涵盖不同数据血缘解决方案的技术细节,而是帮助技术专业人员和业务人员在针对数据血缘的不同观点之间搭建一座桥梁。

(3)项目管理专业人员,可以熟悉数据血缘实现的最佳实践。

合适的实施范围和适当的实施方法是所有项目成功的关键因素。许多因素会影响项目范围、方法和方案的选择。项目管理专业人员可以从本书中获得实用的建议,并熟悉开发数据血缘业务案例的技术。本书还简单介绍了一些数据血缘解决方案。

补充说明

原书中包含大量参考文献及资料,本书均已电子资源形式提供,下载方式见封底处“读者服务”。

译者序

在数据量不断增长、数据生态系统复杂的时代,追踪数据从源头到目的地,及其经过的各种流程和系统的信息,对确保数据质量、合规性和决策来说至关重要。这些信息被称为数据血缘。

数据血缘既能回答“这些数据从哪里来,到哪里去”这样的哲学问题,也能回答“数据是如何进行加工转换的”这样的技术问题,帮助我们深入了解数据资产的可靠性、可信度。

数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析、数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘,能够使组织识别数据异常、解决问题、跟踪数据转换,并确保遵守 GDPR、CCPA 等法规。

数据血缘是企业最重要的数据资产之一,而且未来它将充当更加重要的角色。一方面,完整的数据血缘信息可以有效跟踪敏感数据的全链路生命周期,实现数据安全合规。例如:源端系统中的PII(个人身份识别信息)在数仓、大数据平台、数据湖中是否得到有效的脱敏?哪些数据服务可能泄露机密?哪些数据可能被消费者获取?另一方面,数据血缘可以进行变更影响分析,即分析数据的变更对相关业务的影响。例如:当源端业务系统的数据结构发生变化时,要及时分析其对后端数据应用的影响,以便在源业务系统升级前给出合适的应对措施,保障后端应用的连续性。这种影响就如同在制造业中,上游原材料的价格波动对下游产品成本的影响。

数据血缘是元数据管理的重要手段之一。在建设数据仓库、数据集市、商业智能及大数据系统的过程中,国内许多组织对配套元数据模块进行了多年探索,研发了许多数据血缘处理技术,试图构建一套准确、完整、实用的数据血缘图,以满足业务需要。让用户在“管理数据、使用数据”的工作中,能够了解数据的来龙去脉,做到心中有“数”。然而在实践过程中,即使经过长期的持续建设,配套元数据模块的实际效果仍会大打折扣,不尽如人意。

Irina Steenbeek博士基于多年的研究和实践经验编著的《数据血缘:理论与业务实践》(Data Lineage: from a Business Perspective)一书,填补了数据血缘领域的空白。本书在辨析数据血缘及其相关概念、类型的理论基础上,详细介绍了作者提炼总结的“构建数据血缘的九步方法论”,并通过一个实际案例展示了如何使用数据血缘,最后在附录中给出了方法论中的工作模板。在翻译本书的过程中,书中的许多观点(如数据血缘项目的“企业”范围、数据血缘的层级、横向和纵向数据血缘、描述型和自动型数据血缘等)帮助译者打消了多年来对数据血缘的疑虑和困惑。希望本书能够为国内从事数据管理工作的同仁带来同样的收益,为提高数据血缘项目的实施效果和用户满意度提供助力。

最后,感谢原著作者Irina Steenbeek博士为我们带来这本好书,并授权我们将本书翻译为中文版本。同样感谢电子工业出版社能够引进本书的中文版权,感谢张爽老师担任责任编辑,她的辛勤工作是本书能够在第一时间与各位读者见面的关键。



目录

引言………………………………………………………… 001

第一篇 阐明数据血缘的概念

第1 章 数据血缘的现有观点和方法分析… ……………………… 010

1.1 数据血缘和其他类似的概念 ……………………………………… 010

1.2 数据血缘组件 ……………………………………………………… 016

1.3 数据血缘与数据生命周期的关系 ………………………………… 018

1.4 数据血缘与数据管理能力和企业架构 …………………………… 019

1.5 DAMA-DMBOK2 关于记录数据血缘的建议 ……………………… 024

1.6 本书使用的概念 …………………………………………………… 025

第2 章 记录数据血缘的业务驱动因素… ………………………… 028

2.1 满足法规需求 ……………………………………………………… 028

2.2 业务变更 …………………………………………………………… 033

2.3 数据管理举措 ……………………………………………………… 034

2.4 透明性和审计需求 ………………………………………………… 034

第3 章 元模型的概念… …………………………………………… 036

3.1 数据和信息的概念 ………………………………………………… 036

3.2 元数据语境下的数据血缘 ………………………………………… 040

3.3 元模型的定义 ……………………………………………………… 042

第4 章 数据血缘元模型… ………………………………………… 045

4.1 数据血缘元模型的结构 …………………………………………… 046

4.2 业务层 ……………………………………………………………… 047

4.2.1 业务能力… …………………………………………………… 048

4.2.2 流程… ………………………………………………………… 049

4.2.3 角色… ………………………………………………………… 051

4.2.4 业务主题域(数据)… ………………………………………… 051

4.2.5 IT 资产(工具)… ……………………………………………… 051

4.3 与数据模型相关的挑战 …………………………………………… 053

4.4 概念层 ……………………………………………………………… 055

4.4.1 传统概念模型… ……………………………………………… 055

4.4.2 语义模型… …………………………………………………… 057

4.4.3 本书使用的概念层模型… …………………………………… 058

4.5 逻辑层 ……………………………………………………………… 059

4.5.1 传统逻辑模型… ……………………………………………… 059

4.5.2 解决方案模型… ……………………………………………… 061

4.5.3 本书使用的逻辑层模型… …………………………………… 061

4.6 物理层 ……………………………………………………………… 063

4.7 业务规则 …………………………………………………………… 064

4.8 数据血缘元模型的图形化表示 …………………………………… 066

第5 章 数据血缘类型… …………………………………………… 073

5.1 元数据血缘和数据值血缘 ………………………………………… 074

5.2 不同记录层级的数据血缘 ………………………………………… 075

5.3 横向和纵向数据血缘 ……………………………………………… 076

5.4 描述型和自动型数据血缘 ………………………………………… 076

5.5 各种数据血缘之间的相关性 ……………………………………… 077

第二篇 实现数据血缘

第6 章 使用九步方法论构建数据血缘案例… …………………… 085

第7 章 明确数据血缘工作的范围… ……………………………… 091

7.1 “企业”的范围 ……………………………………………………… 092

7.2 数据血缘的“长度” ………………………………………………… 092

7.3 数据血缘的“深度” ………………………………………………… 094

7.4 关键数据集 ………………………………………………………… 094

7.5 数据血缘组件的数量 ……………………………………………… 094

第8 章 定义数据血缘相关的角色… ……………………………… 096

8.1 影响角色设计的主要因素 ………………………………………… 096

8.1.1 数据专员类型… ……………………………………………… 098

8.1.2 业务能力维度… ……………………………………………… 100

8.1.3 数据链上的角色位置… ……………………………………… 101

8.1.4 数据管理子能力… …………………………………………… 102

8.1.5 数据架构风格… ……………………………………………… 104

8.1.6 IT 解决方案的设计方法… …………………………………… 106

8.1.7 业务域定义… ………………………………………………… 106

8.1.8 “企业”的规模… ……………………………………………… 107

8.2 记录数据血缘涉及的数据管理角色 ……………………………… 107

第9 章 定义数据血缘需求… ……………………………………… 110

9.1 需求类型 …………………………………………………………… 111

9.2 元数据血缘需求 …………………………………………………… 112

9.2.1 通用需求… …………………………………………………… 112

9.2.2 横向数据血缘需求… ………………………………………… 113

9.2.3 纵向数据血缘需求… ………………………………………… 115

9.3 数据值血缘需求 …………………………………………………… 116

第10 章 确定数据血缘实施方案…………………………………… 118

10.1 影响方案选择的因素 ……………………………………………… 119

10.2 沟通数据血缘的范围和方案 ……………………………………… 126

第11 章 选择合适的数据血缘解决方案…………………………… 129

11.1 软件解决方案相关的术语 ………………………………………… 130

11.2 记录数据血缘的软件解决方案类型 ……………………………… 131

11.3 数据血缘解决方案的主要来源 …………………………………… 133

11.4 记录数据血缘的解决方案 ………………………………………… 138

11.4.1 业务流程建模解决方案… …………………………………… 139

11.4.2 企业架构解决方案… ………………………………………… 140

11.4.3 数据建模解决方案… ………………………………………… 142

11.4.4 元数据、数据治理和数据血缘解决方案… ………………… 143

11.4.5 数据质量和知识图谱解决方案… …………………………… 147

11.4.6 数据血缘解决方案的高阶功能概述… ……………………… 147

第12 章 数据血缘的记录和构建分析……………………………… 152

12.1 描述型和自动型数据血缘记录方法的主要组件 ………………… 153

12.2 数据血缘记录的主要步骤 ………………………………………… 154

12.3 使用描述型方法记录数据血缘 …………………………………… 155

12.4 使用自动型方法记录数据血缘 …………………………………… 161

12.5 描述型和自动型数据血缘组件的集成 …………………………… 165

12.6 数据值血缘管理 …………………………………………………… 165

第13 章 数据血缘业务案例的风险因素和成功因素……………… 169

13.1 风险因素 …………………………………………………………… 169

13.2 成功因素 …………………………………………………………… 170

第三篇 使用数据血缘

第14 章 关键数据…………………………………………………… 177

14.1 关键数据的使用场景 ……………………………………………… 177

14.2 关键数据(元素)的定义 ………………………………………… 178

14.3 “关键数据”概念的应用领域 …………………………………… 180

14.4 “关键数据”概念的实施 ………………………………………… 182

第15 章 数据质量…………………………………………………… 190

15.1 设定数据质量需求 ………………………………………………… 190

15.2 设计和构建数据质量检查和控制机制 …………………………… 191

第16 章 影响分析和根因分析……………………………………… 194

第17 章 业务驱动因素建模………………………………………… 199

第18 章 建立数据管理框架………………………………………… 202

18.1 数据管理的“橙色”模型 ………………………………………… 202

18.2 建立数据管理框架与记录数据血缘 ……………………………… 204

第四篇 案例研究:构建数据血缘业务案例

步骤1:确定业务驱动因素 ……………………………………………… 211

步骤2:主要利益相关者的预算支持和参与 …………………………… 212

步骤3:数据血缘工作的范围 …………………………………………… 212

步骤4:定义角色和职责 ………………………………………………… 218

步骤5:准备数据血缘需求 ……………………………………………… 218

步骤6:选择记录数据血缘的方式和方法 ……………………………… 221

步骤7:选择合适的数据血缘解决方案 ………………………………… 222

附录…………………………………………………………………… 226

模板1 数据血缘需求 …………………………………………………… 227

模板2 数据血缘工作的范围和进展 …………………………………… 229

概述 数据血缘解决方案 ………………………………………………… 231

模板3 比较数据血缘解决方案 ………………………………………… 233


产品特色