猜你喜欢
图数据库原理、架构与应用

图数据库原理、架构与应用

书籍作者:嬴图团队 ISBN:9787111708100
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:3774
创建日期:2023-04-17 发布日期:2023-04-17
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

这是一本能帮助读者快速掌握图数据库的原理、架构、算法、扩展、规划、测评、优化以及实战应用的著作,书中的理论和实践均来自国内领先的图数据库企业Ultipa的科研成果和实践经验,由Ultipa的创始人兼CTO孙宇熙领衔撰写。


该书内容全面、体系完整、循序渐进、深入浅出、图文并茂,兼具理论性、实战性、趣味性。用通俗的语言将抽象的图数据库技术具体化、形象化,将带领读者经历一次非凡的“图数据之旅”。


通过本书,你将掌握以下内容:

·图数据库、图计算的概念与区别;

·图计算、图存储、图查询语言的原理;

·高性能图存储架构、计算架构;

·图数据库查询与分析框架的设计;

·度计算、中心性计算、相似度计算、连通性计算等图算法;

·可扩展的图数据库设计;

·高可用分布式设计;

·图数据库在决策智能、反欺诈、反洗钱、智能推荐、流动性风险管理等多个领域的实战经验;

·图系统的规划、评测与优化。


作者简介

嬴图(Ultipa)团队
一支致力于构建世界上最快、最直观、最易用的下一代实时图数据库的国际化的技术研发与推广团队。自研的核心产品包括高性能图计算与实时图数据库软件,已构建了一整套针对数据资产管理、数据生命周期管理、数据治理指标管理的智能化产品矩阵。
致力于用图数据库(图中台、图计算引擎)、图增强AI技术、BI技术等为金融、大健康、医疗等行业深度赋能,业务主要集中在数据治理、数字化转型、流动性管理、资产负债管理、全面风险管理等领域。
团队目前已获得高密度并行图计算、超级节点处理、高性能查询语言及半结构化图数据处理、海量数据导入、装置、设备及存储介质、数据库深度路径搜索、动态图剪枝过滤等30多项技术成果和专利,100%自研并拥有全部底层架构,研发成果已成功服务于多家大型央企、国有企业及世界500强企业。
团队成员孙宇熙、刘思燕、张建松等毕业于哈佛大学商学院、清华大学等世界知名学府,来自硅谷和全球100强企业,拥有丰富的海内外创业与技术工程经验。


孙宇熙(Ricky Sun)
业界知名的高性能计算与存储系统专家、大数据专家、数据库专家及学者,Ultipa创始人兼CTO。曾任EMC(易安信)亚太研发集团CTO和中国研究院院长、哈尔滨工业大学客座教授、中国电子学会云计算专家委员会委员;持有50多个美国及中国专利;文物鉴赏家、收藏家,哈佛大学美术馆亚洲艺术鉴赏委员会理事;技术作家,著有《云计算与大数据》《软件定义数据中心》《大数据分析》《程序员生存手册》(The 99 Points of Launching High-Tech Business)等多部中英文科技畅销书。


编辑推荐
适读人群 :1.传统的数据库领域从业者:图数据库是未来的发展方向,传统的数据库从业者必须为未来做准备。2.图数据库领域的从业者

作者背景资深:作者是在世界范围内有影响力的资深高性能计算与存储系统专家、大数据专家、数据库专家,同时是国际高性能图数据库技术应用实践的先行者。


内容系统全面:一本书讲透图数据库的原理、架构、算法、扩展、规划、测评、优化以及实战应用。


实战案例丰富:围绕实时决策、最终受益人识别、反欺诈、反洗钱、智能推荐、资债管理、流动性风险管理、交叉风险识别等金融场景给出了大量案例。


前言

为什么要写这本书
过去的10年是移动互联网飞速发展的10年。仅仅10年时间,我们大多数人的生活已经彻底互联网化,我们的出行、餐饮、购物、社交、协同办公几乎全部可以通过移动互联网完成。过去的10年也是大数据与云计算技术蓬勃发展的10年,大数据的4V与公有云、私有云、SaaS的概念如此深入人心,以至于所有行业都无可避免地或拥抱这些新的技术理念或被这些新的技术理念所洗礼。如果说移动互联网和互联网关注更多的是如何在业务应用层创造并满足用户的需求,云计算和大数据就是在基础架构层与数据处理科技上通过技术革新来支撑上层的互联网化的业务需求。说到过去10年的技术革新,AI(人工智能)是我们无法忽视的,它已经远远超越了概念的范畴。我们的生活与工作在互联网化的同时,也被逐步AI化。例如,信息的获取、出行数据的使用、购物,任何通过互联设备(手机、电脑、智能终端 )完成的工作都已经或即将经历AI化。
我们用技术栈的视角来层次化地分析问题,云计算所代表的是最底层的基础架构;以大数据为代表的数据处理技术(DT)处于中间层,其中最主要的就是数据库(这也是为什么从20世纪90年代开始,数据库被称作中间件,近年提出的中台概念在本质上正是30年前的中间件,这是后话),本书的主题—图数据库也处于这个承上启下的中间层;最上层解决的则是移动互联网应用问题。
AI技术贯穿以上3层技术栈,因此,了解AI有助于了解一门正在从根本上改变科技、改变行业、改变我们所处世界的重要技术—图数据库技术。在这里我们先前置一个概念:人工智能发展的终极目标是实现强人工智能,强人工智能指的是让机器和算法像人类一样具备图的思维方式。图思维方式的本质是用高维图的方式100%映射和还原世界—实际上是一种图计算与分析的方式(或者说是依托图数据库的计算模式)。如果人脑是终极的数据库,图数据库就是迈进并实现它的最佳路径。
为什么图数据库是终极数据库,而业界常见的关系型数据库(分布式数据库)、NoSQL类数据库、数据仓库、数据湖泊、湖仓一体数据库不是呢?要想弄清楚这个问题,就需要了解如下两个问题:
烟囱系统(siloed system)
浅层计算(shallow computing)
过去的40年间,随着关系型数据库的发展,几乎每一家企业,特别是大中型企业中形成了一个又一个像烟囱一样的系统,互相之间存在着“部门墙”“系统壁垒”“业务藩篱”,不同的业务部门与系统之间的通信与数据共享非常困难,而任何一个新的业务需求或需求的变动即意味着关系型数据库层面上的一整套复杂开发流程的变动,甚至是又一套新的系统的出现。随着数据量的增大,越来越多的T + 1甚至T + N类型的批处理操作开始出现。随着过去10年间大数据、数据仓库、数据湖等系统陆续出现,虽然其初衷是把全量的数据集中进行处理,但是和关系型数据库一样,这些系统天然地只具备浅层计算的能力,让数据一入湖仓即沉底,很难及时对深度下钻、关联、归因分析等不断变化的需求做出反应。而图数据库与实时图计算技术可以通过对多源、多维的数据进行深度下钻、关联、归因分析,在提供深层计算能力的同时,打破了系统间、数据间存在藩篱的现状。
中国人工智能奠基人之一、中国科学院院士、清华大学人工智能研究院院长张钹教授提出:以深度学习为代表的第二代人工智能技术在世界范围内已经触及天花板,后续突破可能的途径就是跨入第三代人工智能,包括知识图谱、图计算(图数据库)等新的体系架构的发展。这番话背后的逻辑是清晰的:人类庞杂的知识体系的逻辑化、结构化与可视化表达最好的途径就是知识图谱(关系图谱),而对知识图谱进行逻辑推理、推导、演算、查询,尤其是进行深度、高效、智能化、可解释的运算与查询最可行的工具就是实时、深度的图计算引擎。 而当计算引擎与存储引擎、知识图谱有机统一的时候就形成了图数据库。可以进行深度、实时、高并发、白盒化可解释的图计算与分析的图数据库是推动AI向前发展的核心武器。图数据库所具备的区别于传统数据库或AI系统的能力,称为“图增强智能”(graph augmented intelligence)。图增强智能不是黑盒化的暴力计算,或缺乏可解释性的深度学习与神经网络,它通过释放机器的算力,让算法得以高效执行,并通过知识图谱以白盒化可解释的方式忠实、高效地完成工作。
在数据库与人工智能的发展历程中,笔者结合自己过去二十几年间作为一名硅谷IT老兵和中关村科技创业者的亲身经历,预见到图数据库与(实时)图计算技术不仅会占有一席之地,更会成为一种主流的甚至终极的数据库,并赋能新一代的人工智能蓬勃发展。本书是笔者对过去几年间沉浸图数据库研究的感悟与阶段性总结的梳理,希望分享给更多志同道合的朋友。
读者对象
本书的读者对象包括:
图数据库、图计算项目与产品的开发者、使用者、决策者;
数据库技术爱好者,任何对图技术感兴趣的人;
任何没有限制性思维、秉持终身学习信念的人。
勘误和支持
由于笔者水平有限,书中难免会出现一些错误或者表述不准确的地方,恳请读者耐心批评指正。期待能够得到朋友们的真挚反馈。
致谢
首先要感谢我亲爱的家人和同事们,在本书的创作过程中,笔者得以在相当长的一段时间内进入“闭关”的状态,我的家人分担了本属于我的家务劳动,我的同事们完成了原本分配给我的任务。
此外,我得到了很多亲友与同事的建议与纠错,在此特别对张磊、孙婉怡、张建松、封军雷、王昊、刘思燕、林晓芳、章矾之、陈亮宇、薛鸿城、苏昌钦、李家文、贺瑞君表示感谢。还有很多其他朋友也提供了帮助,恕笔者不能一一列出,再次一并感谢。
感谢我的天才的同事们、客户们、合作伙伴们,没有你们的鞭策、鼓励、真知灼见、慧眼和超越平凡的认知,我们不会创造出颠覆性的、令人振奋的图数据库产品。
感谢机械工业出版社华章分社的编辑杨福川老师和他的同事们始终支持我写作,你们的鼓励和帮助引导我顺利完成了全部书稿。
谨以此书献给我最亲爱的家人,以及众多热爱新技术,秉持终身学习信念和具有成长性思维(图思维)的朋友们!
记住下面这张图,让我们一起进入图(数据库)的世界。

图数据库

目录

前言

第1章 图计算与图数据库的历史1

1.1 到底什么是图1

1.1.1 被遗忘的艺术:图思维方式Ⅰ1

1.1.2 被遗忘的艺术:图思维方式Ⅱ6

1.1.3 图技术发展简史11

1.2 大数据的演进和数据库的进阶16

1.2.1 从数据到大数据、快数据,再到深数据16

1.2.2 关系型数据库与图数据库19

1.3 万物互联时代的图计算20

1.3.1 前所未有的能力21

1.3.2 图计算与图数据库的差异26

第2章 图数据库基础与原理29

2.1 图计算29

2.1.1 图计算的基础概念30

2.1.2 图计算的适用场景46

2.2 图存储50

2.2.1 图存储的基础概念50

2.2.2 图存储数据结构与构图58

2.3 图查询语言的进化65

2.3.1 数据库查询语言的基础概念65

2.3.2 图查询语言71

第3章 图数据库架构设计83

3.1 高性能图存储架构83

3.2 高性能图计算架构94

3.3 图数据库查询与分析框架设计110

3.3.1 图数据库查询语言设计思路110

3.3.2 图谱可视化123

第4章 图算法129

4.1 度计算130

4.2 中心性计算134

4.3 相似度计算138

4.4 连通性计算142

4.5 排序计算147

4.6 传播计算151

4.7 社区计算155

4.8 图嵌入计算166

4.9 图算法与可解释性171

第5章 可扩展的图179

5.1 可扩展的图数据库设计179

5.1.1 垂直扩展180

5.1.2 水平扩展187

5.2 高可用分布式设计196

5.2.1 主备高可用196

5.2.2 分布式共识系统199

5.2.3 水平分布式系统206

第6章 图赋能的世界218

6.1 实时商务决策与智能219

6.2 最终受益人223

6.3 欺诈识别226

6.4 反洗钱与智能推荐228

6.5 资债管理、流动性风险管理240

6.6 交叉风险识别与计量248

6.6.1 图计算在交叉性金融风险管理领域的创新248

6.6.2 图计算技术在金融领域的广阔前景 252

第7章 规划、评测和优化图系统254

7.1 规划图系统254

7.1.1 数据与建模256

7.1.2 容量规划260

7.2 评测图系统263

7.2.1 评测环境264

7.2.2 评测内容268

7.2.3 正确性验证279

7.3 优化图系统287

产品特色