书籍作者:王文广 | ISBN:9787121432996 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:7656 |
创建日期:2023-04-06 | 发布日期:2023-04-06 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
知识图谱作为认知智能的核心技术正蓬勃发展。本书系统全面地介绍了知识图谱的核心技术,既有宏观整体的技术体系,也有关键技术和算法细节,内容包括:知识图谱模式设计的方法论——六韬法;知识图谱构建中的实体抽取和关系抽取;知识存储中的属性图模型及图数据库,重点介绍了JanusGraph分布式图数据库;知识计算中的图论基础,以及中心性、社区检测等经典图计算算法;知识推理中的逻辑推理、几何变换推理和深度学习推理,及其编程实例。最后,本书以金融、医疗和智能制造三大行业的应用场景为例,梳理了知识图谱的应用价值和应用程序形态。
本书既适合人工智能行业从业者和研究人员系统学习知识图谱,也适合一线工程师和技术人员参考使用,并可作为企业管理人员、政府人员、政策制定人员、公共政策学者的参考材料,以及高等院校计算机、金融和人工智能等相关专业师生的参考资料和培训学校的教材。
王文广,浙江大学计算机科学与技术硕士,高级工程师,知识图谱与认知智能领域知名专家。
现任达观数据副总裁,专注于自然语言处理、知识图谱、图像与语音分析、认知智能、大数据和图分析等方向的技术研究、产品开发和产业应用,为金融、智能制造、医疗与生物医药、半导体等行业提供认知智能产品和技术服务。
现为上海市人工智能技术标准化委员会委员,上海市科学技术委员会评审专家、人工智能领域标准编制专家,CCF 高级会员,CIPS语言与知识计算专委会委员,CAAI深度学习专委会委员。主导或参与过百余个人工智能科学研究和产业应用项目,曾获得国际、国内多个算法竞赛奖项,申请人工智能领域国家发明专利数十项,并参与编制人工智能领域的多个国家标准、行业标准和团体标准。
全彩印刷,图解精致:一百余张精美彩图,详细解析数十个知识图谱前沿算法。
理论完备,应用丰富:创新提出知识图谱建模方法论——六韬法及模式设计工程模型。在理论方面,本书深入每个概念、理论和算法的本质,给出推导、解析和阐述,便于读者理解概念与算法背后的逻辑;在应用方面,完整涵盖知识计算、知识推理等方面内容,并系统梳理了三大行业应用场景。
内容全面,结构有序:全面涵盖知识图谱模式设计、构建、存储和应用技术,对应大脑学习、记忆和使用知识的模式,符合在实践中应用知识图谱的通常做法。
各章独立,主题明确:各章主题相对独立,既可以作为行业参考资料,也适合作为高校教材;读者既可以系统性地学习,也可以有选择性地学习知识图谱。
近些年来,我一直在做计算机视觉、自然语言处理和知识图谱等人工智能领域相关的理论研究和产品开发工作,针对不同行业的业务场景,为企业和机构提供智能化的咨询服务和应用系统。同时,我也与颇多的高校和研究所共同合作,与不同研究方向的老师探讨前沿技术和未来的发展方向。这些工作使我有足够多的机会与不同背景、不同行业、不同工作方向和不同诉求的人进行交流,了解他们对人工智能,特别是知识图谱相关的理论、技术和产品应用等方面的看法和观点。这些不同的见解也促使我对知识图谱理论及其应用进行思考,既有面向未来的理论发展方向,也有面向实践的技术落地应用。
在思考的过程中,我萌生了写书的念头,而持续不断的交流与思考则是鞭策我完成本书的原始动力。一方面,编写技术图书能够让我系统地总结前沿技术和应用实践,梳理以往深度思考的结果;另一方面,我也希望通过此书与更多不同行业、不同研究方向的人们进行交流——有关知识图谱与认知智能的前沿研究成果、未来发展方向,以及技术应用实践等。
在有关知识图谱的交流与思考中,我常常会联想到人类自身是如何学习、记忆和使用知识的。事实上,认知智能本身就希望赋予机器像人类一样的认知能力,特别是与人类一样获得知识和应用知识的能力,而知识图谱则是当前认知智能研究的核心。知识图谱构建、存储和应用知识的机制,与人类学习、记忆和使用知识的机制有诸多共通之处。那么,什么是知识图谱呢?
事实上,不同背景的人们对知识图谱的理解大相径庭。比如,有些人认为带标签的搜索是知识图谱,这与他们见过的搜索引擎和知识库的印象相符合,并且更为高级一些;有些人则认为图数据库就是知识图谱,他们通常使用Neo4j 或 JanusGraph 等图数据库来存储数据,并使用Cypher 或 Gremlin 等检索语言实现多跳查询、路径查询等;有些人则认为自然语言处理是知识图谱,他们从语言和文本的角度来看待知识图谱,重点关注了实体抽取、关系抽取、知识的消歧与融合、知识链接、知识问答等;还有一些人认为复杂的逻辑推理才是知识图谱,他们认为知识图谱需要具备时空逻辑演算、一阶逻辑、链接预测等各类规则与算法。
这些角度各异的观点使我想起了我的学生年代。当亲戚和朋友知道我读的是计算机专业时,逢年过节,他们便把电脑的各种疑难杂症都交给我,比如怎么给电脑杀毒、word怎么用、看电影没声音了怎么办、QQ号被偷了怎么找回来、斗地主怎样才能一直赢,问题不一而足。他们可能并不完全清楚计算机专业是做什么的,但问题确实都与计算机专业相关。将这些不同的问题进行扩展、综合、归纳、总结和抽象,也能大致得到一个计算机专业的全景图。同样的,将不同行业、背景和研究方向的人对知识图谱的不同看法进行综合、归纳和抽象,大致就是知识图谱的全貌,也是人们对知识图谱在各自领域和方向的期待。第1章将深入探讨什么是知识图谱。
基于对不同维度的知识图谱的综合,结合神经生物学、认知神经科学和脑科学等学科的粗浅知识,我将知识图谱技术体系的核心总结为知识图谱的构建、存储和应用,对应的正是人们对知识的学习、记忆和使用。如果把知识图谱比作认知智能的大脑,那么构建知识图谱的过程就是人们学习知识的过程,知识图谱的存储系统对应于人类大脑中的记忆系统(海马体—前额叶),而知识图谱的应用系统则对应人们对知识的使用(比如回忆、复杂推理等)。人们可以很自然地将知识的学习和使用分离开来,这也是知识图谱致力于实现的目标。经过类比与思考,我认为类似知识图谱这样的认知方法是实现认知智能的关键。未来的知识图谱形态可能与当前有很大的不同,但应当还是这种将知识的获得和使用相分离的模式。
因此,我对当前基于深度学习的超大模型的能力局限性也有了更为清晰的认识。许多人可能认为类似GPT-3等超大规模深度学习模型的能力非常强大,同时相比于知识图谱所需要的专业知识或领域经验的支撑,其基于巨量训练样本的端到端的应用更加便捷,效果也非常好。确实,如果不考虑成本、应用场景等限制条件,这么说也不算错。但在现实中,这种方式一方面成本过高,不可接受,比如训练一个GPT-3这样的超大规模模型的花费以数千万元计,并且知识是不断更新的(比如原始版本的 GPT-3不存在新冠病毒相关的知识,需要重新加入相关语料进行训练,方可实现相关应用),随时随地重新训练的成本更是天价;另一方面,许多应用场景的样本量非常少,无法支撑超大规模深度学习模型的训练,而人类在学习知识的时候并不需要大量的样本,这也是诸多学者批评深度学习的关键原因之一。
回到知识图谱技术体系本身。试想人们是如何学习知识的,这有助于我们理解知识图谱模式。知识图谱模式是指导知识图谱构建、存储和应用的有效工具,好比人们在学习知识时的大纲——小学、中学及大学中各个不同学科的知识体系。这样的思考促使我更加深刻地认识到知识图谱模式的必要性,我花了许多时间进行实践与思考,并系统总结了与知识图谱模式有关的内容,这些内容体现在第2章中。当然,构建知识图谱所需的抽取工作,包括实体抽取(第3章)和关系抽取(第4章),都属于常规的内容。
在知识图谱的存储系统方面,目前业界所认同的当属图数据库(第5章)。不过,我倒觉得图数据库并非真正实现认知智能时所采用的存储方式,那时的存储系统更可能是深度学习与图数据库的结合,比如图向量数据库、向量图数据库、神经元数据库,或者别的什么。并且,基于存储系统的变革,未来的知识图谱构建技术和应用也会与现在有所不同。在应用层面,本书总结了目前学术研究和行业实践中最常见的方法,分为知识计算(第6章)和知识推理(第7章)进行介绍。知识推理应当是未来认知智能的重点发展方向,也是人类具备强大能力的关键。对于推理理论方面的研究,如果深入本质,则应当是人工智能与认知科学、神经科学、脑科学及哲学等学科的跨学科融合。
事实上,在人类的神经系统和大脑中,知识的学习、记忆和使用并非割裂的,而是有机的一体。同样的,知识图谱的构建、存储和应用也是相互依赖、相互影响的。对于一个具体的应用来说,必然涉及知识图谱的构建和存储,否则应用就是无源之水、无本之木。第8章从实践角度系统总结了行业应用的特点,梳理了金融,医疗、生物医药和卫生健康,以及智能制造三大行业的应用场景。针对知识图谱整体的学术研究还比较少,我在近几年的思考中,认为应当结合人类大脑的情况,将知识图谱的构建、存储和应用作为一个整体进行研究,可能这是真正实现认知智能的一条途径。
上面大致介绍了近年来我对知识图谱的一些思考。知识图谱是认知智能的基石,是现阶段赋予机器一定认知能力的核心技术,但这并不代表未来的知识图谱一定还是现在的知识图谱的样子。知识图谱的前沿理论研究成果、实践应用经验,以及我对知识图谱的思考和总结形成了本书的全部内容。希望本书能够为学术研究和产业落地提供借鉴,为知识图谱乃至认知智能领域的研究人员提供参考,为在产业实践中开发知识图谱系统的工程师提供指导。
“彼节者有间,而刀刃者无厚;以无厚入有间,恢恢乎其于游刃必有余地矣”,祝愿每一位读者都能在知识图谱领域游刃有余!
第1章 知识图谱概述 0
1.1 从李白的《静夜思》开始 2
1.2 什么是知识图谱 3
1.3 DIKW模型 6
1.4 从DIKW模型到知识图谱 8
1.5 知识图谱技术体系 9
1.5.1 知识图谱模式设计与管理 11
1.5.2 知识图谱构建技术 11
1.5.3 知识图谱存储技术 13
1.5.4 知识图谱应用技术 14
1.5.5 用户接口与界面 17
1.6 知识图谱辨析 17
1.6.1 知识图谱与自然语言处理 18
1.6.2 知识图谱与图数据库 20
1.6.3 知识图谱与语义网络 20
1.6.4 知识图谱与搜索引擎 21
1.6.5 知识图谱与深度学习 21
1.7 知识图谱是人工智能进步的阶梯 22
1.7.1 明鉴历史 23
1.7.2 预见未来 26
1.8 本章小结 27
第2章 知识图谱模式设计 30
2.1 知识图谱模式 32
2.2 模式与本体 35
2.2.1 本体 35
2.2.2 模式与本体辨析 37
2.3 本体概论 38
2.3.1 本体的构成要素 39
2.3.2 本体分类 40
2.3.3 资源描述框架RDF 41
2.3.4 网络本体语言OWL 42
2.3.5 知名本体介绍 44
2.4 模式设计的三大基本原则 52
2.4.1 赋予一类事物合适的名字 53
2.4.2 建立事物间清晰的联系 54
2.4.3 明确、正式的语义表达 55
2.5 六韬法 56
2.5.1 场景 58
2.5.2 复用 59
2.5.3 事物 63
2.5.4 联系 65
2.5.5 约束 67
2.5.6 评价 71
2.6 模式设计的工程模型 72
2.6.1 瀑布模型 72
2.6.2 螺旋模型 74
2.7 本章小结 76
第3章 实体抽取 78
3.1 实体、命名实体和实体抽取 80
3.2 基于规则的实体抽取 82
3.2.1 基于词典匹配的实体抽取方法 83
3.2.2 编写正则表达式抽取实体 84
3.2.3 基于模板的实体抽取方法 85
3.3 如何评价实体抽取的效果 88
3.4 传统机器学习方法 91
3.4.1 概率图模型 92
3.4.2 朴素贝叶斯模型 93
3.4.3 最大熵模型 95
3.4.4 隐马尔可夫模型 100
3.4.5 条件随机场 102
3.4.6 标记方法 106
3.4.7 用CRF++进行实体抽取 108
3.5 深度学习方法 114
3.5.1 基于深度学习的通用实体抽取框架 114
3.5.2 BiLSTM-CRF模型 117
3.5.3 预训练模型用于实体抽取 122
3.6 弱监督学习方法 134
3.7 本章小结 136
第4章 关系抽取 138
4.1 关系和关系抽取 140
4.2 基于规则的关系抽取方法 145
4.2.1 词法分析与依存句法分析 146
4.2.2 基于语法结构的关系抽取 149
4.3 基于深度学习的关系抽取方法 154
4.3.1 关系分类 154
4.3.2 基于BERT的关系分类 158
4.4 实体-关系联合抽取的方法 161
4.4.1 实体-关系联合抽取方法 162
4.4.2 基于片段预测的实体-关系联合抽取 165
4.5 弱监督学习与关系抽取 171
4.5.1 引导法 171
4.5.2 远程监督 174
4.5.3 弱监督学习与Snorkel 176
4.5.4 Snorkel用于关系抽取 179
4.6 本章小结 184
第5章 知识存储 186
5.1 数据与知识存储 188
5.1.1 数据存储模型 188
5.1.2 知识存储极简史 189
5.2 图数据库模型 193
5.2.1 属性图模型 193
5.2.2 完整性约束 196
5.2.3 事务、ACID与BASE 200
5.2.4 查询语言 202
5.3 JanusGraph分布式图数据库 202
5.3.1 JanusGraph的存储模型 205
5.3.2 JanusGraph的属性图模式 209
5.3.3 事务和故障恢复 220
5.3.4 图查询语言Gremlin 221
5.3.5 JanusGraph和Gremlin入门指南 222
5.4 其他图数据库介绍 235
5.4.1 Neo4j 236
5.4.2 Dgraph 239
5.4.3 NebulaGraph 243
5.4.4 图数据对比一览表 246
5.5 本章小结 248
第6章 知识计算 250
6.1 知识计算及其数学基础 252
6.1.1 知识图谱与图 252
6.1.2 图论 253
6.1.3 邻接矩阵 256
6.1.4 谱图理论 257
6.2 遍历与最短路径算法 258
6.2.1 广度优先搜索 258
6.2.2 深度优先搜索 260
6.2.3 Dijkstra单源最短路径 262
6.2.4 最短路径快速算法 265
6.2.5 Floyd算法 268
6.3 中心性 270
6.3.1 度中心性 270
6.3.2 亲密中心性 272
6.3.3 中介中心性 274
6.3.4 特征向量中心性 279
6.3.5 PageRank 281
6.4 社区检测 284
6.4.1 模块度 286
6.4.2 GN社区检测算法 290
6.4.3 Louvain社区检测算法 291
6.5 知识计算工具与系统 297
6.5.1 图数据库计算框架 297
6.5.2 分布式图计算引擎 298
6.5.3 图分析工具包 298
6.6 本章小结 299
第7章 知识推理 300
7.1 知识的表示与推理 302
7.1.1 因果推理 303
7.1.2 演绎推理 303
7.1.3 归纳推理 304
7.1.4 概率推理 305
7.1.5 知识图谱的推理技术 306
7.2 基于规则和逻辑的知识推理方法 308
7.2.1 基于规则的方法 308
7.2.2 基于逻辑的方法 311
7.2.3 定性时空推理 313
7.3 几何空间嵌入的知识推理方法 316
7.3.1 欧几里得空间的平移变换方法 317
7.3.2 复数向量空间的RotatE模型 330
7.3.3 双曲空间嵌入的知识推理方法 334
7.4 知识推理的深度学习方法 353
7.4.1 卷积神经网络的知识推理方法 353
7.4.2 图神经网络模型 358
7.5 本章小结 368
第8章 知识图谱行业应用 370
8.1 行业知识图谱 372
8.1.1 行业知识图谱的特点 372
8.1.2 行业知识图谱的应用价值 376
8.2 知识图谱行业应用范式 382
8.3 共通的应用程序 385
8.3.1 数据与知识中台 385
8.3.2 可视化与交互式分析 388
8.3.3 智能问答 391
8.3.4 认知推荐 396
8.3.5 辅助决策模型 400
8.4 金融 400
8.4.1 反洗钱和反恐怖融资 400
8.4.2 个人信用评估与风险控制 402
8.4.3 企业风险识别、控制与管理 404
8.4.4 系统性金融风险 406
8.4.5 审计 407
8.4.6 证券分析与投资研究 408
8.4.7 保险 410
8.5 医疗、生物医药和卫生健康 411
8.5.1 基因知识图谱 411
8.5.2 生物医药 412
8.5.3 智慧医疗 414
8.5.4 公共卫生 416
8.5.5 中医药知识图谱 418
8.6 智能制造 418
8.6.1 设计研发 419
8.6.2 质量与可靠性工程 420
8.6.3 设备的管理、维护与维修 422
8.6.4 BOM物料清单管理 425
8.6.5 供应链管理 427
8.6.6 售后服务 428
8.7 本章小结 429
宝贝收到了,质量很不错,包装精致,材质优秀,比想象中好,送礼自用非常合适,下次继续购买
2022-06-17 08:12:11
首先,这书的印刷质量真好,看起来赏心悦目; 其次,初步翻了翻,对知识图谱技术的讲解非常全面和体系化 最后,详细看了知识推理一章,非常系统地介绍了知识推理,将高深的知识点写的易懂,可谓深入浅出,值得推荐
2022-06-15 20:26:02
其他先不说,彩色印刷很不错。看目录内容比较全面,不过里面还是有一些感觉像是凑篇幅的内容,很多简单的算法是计算机科学中通用的,完全没必要再列出来,反倒是多讲讲与知识图谱相关的特有算法和应用更合适一些,个人一家之言。
2022-06-13 18:09:25
不是书的内容,是快递包装太差,仅使用最薄的包装塑料袋,没有任何保护,以至收到的书本受到不明液体污染。
2022-06-15 21:00:43