书籍作者:陈凯 | ISBN:9787121426414 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:4771 |
创建日期:2023-01-03 | 发布日期:2023-01-03 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
在大数据和人工智能时代,如何在享受新技术带来的便利性的同时保护自己的隐私,是一个重要的问题。《隐私计算》系统讲解了隐私计算的基础技术和实践案例,全书共有11 章,按层次划分为三部分。第一部分全面系统地阐述隐私加密计算技术,包括秘密共享、同态加密、不经意传输和混淆电路。第二部分介绍隐私保护计算技术,包括差分隐私、可信执行环境和联邦学习。第三部分介绍基于隐私计算技术构建的隐私计算平台和实践案例,隐私计算平台主要包括面向联邦学习的FATE 平台和加密数据库的CryptDB 系统等五个平台,以及隐私计算平台的效率问题和常见的加速策略;实践案例部分主要介绍包括金融营销与风控、广告计费、广告推荐、数据查询、医疗、语音识别及政务等领域的应用案例。此外,《隐私计算》还展望了隐私计算未来的研究和落地方向。在附录中介绍了当前新的中国数据保护法律概况。
《隐私计算》可供计算机科学、隐私保护、大数据和人工智能相关专业的学生,以及对隐私计算有兴趣的相关从业者阅读,也适合从事隐私保护相关研究的研究人员、法律法规制定者和政府监管部门阅读。
陈 凯
香港科技大学计算机科学与工程系副教授、博导、研究生部主任,智能网络与系统实验室(iSING Lab)主任,香港科大-微信人工智能技术联合实验室(WHAT Lab)主任,香港人工智能与机器人学会(HKSAIR)执行副理事长,香港主题研究计划(Theme-based Reseach Scheme)首席科学家。主要研究方向包括数据中心网络、云计算、大数据和人工智能底层系统和基础架构。担任ACM SIGCOMM、USENIX NSDI、IEEE INFOCOM、IEEE/ACM Transactions on Networking、Big Data、Cloud Computing等国际会议和期刊的程序委员会委员和编委,亚太网络研讨会(APNet)的发起人和执行委员会主席。陈凯本科和硕士毕业于中国科学技术大学,获得中国科学院院长奖,博士毕业于美国西北大学。
杨 强
加拿大工程院及加拿大皇家科学院两院院士,微众银行首席人工智能官,香港科技大学讲席教授,AAAI 2021大会主席,中国人工智能学会(CAAI)荣誉副理事长,香港人工智能与机器人学会(HKSAIR)理事长以及智能投研技术联盟(ITL)主席。他是AAAI/ACM/CAAI/IEEE/IAPR/AAAS Fellow,也是IEEE Transactions on Big Data和ACM Transactions on Intelligent Systems and Technology创始主编,以及多个国际人工智能和数据挖掘领域杂志编委。曾获2019年度“吴文俊人工智能科学技术奖”杰出贡献奖,2017年ACM SIGKDD杰出服务奖。杨强毕业于北京大学,于1989年在马里兰大学获得计算机博士学位,之后在加拿大滑铁卢大学和Simon Fraser大学任教,他的研究领域包括人工智能、数据挖掘和机器学习等。他曾任华为诺ya方舟实验室主任,第四范式公司联合创始人,香港科技大学计算机与工程系系主任以及国际人工智能联合会(IJCAI)理事会主席。领衔全球迁移学习和联邦学习研究及应用,最近的著作有《迁移学习》、《联邦学习》和《联邦学习实战》等。
内容系统完整全面。呈现相对完整的隐私计算知识体系,系统阐述隐私计算关键技术,包括4大发展阶段,5大应用平台,9大落地实践案例。
理论应用价值兼备。系统讲解隐私计算的基础理论和关键技术,包括秘密共享、同态加密、不经意传输、混淆电路、差分隐私、可信执行环境和联邦学习。并介绍了基于隐私计算技术构建的五个前沿隐私计算平台,以及平台的效率问题和常见加速策略。
产业实践案例丰富。本书结合金融营销与风控、广告计费、广告推荐、数据查询、医疗、语音识别及政务等领域的产业应用案例,详细分析了相关技术的适用范围和落地方法,方便读者理解技术的优点和局限性,对实践者具有很高的参考价值。
全新法律法规解读。本书邀请观韬中茂律师事务所的资深律师,对新的中国数据保护法律进行了详细解读,方便读者了解中国新的数据保护制度。
顶级专家学者力荐。中国科学院院士梅宏倾情作序,中国工程院院士高文,中国工程院外籍院士、加拿大皇家科学院院士罗智泉,创新工场董事长兼CEO李开复联袂推荐。
全彩印刷设计精良。本书采用全彩印刷,精致排版设计,提供上乘阅读体验。
推荐序
杨强教授嘱我为其和陈凯教授的新作《隐私计算》作序,深感荣幸,欣然允之。杨教授是大数据和人工智能领域的国际知名学者,特别是近年来作为“联邦学习”理念的倡导者和先行者之一,做出了很多杰出的工作。我曾拜读过其著作《联邦学习》并撰写了一段推荐语。著作中,杨教授既呈现了深厚的学术造诣,又展示了高超的文字驾驭能力,深入浅出,分享了他及其团队在产业界一线实践的宝贵经验,使著作兼具很强的可读性、知识性和实用性,给我留下了深刻的印象。
我自己主要从事软件技术领域的研究工作,在安全和隐私保护领域实属外行。就大数据而言,我和团队主要致力于面向大数据的软件技术研究,专注于系统软件和工具层面。近几年,我自己也比较关注数据治理体系建设方面的工作,有一些心得。拜读《隐私计算》,我更多的是站在学习者的视角,收获颇丰。这里,我仅从大数据治理的维度,分享若干认识和思考。
当今时代,人类数字文明正在拉开帷幕,数字化转型已成为时代大势。在我国,建设数字中国、发展数字经济、实施国家大数据战略已成为国家的战略选择。“大数据”正是这个时代呈现的独特现象!数据作为基础性战略资源的地位日益凸显,已形成充分共识;数据作为核心生产要素的角色基本确立,正引发各界关注和研究。我理解,在强化数据安全和保护个人隐私的前提下,追求数据价值的最大化释放是这个时代应有之义。数据价值的充分释放源于多源(元)数据的碰撞融合,基于数据的开放、共享和流通,赖于健康的大数据产业生态。然而,要发挥大数据的作用、做大做强大数据产业、更好地实施国家大数据战略,大数据治理体系的建设就成为重要保障。针对大数据治理的研究和实践现状,我提出了一个治理体系的“434 模型”,即在国家、行业、组织等三个层次,针对数据资产地位确立、管理体制机制、数据共享开放、安全与隐私保护等四方面内容,基于制度法规、标准规范、应用实践、支撑技术等四类方法手段,构建大数据治理体系。就我的认识,《隐私计算》一书正是针对其中的一项非常重要内容的技术手段的探索!
隐私计算是近年来发展迅速,同时关注度和活跃度很高的一个研究领域。隐私计算以密码学为理论基础,融合统计学、人工智能、大数据、计算机系统,以及法律、伦理学等多个学科,形成了一系列理论和技术。隐私计算的目的是有效挖掘数据中的价值,同时不侵害数据本身的安全和隐私,实现“数据可用不可见”,从而支持数据的可信共享和流通。从这个意义上看,隐私计算将会是大数据治理体系中非常有前景的核心支撑技术之一。
本书呈献给读者的是兼顾广度和深度的关于隐私计算的系统性介绍:从广度上看,涵盖了隐私计算的基础理论和关键技术,如秘密共享、同态加密、不经意传输、混淆电路、差分隐私、联邦学习和可信执行环境等,介绍了多个知名的隐私计算平台,并辅以大量产业界的应用案例;从深度上看,本书对现有隐私计算技术及其在应用中存在的问题进行了深入分析,并分享了解决这些问题的思路。特别地,本书从不同应用案例的特点出发,分析了相关技术的适用范围和场景,方便读者理解这些技术各自的优点和局限性,对实践者而言也具有很高的参考价值。我非常高兴地看到,这本书兼具理论价值和实用价值,是隐私计算领域的一部优秀著作。可喜可贺!
本书可作为计算机科学、大数据和人工智能等相关专业的学生,以及对隐私计算感兴趣的相关从业人员的入门参考书,也适合相关方向的研究人员,以及在工业界进行程序开发且有隐私保护需求的工程人员阅读。
相信本书能为推动我国大数据和人工智能领域人才培养、产业发展和生态建设做出积极贡献。
是为序。
梅宏
辛丑年孟冬于北京
前言
身处“数据时代”,如何有效挖掘数据中蕴藏的智能而不侵害数据本身的隐私和安全,是我们推动社会进步和生产力发展需要共同思考和实践的一个课题。隐私计算的本质就是在实现“数据可用不可见”这一目标的过程中产生的一系列理论和技术。
从二十世纪七八十年代诞生的基于隐藏部分信息来保护数据隐私的安全多方计算理论,到近年来围绕“数据不动模型动”理念发明的联邦学习技术,隐私计算的发展已经历40 余年。在这个进程中,产生了大量的理论、算法、协议和技术,例如秘密共享、混淆电路、不经意传输、差分隐私、同态加密和可信执行环境等,也融合了多个学科知识,包括密码学、统计学、人工智能和计算机体系结构等。同时,隐私保护技术近年来也被逐步应用到越来越多的任务(如数据分析、数据库、机器学习)和场景(如金融、医疗、政务)之中,对这些行业的发展起到了一定的积极推动作用。
然而,我们观察到,目前尚未有一本相对全面且系统地介绍隐私计算理论、技术和应用的图书。相关的研究成果和实践经验大多分散在学术论文、会议报告、技术博客和白皮书之中,还未构成一个相对完整的知识体系。这在一定程度上影响了隐私计算的学科发展和应用普及。我们在与许多老师、同学及相关行业从业者的交流中也有所体会:
61 在一次由中国计算机学会举办的隐私保护机器学习学科前沿讲习班上,我们分享了一个题为《隐私计算理论和效率》的讲座。班上学员大多是来自国内各高校的老师和同学,他们对这个主题非常感兴趣。三个小时的课堂讨论很激烈,课后也有不少学员问了许多问题。从这些提问中我们可以观察到,尽管大家对隐私计算很有热情,但理解还处在相对初级、碎片化的阶段,对隐私计算涵盖的范围、分类相对模糊,对隐私计算各个具体技术的性质、性能、优缺点,以及在实际平台和应用中的使用情况也相对陌生。
61 在推进产学研落地的过程中,我们遇到不少对隐私计算既热情又陌生的群体或机构。香港科学园就有这样的一个例子,他们拥有十几家机构的数据,希望赋能园区内几百家科创企业,但又有泄露数据隐私的担忧。了解到联邦学习能够在保护数据隐私的情况下推进人工智能应用,他们就找到了我,问了许多问题,例如:联邦学习的原理是什么,为什么能保证数据不被泄露,若搭建一个联邦学习平台需要什么样的设备,能支持多少客户,需要多少预算,项目周期大概多久,等等。从聊天中可见,他们对隐私计算很好奇,但充满疑惑。
在国外,有一本叫A Pragmatic Introduction to Secure Multi-Party Computation的书,于今年夏天刚刚被翻译成《实用安全多方计算》引入国内,但该书的内容专注于安全多方计算理论,缺少对联邦学习技术和可信硬件计算技术的阐述和分析,所以还未能构成完整的隐私计算知识体系。此外,该书也没有包含近年来出现的前沿隐私计算平台、隐私保护落地实践案例等,对“产学研”落地的指导意义相对有限。
因此,为构建一个相对完整的隐私计算知识体系,并对其科研落地产生一定的指引,我们编写了这本书。从决定要写到成稿,只用了短短六个多月的时间。香港科技大学智能网络与系统实验室(iSING Lab)的很多同学都参与到了这个过程中,我们阅读整理了大量的研究文献和参考资料,其中也包括一些我们自己发表的相关学术论文,努力用较为通俗易懂的语言讲解隐私计算的基础知识和技术、隐私计算平台、隐私计算落地案例。最后,我们展望了隐私计算的未来,也特别邀请了观韬中茂律师事务所王渝伟和陈刚两位律师帮助解读当前最新的中国数据安全法规,希望对读者有所启发。
如上所述,我们希望通过这部《隐私计算》为学术界和产业界构建一个相对完整的隐私计算知识体系。同时,我们也深知,本书的内容可能并不能包含隐私计算的每个方面,或许与一部“隐私计算全书”还有一定的距离;尽管如此,我们仍希望在这条路上迈出坚实的第一步。
本书主要内容
本书内容大致分为层层递进的三个部分:
第一部分:隐私加密计算技术(第2~5 章)。该部分旨在用通俗的语言介绍各种与隐私加密计算和隐私保护计算相关的各种密码学技术,包括秘密共享、同态加密、不经意传输和混淆电路。这些密码学技术是实现隐私计算的基石。每个章节包含相应的技术基础知识和简单的应用举例。
第二部分:隐私保护计算技术(第6~8 章)。该部分旨在介绍除密码学技术之外的隐私保护计算技术,这部分技术脱离出隐私加密计算的密码学范畴,在更加广泛的技术和应用场景下研究计算过程中对数据隐私的保护、管理与度量的可能性,包括差分隐私、可信执行环境和联邦学习。
第三部分:隐私计算平台和实践案例(第9~10 章)。介绍基于以上隐私计算技术构建的隐私计算平台,主要包括面向联邦学习的FATE 平台和加密数据库的CryptDB 系统等五个平台。同时,也介绍了隐私计算平台的效率问题和常见的加速策略。在实践案例部分,主要介绍包括金融营销与风控、广告计费、广告推荐、数据查询、医疗、语音识别及政务等领域的应用案例。
此外,第11 章展望了隐私计算未来的研究和落地方向。最后,附录中提供了当前最新的中国数据保护法律概况。
致谢
为协助完成本书的撰写,一群非常优秀的博士研究生、学者和工程师付出了大量的时间和精力。在此,我们首先感谢以下参与各章节编写的同学:
61 第2 章:杨柳,柴迪。
61 第3 章:田晗,金逸伦。
61 第4 章、第5 章:任正行,金逸伦。
61 第6 章:金逸伦,田晗。
61 第7 章:张骏雪,任正行。
61 第8 章:金逸伦,任正行。
61 第9 章:程孝典,胡水海。
61 第10 章:柴迪,杨柳,任正行,田晗,郭昆,陈天健。
此外,在编写过程中我们参阅了大量的著作和相关文献,在此对这些著作和文献的作者一并表示感谢。由于水平有限,书中不足及错误之处在所难免,敬请专家和读者给予批评指正。
最后,我们要感谢家人对我们的理解与支持!
陈凯,杨强
2021 年12 月,中国香港
推荐序
前言
数学符号
第1 章隐私计算介绍/1
1.1 隐私计算的定义与背景/2
1.1.1 隐私计算的定义与分类/2
1.1.2 隐私计算的发展历程/6
1.2 隐私计算的技术实现/8
1.3 隐私计算平台与案例/10
1.4 隐私计算的挑战/10
第2 章秘密共享/13
2.1 问题模型及定义/15
2.1.1 秘密共享问题模型/15
2.1.2 秘密共享定义/16
2.2 原理与实现/19
2.2.1 秘密共享方案的发展/19
2.2.2 经典秘密共享方案/21
2.2.3 秘密共享方案的同态特性/26
2.3 优缺点分析/28
2.4 应用场景/28
2.4.1 秘密共享在横向联邦学习中的应用/28
2.4.2 秘密共享在纵向联邦学习中的应用/31
2.4.3 秘密共享在安全多方计算中的应用/32
第3 章同态加密/35
3.1 问题模型及定义/36
3.2 原理与实现/39
3.2.1 群/40
3.2.2 环/41
3.2.3 格/41
3.2.4 部分同态加密/42
3.2.5 近似同态加密/44
3.2.6 全同态加密/45
3.2.7 层级同态加密/48
3.3 优缺点分析/50
3.3.1 同态加密的优点/50
3.3.2 同态加密的缺点/51
3.4 应用场景/52
3.4.1 密文检索/52
3.4.2 云机器学习服务/54
第4 章不经意传输/57
4.1 问题模型及定义/58
4.2 不经意传输的实现/58
4.2.1 基于公钥加密的不经意传输/58
4.2.2 不经意传输的扩展与优化/59
4.3 应用场景/61
第5 章混淆电路/63
5.1 问题模型及定义/64
5.2 混淆电路的实现与优化/65
5.2.1 使用不经意传输的简单实现/66
5.2.2 混淆电路计算与门电路/67
5.2.3 任意逻辑门和电路/67
5.2.4 主流的优化方案和代价分析/69
5.3 优缺点分析/71
5.4 应用场景/72
5.4.1 与其他安全多方计算协议混合使用/72
5.4.2 混淆电路实现一般的安全多方计算/73
第6 章差分隐私/75
6.1 问题模型及定义/7
6.1.1 随机回答的问题模型及定义/77
6.1.2 差分隐私的问题模型及定义/78
6.2 实现方法及性质/83
6.2.1 离散值域:随机回答/83
6.2.2 连续值域:拉普拉斯噪声法和高斯噪声法/83
6.2.3 差分隐私的性质/86
6.3 优缺点分析/88
6.4 应用场景/90
6.4.1 传统数据分析/90
6.4.2 机器学习/92
第7 章可信执行环境/97
7.1 可信执行环境简介/98
7.2 原理与实现/99
7.2.1 ARM TrustZone/99
7.2.2 Intel SGX/101
7.2.3 AMD SEV/102
7.2.4 AEGIS/104
7.2.5 TPM/104
7.3 优缺点分析/104
7.4 应用场景/106
7.4.1 移动终端/106
7.4.2 云计算/108
7.4.3 区块链/110
第8 章联邦学习/111
8.1 联邦学习的背景、定义与分类/112
8.1.1 联邦学习的背景/112
8.1.2 联邦学习的定义/113
8.1.3 联邦学习的分类/113
8.1.4 联邦学习的安全性/115
8.2 横向联邦学习/16
8.2.1 横向联邦学习架构、训练与推理/116
8.2.2 联邦平均算法/117
8.2.3 横向联邦学习的隐私安全性/118
8.3 纵向联邦学习/122
8.3.1 纵向联邦学习架构、训练与推理/122
8.3.2 纵向联邦线性回归/123
8.3.3 纵向联邦学习的隐私安全性/125
8.4 联邦迁移学习/125
8.4.1 迁移学习简介/126
8.4.2 联邦迁移学习算法训练和推理/126
8.4.3 联邦迁移学习的安全性/129
8.5 联邦学习的应用场景/129
8.5.1 自然语言处理/130
8.5.2 医疗/130
8.5.3 金融/131
8.6 联邦学习的未来展望/131
8.6.1 隐私与效率、性能的权衡/132
8.6.2 去中心化的联邦学习/132
第9 章隐私计算平台/135
9.1 隐私计算平台概述/136
9.2 FATE 安全计算平台/136
9.2.1 平台概述/136
9.2.2 FATE 中的隐私计算技术/138
9.2.3 平台工作流程/139
9.2.4 应用场景/141
9.3 CryptDB 加密数据库系统/142
9.3.1 系统概述/142
9.3.2 隐私计算技术在CryptDB 中的实现:基于SQL 感知的加密策略/144
9.3.3 基于密文的查询方法/145
9.3.4 应用场景/147
9.4 MesaTEE 安全计算平台Teaclave/148
9.4.1 飞桨深度学习平台与安全计算/148
9.4.2 PaddleFL 联邦学习框架/149
9.4.3 MesaTEE 平台概述/150
9.4.4 MesaTEE 底层可信执行环境/150
9.4.5 FaaS 服务/152
9.4.6 执行器MesaPy/153
9.4.7 应用场景——MesaTEE 与飞桨/154
9.5 Conclave 查询系统/155
9.5.1 系统概述/155
9.5.2 Conclave 隐私安全技术介绍/156
9.5.3 Conclave 查询编译/158
9.5.4 应用场景/161
9.6 PrivPy 隐私计算平台/161
9.6.1 PrivPy 平台概述/161
9.6.2 平台后端安全计算介绍/163
9.6.3 用户编程接口/165
9.6.4 应用场景/166
9.7 隐私计算平台效率问题和加速策略/166
9.7.1 隐私计算技术中的效率问题/167
9.7.2 异构加速隐私计算/168
9.7.3 网络优化解决数据传输问题/171
第10 章隐私计算案例解析/175
10.1 隐私计算在金融营销与风控中的应用/176
10.2 隐私计算在广告计费中的应用/182
10.3 隐私计算在广告推荐中的应用/185
10.4 隐私计算在数据查询中的应用/187
10.5 隐私计算在医疗领域的应用:基因研究/189
10.6 隐私计算在医疗领域的应用:医药研究/193
10.7 隐私计算在语音识别领域的应用/194
10.8 隐私计算在政务部门的应用/196
10.9 隐私计算在用户数据统计的应用/ 203
第11 章隐私计算未来展望/209
参考文献214
附录A 中国数据保护法律概况/233
A.1 《个人信息保护法》与数据保护/234
A.1.1 适用范围/234
A.1.2 个人信息处理原则/234
A.1.3 个人信息保护影响评估制度/235
A.1.4 禁止“大数据杀熟”的算法歧视/235
A.1.5 个人信息跨境提供规则/236
A.1.6 个人信息主体权利/236
A.2 《数据安全法》与数据保护/ 237
A.2.1 适用范围和域外效力/237
A.2.2 数据分类分级保护制度/237
A.2.3 数据安全保护义务/237
A.3 《网络安全法》与数据保护/ 238
不错
2022-02-21 12:29:06