书籍作者:彭南博,王虎 等 | ISBN:9787121405976 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:4708 |
创建日期:2021-10-07 | 发布日期:2021-10-07 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书针对产业界在智能化过程中普遍面临的数据不足问题,详细地阐述了联邦学习如何帮助企业引入更多数据、提升机器学习模型效果。互联网数据一般分布在不同的位置,受隐私保护法规限制不能共享,形成了“数据孤岛”。联邦学习像“数据孤岛”之间的特殊桥梁,通过传输变换后的临时变量,既能实现模型效果提升,又能确保隐私信息的安全。本书介绍了联邦学习技术的原理和实战经验,主要内容包括隐私保护、机器学习等基础知识,联邦求交、联邦特征工程算法,三种常见的联邦形式,以及工程架构、产业案例、数据资产定价等。
前 言 写作背景 联邦学习迅速成了产业界的宠儿,很多互联网企业纷纷投入研发资源,并进行市场布局。这项技术于2016年被谷歌提出,在2019年年初被引入国内,在2020年即已出现数十家企业提供的产品,并出现了大规模的商业应用,这种速度在新技术应用中实属罕见。 究其原因,是因为联邦学习可以解决企业之间的“数据孤岛”问题,让企业可以通过使用更多的数据提高AI模型的效果,为用户提供更便捷的个性化服务。同时,在这个过程中数据是安全的,用户的隐私信息不会被输出和泄露,因此这项技术不但不会损害合作企业的利益,而且可以为其带来额外的收益。对于用户而言,他们既可以享受个性化服务质量的提升,又不用担心具体隐私信息的传播,有利而无害,因此愿意授权互联网服务商通过这种安全的方式使用外部数据。对于市场监管而言,这种方式的跨企业数据服务不是直接复制数据,而是需要通过联邦网络,由联邦参与方共同确认才能产生结果,这解决了使用传统方式造成的数据被任意复制、难以监管的难题。 从技术层面来看,联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,涉及面较广,部署实施难度大,很多具体问题需要跨领域的综合知识才能解决。一方面,在人才市场中拥有这种综合知识的人才十分稀缺,很多项目都面临无人可用的困境。另一方面,越来越多的人关注到联邦学习这个新兴技术,希望系统地掌握联邦学习的原理,并在产业应用中解决具体问题。不幸的是,市面上相关的书籍还很少,网络博文往往不够系统和深入。我们在联邦学习产品化、产业实战过程中积累了大量经验,撰写了这本关于技术与实战的书,希望帮助读者更好地掌握联邦学习。我们也希望与互联网伙伴一起,组建更大的联邦网络,在确保用户隐私数据安全的前提下,为用户提供更优质的服务,促进跨企业大数据行业的健康发展。 如何阅读本书? 本书详细地阐述了联邦学习的相关概念,同时给出了较多案例,适合对联邦学习感兴趣的读者阅读。本书在必要之处给出数学公式,读者在阅读这些小节时需要具备统计学的基础知识。 我们对本书进行了系统性的编排和统筹。本书共12章,包括联邦学习基础、具体的联邦学习算法、联邦学习的产业应用和展望三大部分。各个部分相对独立,读者可依据目标和兴趣进行有选择性地重点阅读。 第1章~第3章为联邦学习基础,旨在帮助读者了解联邦学习的市场背景、技术现状,以及基础的隐私保护技术、机器学习技术和分布式计算技术。建议联邦学习的初学者和求职者重点阅读这个部分,借以梳理清楚联邦学习的基本问题和基本技术。第1章从全局的角度概述了联邦学习的基本问题,用于建立对联邦学习的总体认识,主要由陈玉林和范昊撰写。第2章介绍多方计算和隐私保护,是联邦学习成功地解决数据孤岛问题,实现跨企业大数据融合的关键,主要由周帅撰写。第3章介绍传统机器学习,包括基本概念、方法和效果评价,是联邦学习建立联合模型、有效地利用多方数据解决业务问题的基础,主要由王帝撰写。 第4章~第8章为具体的联邦学习算法,旨在帮助读者了解具体算法的应用背景、特点和扩展方法,进而帮助读者根据需求选择合适的算法,适合联邦学习从业者进行重点阅读。第4章介绍联邦交集计算的相关理论和具体方法,用于提供联邦数据之间的对应关系,主要由王森和何天琪撰写。第5章介绍联邦特征工程的相关理论和具体方法,用于为联邦学习提供符合业务需求的输入数据,同时还可以减少噪声、提高效率等,主要由张一凡撰写。第6章~第8章分别介绍纵向联邦学习、横向联邦学习和联邦迁移学习这三种方案的架构、方法和案例。纵向联邦学习用于解决相同用户在不同企业场景中产生的数据的联合建模问题,主要由陈忠和李怡欣撰写。横向联邦学习用于解决不同用户在相同场景中产生的数据的联合建模问题,主要由敖滨和张润泽撰写。联邦迁移学习用于解决不同用户在不同场景中产生的数据的联合建模问题,主要由王森撰写。 第9章~第12章为联邦学习的产业应用和展望,旨在帮助读者了解联邦学习技术的商业应用现状、挑战、趋势,以及与数据资产和要素市场的关联,据此引发读者进一步思考。该部分较为宏观,涉及面广,适合联邦学习相关的项目管理者重点阅读。第9章介绍了常见的开源架构、训练服务和推理架构,并对具体部署过程中遇到的通信、资源不足等问题给出了优化方案,主要由张德、陈行、闫玉成、孙浩博、黄乐乐、肖祥文撰写。第10章介绍产业案例,包括联邦学习在医疗健康、金融产品广告投放、风控金融等场景中的应用,主要由王博、季澈和石薇撰写。第11章从数据自身价值出发阐述数据资产的相关概念和特征,据此引出联邦学习应用中的激励机制和定价模型,主要由吴极、孙果和周帅撰写。第12章介绍联邦学习的挑战和可扩展性,由陈玉林和陈晓霖撰写。 致谢 本书是很多人共同努力的结果,在此感谢各位作者的辛勤付出。同时,在本书后期的整理和内容统筹过程中,何彦婷、刘云、孟璐、张竹清等同事做出了贡献,在此表示衷心的感谢。 电子工业出版社石悦编辑的热情推动,最终促成了我们与电子工业出版社的合作。在审稿过程中,他多次邀请专家给出宝贵意见,对书稿的修改完善起到了重要作用。在此感谢石悦编辑对本书的重视,以及为本书出版所做的一切。 由于作者水平有限,书中不足之处在所难免。此外,由于联邦学习方兴未艾,技术不断完善,新算法层出不穷,本书难免有所遗漏,敬请专家和读者批评指正。
第1章 / 联邦学习的研究与发展现状 1 1.1 联邦学习的背景 1 1.2 大数据时代的挑战:数据孤岛 4 1.2.1 “数据孤岛”的成因 4 1.2.2 具体实例 5 1.2.3 数据互联的发展与困境 7 1.2.4 解决“数据孤岛”问题的难点与联邦学习的优势 10 1.3 联邦学习的定义和基本术语 11 1.3.1 联邦学习的定义 11 1.3.2 联邦学习的基本术语 13 1.4 联邦学习的分类及适用范围 15 1.4.1 纵向联邦学习 16 1.4.2 横向联邦学习 18 1.4.3 联邦迁移学习 19 1.5 典型的联邦学习生命周期 20 1.5.1 模型训练 21 1.5.2 在线推理 21 1.6 联邦学习的安全性与可靠性 22 1.6.1 安全多方计算 22 1.6.2 差分隐私 24 1.6.3 同态加密 25 1.6.4 应对攻击的健壮性 25 1.7 阅读材料 26 第2章 / 多方计算与隐私保护 28 2.1 多方计算 28 2.2 基本假设与隐私保护技术 29 2.2.1 安全模型 29 2.2.2 隐私保护的目标 30 2.2.3 三种隐私保护技术及其关系 32 2.3 差分隐私 34 2.3.1 差分隐私的基本概念 34 2.3.2 差分隐私的性质 40 2.3.3 差分隐私在联邦学习中的应用 41 2.4 同态加密 43 2.4.1 密码学简介 44 2.4.2 同态加密算法的优势 44 2.4.3 半同态加密算法 45 2.4.4 全同态加密算法 49 2.4.5 半同态加密算法在联邦学习中的应用 50 2.5 安全多方计算 51 2.5.1 百万富翁问题 52 2.5.2 安全多方计算中的密码协议 53 2.5.3 安全多方计算在联邦学习中的应用 61 第3章 / 传统机器学习 63 3.1 统计机器学习的简介 63 3.1.1 统计机器学习的概念 63 3.1.2 数据结构与术语 66 3.1.3 机器学习算法示例 67 3.2 分布式机器学习的简介 71 3.2.1 分布式机器学习的背景 71 3.2.2 分布式机器学习的并行模式 72 3.2.3 分布式机器学习对比联邦学习 75 3.3 特征工程 76 3.3.1 错误及缺失处理 76 3.3.2 数据类型 76 3.3.3 特征工程方法 77 3.4 最优化算法 80 3.4.1 最优化问题 80 3.4.2 解析方法 81 3.4.3 一阶优化算法 82 3.4.4 二阶优化算法 84 3.5 模型效果评估 85 3.5.1 效果评估方法 86 3.5.2 效果评估指标 87 第4章 / 联邦交集计算 91 4.1 联邦交集计算介绍 93 4.1.1 基于公钥加密体制的方法 93 4.1.2 基于混乱电路的方法 96 4.1.3 基于不经意传输协议的方法 97 4.1.4 其他方法 99 4.2 联邦交集计算在联邦学习中的应用 100 4.2.1 实体解析与纵向联邦学习 100 4.2.2 非对称纵向联邦学习 102 4.2.3 联邦特征匹配 106 第5章 / 联邦特征工程 107 5.1 联邦特征工程概述 107 5.1.1 联邦特征工程的特点 107 5.1.2 传统特征工程和联邦特征工程的对比 109 5.2 联邦特征优化 110 5.2.1 联邦特征评估 111 5.2.2 联邦特征处理 113 5.2.3 联邦特征降维 122 5.2.4 联邦特征组合 128 5.2.5 联邦特征嵌入 133 5.3 联邦单变量分析 137 5.3.1 联邦单变量基础分析 138 5.3.2 联邦WOE和IV计算 139 5.3.3 联邦PSI和CSI计算 143 5.3.4 联邦KS和LIFT计算 145 5.4 联邦自动特征工程 148 5.4.1 联邦超参数优化 149 5.4.2 联邦超频优化 152 5.4.3 联邦神经结构搜索 154 第6章 / 纵向联邦学习 156 6.1 基本假设及定义 156 6.2 纵向联邦学习的架构 157 6.3 联邦逻辑回归 159 6.4 联邦随机森林 166 6.5 联邦梯度提升树 172 6.5.1 XGBoost简介 172 6.5.2 SecureBoost简介 176 6.5.3 SecureBoost训练 176 6.5.4 SecureBoost推理 178 6.6 联邦学习深度神经网络 180 6.7 纵向联邦学习案例 184 第7章 / 横向联邦学习 186 7.1 基本假设与定义 186 7.2 横向联邦网络架构 187 7.2.1 中心化架构 187 7.2.2 去中心化架构 189 7.3 联邦平均算法概述 190 7.3.1 在横向联邦学习中优化问题的一些特点 190 7.3.2 联邦平均算法 191 7.3.3 安全的联邦平均算法 193 7.4 横向联邦学习应用于输入法 194 第8章 / 联邦迁移学习 198 8.1 基本假设与定义 198 8.1.1 迁移学习的现状 198 8.1.2 图像中级特征的迁移 201 8.1.3 从文本分类到图像分类的迁移 203 8.1.4 联邦迁移学习的提出 206 8.2 联邦迁移学习架构 206 8.3 联邦迁移学习方法 209 8.3.1 多项式近似 209 8.3.2 加法同态加密 210 8.3.3 ABY 210 8.3.4 SPDZ 211 8.3.5 基于加法同态加密进行安全训练和预测 212 8.3.6 基于ABY和SPDZ进行安全训练 215 8.3.7 性能分析 216 8.4 联邦迁移学习案例 217 8.4.1 应用场景 217 8.4.2 联邦迁移强化学习 218 8.4.3 迁移学习的补充阅读材料 224 第9章 / 联邦学习架构揭秘与优化实战 227 9.1 常见的分布式机器学习架构介绍 227 9.2 联邦学习开源框架介绍 235 9.2.1 TensorFlow Federated 235 9.2.2 FATE框架 238 9.2.3 其他开源框架 241 9.3 训练服务架构揭秘 242 9.4 推理架构揭秘 246 9.5 调优案例分析 250 9.5.1 特征工程调优 250 9.5.2 训练过程的通信过程调优 251 9.5.3 加密的密钥长度 253 9.5.4 隐私数据集求交集过程优化 254 9.5.5 服务器资源优化 254 9.5.6 推理服务优化 255 第10章 / 联邦学习的产业案例 256 10.1 医疗健康 256 10.1.1 患者死亡可能性预测 257 10.1.2 医疗保健 258 10.1.3 联邦学习在医疗领域中的其他应用 260 10.2 金融产品的广告投放 261 10.3 金融风控 263 10.3.1 数据方之间的联邦学习 264 10.3.2 数据方与金融机构之间的联邦学习 266 10.4 其他应用 269 10.4.1 联邦学习应用于推荐领域 269 10.4.2 联邦学习与无人机 271 10.4.3 联邦学习与新型冠状病毒肺炎监测 273 第11章 / 数据资产定价与激励机制 274 11.1 数据资产的相关概念及特点 274 11.1.1 大数据时代背景 274 11.1.2 数据资产的定义 275 11.1.3 数据资产的特点 277 11.1.4 数据市场 279 11.2 数据资产价值的评估与定价 281 11.2.1 数据资产价值的主要影响因素 281 11.2.2 数据资产价值的评估方案 286 11.2.3 数据资产的定价方案 289 11.3 激励机制 290 11.3.1 贡献度量化方案 291 11.3.2 收益分配方案 292 11.3.3 数据资产定价与激励机制的关系 293 第12章 / 联邦学习面临的挑战和可扩展性 295 12.1 联邦学习面临的挑战 295 12.1.1 通信与数据压缩 296 12.1.2 保护用户隐私数据 296 12.1.3 联邦学习优化 298 12.1.4 模型的鲁棒性 299 12.1.5 联邦学习的公平性 301 12.2 联邦学习与区块链结合 302 12.2.1 王牌技术 302 12.2.2 可信媒介 303 12.2.3 对比异同 304 12.2.4 强强联合 306 12.3 联邦学习与其他技术结合 307 参考文献 309