书籍作者:詹盈 | ISBN:9787121392887 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:8226 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
《算法与数据中台:基于Google、Facebook与微博实践》作者依据在Google、Facebook、新浪微博及滴滴出行等中美一流互联网公司的实际工作经历,对算法技术、数据技术,以及围绕它们进行的技术中台建设实践进行了全面的探讨,并在此基础上对信息流推荐、计算广告及智能出行等核心互联网业务进行了案例剖析。
本书具有广阔的技术视野,内容颇具深度,既适合互联网行业的技术从业者阅读,也适合计算机相关专业的高年级本科生、研究生阅读。通过阅读本书,读者能加深对机器学习、深度学习、大数据、分布式系统及技术中台等相关领域的认知与理解,并从中获得一定的启发和可借鉴的经验。
詹盈,本科毕业于南京大学,后赴美攻读计算机博士学位。先后就职于 Google、Facebook 以及新浪微博,历任主任架构师、算法总监等职位。长期致力于机器学习算法、算法工程平台和大规模个性化系统等方向的技术研究以及团队管理工作,对推荐系统、计算广告、大数据和云计算等相关业务领域有着长期深入的工作经验和成功实践。
郑旭飞,先后就职于 360 搜索、滴滴出行以及新浪微博,历任算法专家和资深工程师等职位,对搜索、推荐、广告等个性化系统以及机器学习平台有着丰富的实践经验。
刘畅宇,美国哥伦比亚大学计算机硕士学位,先后就职于彭博社和新浪微博并担任资深架构师等职位,对金融交易系统、计算广告平台以及大规模分布式系统有着深刻理解和成功经验。
郝忠秀,新浪微博广告基础架构负责人,对大规模分布式系统、海量数据存储系统、大数据平台以及计算广告等相关领域有着长期工作经验和诸多成功实践。
√ 作者在业务智能化代表企业谷歌脸书微博有完整架构搭建实用化数据中台与超大规模机器学习中台的丰富经验。
√ Facebook|Google|Uber||贝尔实验室|SHAREit|阿里|腾讯|网易|滴滴|好未来|快手|商汤领域技术负责人集体盛赞。
√ 智能数据中台解决方案全景解析:大数据的线下offline处理|近线near-line半实时模型更新|在线online实时服务。
√ 全覆盖中台技术基础设施、在线算法服务、机器学习平台、分布式数据库系统、大数据平台的精华知识与案例。
推荐序
数据智能作为新基建中的核心领域,具备前所未有的变革能力,它正在对现有的生产生活方式、商业模式甚至经济结构产生着巨大的推动作用。算法技术与数据技术的深度结合是实现数据智能的基础。以机器学习为代表的人工智能,逐渐发展成为当今最为主流和最具影响力的算法技术。它不仅在推荐、搜索和广告等经典的互联网业务中完美地证明了自己的价值,而且在解决现实生产和生活中的实际问题上,也逐渐彰显出了不可替代的巨大能力。在机器学习被不断地实践和应用的过程中,数据技术特别是大数据领域的相关技术,也取得了长足进步,并成为机器学习算法赖以生存的土壤。数据智能领域的技术进步,和互联网本身的蓬勃发展是密不可分的,两者相互促进,相辅相成。技术的进步不仅可以为已有互联网产品的智能化升级和改造进行赋能,它也是许多新兴互联网业务得以开展的基石,而互联网的发展则为算法技术与数据技术的实践和进化提供了广阔的舞台。
新浪微博作为全球最大的中文社交媒体平台,不仅具有海量的用户规模和平台内容,而且具有社交性和媒体性这两大突出特点。面对不断增长的博文信息及愈加丰富的用户行为,新浪微博一直以来都致力于利用数据技术和算法技术来驱动业务发展和产品迭代。在多年的中台建设过程中,微博平台已经基本实现了数据的共享及通用能力的复用。当下,无论是微博推荐流、视频推荐和微博热搜等用户产品,还是超级粉丝通和粉丝头条等广告产品,都离不开技术中台的强有力支持。特别地,在中台建设过程中沉淀下来的数据技术和算法技术,已经成为各个产品和业务进行智能化升级和个性化改造的核心推动力。
本书作者充分结合了中外知名互联网企业的实践经验,对较为通用的算法技术、数据技术,以及背后的中台建设历程进行了较为详尽的介绍和总结。在此基础上,本书还对推荐系统、计算广告,以及本地生活服务这三个经典互联网业务中的实际产品进行了案例剖析,这些内容颇具实践价值和指导意义。本书文笔流畅,具有广阔的技术视野,内容颇具深度,是一本优秀的参考读物,特此推荐给互联网以及信息产业的相关从业人员。
——新浪微博CTO 刘子正
前言
成书背景
在中美各大互联网企业的中台战略实施过程中,人们对中台建设的目标逐步形成了原则性共识。大家普遍希望通过中台战略来实现数据整合、技术沉淀、能力共享和功能复用,并期望以此为切入点来引领组织架构的升级和重塑,从而大幅度提高研发效率、执行效率、组织效率和决策效率。毫无疑问,一个可靠且强大的中台可以为各种前台业务进行赋能,以便支撑它们进行快速试错、快速决策和能力提升。
在纷繁复杂的技术中台体系里,算法中台和数据中台是紧密联系的。算法对于挖掘数据的内在规律并充分发挥数据的潜在价值有着决定性意义,而数据又决定了算法的效果上限,并且大部分算法的生产过程离不开数据计算平台的有力支撑。由此可见,将算法中台与数据中台作为一个有机整体来进行技术规划、技术建设和实际应用具有充足的合理性和非凡的现实意义,这既是许多知名互联网公司的实践方式,也是本书创作的初衷和意义。
我们在对 Google、Facebook、新浪微博及滴滴出行等多家世界知名互联网企业的具体实践进行总结的基础上,围绕算法与数据中台的功能价值、构建思路、技术体系、实践案例和应用前景进行了深入讲解与剖析。我们建议并殷切希望读者带着思考来进行阅读,从而形成自己对于中台战略以及算法与数据中台的理解,并将书中符合自身需要的经验复用到日常的工作、学习和研究当中。
本书内容
本书分为 3 大部分,共 9 章,全面介绍了算法与数据中台的产生背景、技术体系和实践案例。
第 1 章对互联网企业的中台战略,特别是与算法技术和数据技术相关联的技术中台进行了背景分析和案例简介,并阐明了算法与数据中台的重要价值以及应用前景。
第 2 ~ 6 章对算法与数据中台的技术体系进行了深入剖析,并围绕基础设施平台、在线算法平台、机器学习平台、分布式数据库平台和大数据平台这几个核心的组成部分进行了详尽的技术探讨。
第 7 ~ 9 章选择推荐系统、计算广告和网约车平台这三个经典的互联网业务场景进行了案例分析,以便通过具体的应用实践来加深读者对于算法与数据中台的理解。
目标读者
? 互联网行业,特别是从事个性化系统、计算广告、大数据平台及技术中台建设的相关从业人员。作者希望本书能够为业界同行带来一定的感悟和启发,并希望书中部分成功的实践经验可以因地制宜地被推广和应用到更多的日常工作与研究当中。
? 对机器学习、深度学习、大数据和分布式计算感兴趣且有一定理论基础的读者。本书可以帮助这类读者对相关的技术要点和实施方案进行系统化的梳理,并引导他们对感兴趣的技术话题进行深入学习。
? 计算机专业的高年级本科生、研究生和博士生。本书具有广阔的技术视野且语言平实,有助于在校学生加深对计算机学科中的相关理论、技术和应用的理解,从而帮助他们构建一套较为完整的知识体系。
交流沟通
算法技术和数据技术的发展可谓日新月异、一日千里,而作者的精力和水平有限,因此本书内容难免有一些纰漏甚至错误。诚恳地邀请所有读者将阅读过程中所遇到的问题和困惑,以及建设性的改进意见反馈给我们,作者定当在力所能及的范围内第一时间回复有价值的邮件信息。
QQ:2515475864
诚恳致谢
成书过程是艰辛的,十分感谢在本书的创作和出版过程中给予帮助、支持和鼓励的所有领导、同事、业界同行以及出版社的工作人员,祝大家心想事成。特别地,感谢毛镭在审稿和校对过程中给予的帮助与支持。
詹盈
中国北京 / 美国纽约
2020 年 7 月
第1章 算法与数据中台概述 1
1.1 中台的背景和意义 1
1.2 算法与数据中台的功能价值 3
1.3 算法与数据中台的技术体系 4
1.4 算法与数据中台的实践场景 6
1.5 算法与数据中台的应用前景 7
1.6 本章总结 8
第2章 中台技术之基础设施 10
2.1 研发效率系统 10
2.1.1 代码组织和构建 11
2.1.2 代码审查和任务管理 13
2.1.3 持续集成 15
2.1.4 通用压测平台 17
2.2 服务通信系统 19
2.2.1 跨进程通信框架 20
2.2.2 服务注册与发现 21
2.2.3 服务治理 24
2.3 监控报警系统 25
2.3.1 通用系统架构 25
2.3.2 指标计算模型 26
2.3.3 开源解决方案 27
2.4 链路跟踪系统 29
2.4.1 应用场景与设计目标 30
2.4.2 系统架构 30
2.5 本章总结 32
第3章 中台技术之在线算法系统 33
3.1 物料检索系统 34
3.1.1 倒排检索 35
3.1.2 倒排索引实例 37
3.1.3 相似检索 38
3.1.4 相似检索实例 40
3.1.5 模型粗排 40
3.2 模型预估服务 41
3.2.1 整体架构 42
3.2.2 多框架支持 43
3.2.3 模型上线 44
3.2.4 在线预估 45
3.2.5 异构设备 46
3.2.6 性能优化 47
3.2.7 效果监控 49
3.3 策略机制引擎 50
3.3.1 整体架构 50
3.3.2 计算流解释器 51
3.3.3 Lua 解释器 52
3.4 集群管理平台 53
3.4.1 多租户架构 53
3.4.2 集群动态管理 54
3.4.3 集群性能监控 57
3.4.4 配置动态分发 59
3.5 效果评估系统 60
3.5.1 背景介绍 61
3.5.2 设计模式 61
3.5.3 系统架构 62
3.5.4 指标计算 64
3.6 本章总结 65
第4章 中台技术之机器学习平台 66
4.1 机器学习平台简介 66
4.1.1 机器学习的研发流程 67
4.1.2 机器学习的研发挑战 69
4.1.3 机器学习的研发技术 69
4.2 传统机器学习算法 73
4.2.1 线性算法 73
4.2.2 因子分解机算法 77
4.2.3 决策树算法 81
4.3 深度学习算法 84
4.3.1 发展简史 85
4.3.2 神经元模型 86
4.3.3 神经网络模型 87
4.3.4 神经网络的算法原理 88
4.4 模型框架基本原理 94
4.4.1 分布式计算架构 94
4.4.2 并行计算的同步机制 99
4.4.3 梯度更新算法 102
4.5 层结构的模型框架 108
4.5.1 Caffe 109
4.5.2 DistBelief 110
4.5.3 WBLEngine 112
4.5.4 小结 116
4.6 数据流结构的模型框架 116
4.6.1 TensorFlow 116
4.6.2 PyTorch 122
4.6.3 小结 126
4.7 复合结构的模型框架 126
4.7.1 场景特点 126
4.7.2 设计思路 127
4.7.3 架构与实现 128
4.7.4 性能优化 131
4.7.5 小结 132
4.8 机器学习平台简介 132
4.8.1 单业务线开发阶段 132
4.8.2 平台化建设阶段 133
4.8.3 业界知名产品 134
4.9 新浪微博 WBL 机器学习平台 135
4.9.1 用户操作界面 136
4.9.2 管理中心 138
4.9.3 数据中心 140
4.9.4 调度中心 141
4.9.5 智能中心 144
4.9.6 模型中心 145
4.10 本章总结 147
第5章 中台技术之分布式数据库 148
5.1 分布式数据库概述 148
5.1.1 SQL 数据库 148
5.1.2 NoSQL 数据库 149
5.1.3 NewSQL 数据库 150
5.2 分布式数据库技术 150
5.2.1 ACID 理论 151
5.2.2 CAP 理论 151
5.2.3 BASE 理论 153
5.2.4 数据分片策略 154
5.2.5 数据复制策略 157
5.2.6 Gossip 协议 158
5.2.7 分布式一致性协议 160
5.2.8 分布式事务协议 167
5.3 分布式数据库产品 170
5.3.1 Redis 170
5.3.2 Google BigTable 170
5.3.3 Google Spanner 173
5.4 LaserDB 分布式数据库 177
5.4.1 系统架构 178
5.4.2 数据模型 179
5.4.3 分片策略 180
5.4.4 批量加载 181
5.4.5 同步机制 182
5.4.6 高可用架构 184
5.4.7 高性能方案 185
5.5 LaserDB 应用案例分析 188
5.5.1 数据缓存 188
5.5.2 特征服务 189
5.5.3 向量存储 190
5.5.4 样本拼接 190
5.6 本章总结 191
第6章 中台技术之大数据平台 192
6.1 大数据平台概述 192
6.1.1 大数据的特点 192
6.1.2 大数据平台的技术栈 193
6.2 分布式协调系统 194
6.2.1 Google Chubby 195
6.2.2 Apache ZooKeeper 196
6.2.3 Consul 197
6.3 集群管理系统 199
6.3.1 Google Borg 200
6.3.2 Kubernetes 202
6.3.3 Apache YARN 203
6.4 分布式文件系统 205
6.4.1 Google GFS 205
6.4.2 Apache HDFS 207
6.4.3 Dropbox MagicPocket 209
6.5 消息管道系统 210
6.5.1 Google PubSub 211
6.5.2 Apache Kafka 213
6.6 分布式计算系统 214
6.6.1 MapReduce 214
6.6.2 Apache Spark 216
6.6.3 Apache Flink 218
6.6.4 Apache Beam 220
6.7 数据仓库与分布式查询系统 221
6.7.1 Google BigQuery 222
6.7.2 Apache Hive 223
6.7.3 Facebook Presto 224
6.7.4 Facebook Scuba 226
6.8 本章总结 227
第7章 中台实践之推荐系统 228
7.1 推荐系统的背景简介 228
7.1.1 场景概况 229
7.1.2 整体架构 230
7.1.3 推荐思路 233
7.2 推荐系统的算法模型 235
7.2.1 GBDT-LR 融合模型 235
7.2.2 Wide & Deep 模型 237
7.2.3 DeepFM 模型 238
7.2.4 双塔模型 238
7.2.5 多任务模型 239
7.2.6 算法的发展趋势 241
7.3 推荐系统的效果度量 244
7.3.1 体验指标 244
7.3.2 算法指标 245
7.4 Facebook 信息流推荐简介 250
7.4.1 数据分发系统 251
7.4.2 特征服务 252
7.4.3 索引系统 254
7.4.4 预估与排序服务 255
7.4.5 实时样本拼接服务 256
7.4.6 模型训练平台 257
7.5 本章总结 258
第8章 中台实践之数字广告 259
8.1 数字广告的背景简介 259
8.1.1 核心概念 260
8.1.2 合约广告 261
8.1.3 竞价广告 262
8.1.4 程序化交易广告 263
8.2 数字广告系统架构 264
8.2.1 业务平台 265
8.2.2 算法与数据中台 265
8.3 数字广告系统中的数据管理 266
8.3.1 站内数据 267
8.3.2 站外数据 267
8.4 数字广告系统中的受众定向 268
8.4.1 内容定向 268
8.4.2 用户标签定向 269
8.4.3 定制化标签定向 269
8.4.4 社交关系定向 270
8.4.5 智能定向 270
8.5 数字广告系统中的策略机制 270
8.5.1 流量预测 271
8.5.2 在线分配 271
8.5.3 频次控制 272
8.5.4 平滑投放 272
8.5.5 探索策略 273
8.5.6 智能出价 274
8.5.7 广告竞价 276
8.5.8 反作弊机制 277
8.6 本章总结 277
第9章 中台实践之网约车平台 278
9.1 业务简介 279
9.1.1 业务背景 279
9.1.2 运作流程 281
9.1.3 用户体验 281
9.2 技术架构 282
9.2.1 分层系统架构 282
9.2.2 业务中台 283
9.2.3 算法与数据中台 285
9.3 打车定价场景 286
9.3.1 场景描述 286
9.3.2 价格动态下浮策略 287
9.3.3 价格动态上浮策略 289
9.3.4 小结 290
9.4 打车排队场景 290
9.4.1 场景描述 290
9.4.2 排队时间预估策略 291
9.4.3 小结 292
9.5 打车安全场景 292
9.5.1 场景描述 292
9.5.2 安全策略 293
9.5.3 小结 294
9.6 本章总结 294
参考文献 295
不错,,,,,,,,,,,,,,,
2020-09-02 18:53:19
物流很快,很方便,
2020-09-03 23:14:04
图书内容很好,实践案例讲的和精细
2020-09-01 16:03:05
内容很丰满,值得买来学习,目前正在参与公司数据中台建设,很有指导意义,从研发效率管理到数据处理,算法中台建设都一一进行了详细的介绍,好书点赞?
2020-08-29 20:25:25
以前都是通过阅读一些网上的文章了解机器学习、推荐系统等的一些技术,比较碎片化。这本书有比较系统地介绍了算法中台,把重要的知识点都串联起来。对建立整个知识体系很有帮助。有很多google,fb 微博等真实案例和工作心得,也非常有帮助。
2020-08-29 21:21:25
第一时间拿到了,真是一本好书,不是那种泛泛的介绍,而是从实际工程入手,不仅有理论,还有实际的工程经验,从各种详细的架构图来看,这是一线多年的工作经验总结,值得一读
2020-08-29 22:37:14
书里有很多稀缺内容,都是来自于 Google, Facebook,以及知名企业的实践经验和真实案例,收获很大。
2020-08-27 12:11:02