推荐系统

书籍作者：陈开江	ISBN：9787121354724
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：3555
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

本书是一本关于推荐系统产品如何落地的综合图书，内容覆盖产品、算法、工程、团队和个人成长。书中不仅梳理了从事推荐系统工作需要具备的思维模式和需要了解的问题类型，还从产品和商业角度分析了当前*火爆的信息流内在逻辑。本书用非常通俗易懂的方式介绍了推荐系统的经典算法原理，并有相应的配套实践代码，以帮助初入门的算法工程师快速上手。除了推荐算法，书中还包含一些不属于推荐算法但是很常见的实用算法。除算法原理之外，还有典型的工程架构描述，以及架构内部的具体模块细节描述。这些都是在设计推荐系统的过程中不可或缺而又不容易在公开场合获得的内容。此外，本书还涉及一部分推荐系统安全相关的知识，以及团队搭建经验和个人成长心得。本书适合以推荐系统为代表的效果类产品从业者阅读，包括决策者，以及产品、算法、架构、安全、运营人员。这是一本可以架起不同工种之间友好沟通桥梁的书。

作者简介

陈开江，偶以“刑无刀”的名义“出没江湖”，初于北京理工大学学习自然语言处理，先后任职于新浪微博、车语传媒、贝壳找房等公司，做自然语言处理及推荐系统开发等工作，也曾有两三年与推荐系统有关的创业经验。有译著《机器学习：实用案例解析》，在公众号ResysChina上发表过推荐系统系列文章，在极客时间开设有《推荐系统36式》付费专栏。

编辑推荐

适读人群：个性化推荐的产品经理及运营人员，或者从事相关工作的工程师，或者想了解个性化推荐产品的泛互联网爱好者

前言

我参加工作时正值Netflix的百万美金推荐大赛在神州大地掀起一股个性化技术的浪潮，无数先驱者参与其中。不知不觉十多年过去，得益于个性化推荐这些年的迅猛发展，其基础技术和算法已经成熟甚至开源，业内从最初关注“术”和算法技巧，开始过渡到关注“道”和有效落地。开江作为一个从业者经历了这一切。书中历数了这些年业界积累下来的大量最佳实践案例和工具包，并且带着从业者的思考和理解，可以让非算法出身的工程师也能快速地搭建起一个可用的推荐系统，同时也能给管理决策者提供一个全局视角。开江可谓是我见过最为实践者操心的作者，书中涉及了在落地层面会碰到的方方面面的问题，这些内容无论对于行业新人还是老人，都大有裨益。
阿稳酷划CTO，曾任豆瓣、淘宝资深算法专家，《智能Web算法》译者

陈开江老师作为资深的个性化推荐研究者和实践者，在新作《推荐系统》中展现了广博、深远的技术视野和扎实落地的实干精神。本书从基本概念、常用模型和算法，到评价指标及深度学习的应用，从理论到实践，涵盖了与推荐系统相关的工程架构乃至团队搭建的方方面面。相信无论是推荐系统的初学者还是经验丰富的专家，无论是相关的产品经理还是管理决策者，阅读本书都会是一段愉快而富有启发的经历。
王守崑爱因互动创始人，曾任豆瓣首席科学家
作者有近十年做推荐系统的经验，是国内最早一批推荐算法专家。认识开江是在2014年，那时我还在负责天猫的个性化推荐，曾向他请教微博Feed流推荐的技术。这么多年来，他已经把推荐技术和实战经验应用于多个行业，包括FM和金融领域，我相信这本书所展示的理论和实战技巧一定会让更多人受益匪浅。
张奇北京惠每科技有限公司CEO，曾任天猫推荐团队负责人

开江是推荐行业的一名“老司机”，在推荐的各领域都有丰富的实践经验和独到的思考。他的文章干货十足，行文幽默，嬉笑怒骂间道出了推荐领域的很多“真金白银”。这本书是他多年江湖智慧的一次集中展示。如果你想要入行，这本书可以帮你上道；如果你已是行内人，这本书可以帮你查漏补缺。相信大家都可以从书中找到乐趣。
张相於阿里巴巴高级算法专家

过去几年间，我们看到以推荐系统为核心的AI体系正在革命性地改变许多行业，如电商、内容分发、短视频等，本书深入浅出地总结了推荐系统的实战经验，相信不论是对初学者还是老手，不论是对工程师还是产品经理，都有参考价值，能给大家带来更多的启迪与帮助，是一本应该放在案头常读常新的优秀实践手册。
严强快手商业副总裁，曾任淘宝资深算法专家

本书从问题出发，以释疑结束，是作者基于多年工作经验的总结。本书通过清晰的行文结构，对推荐系统的原理、实践、评测以及团队搭建等方面进行了生动、有趣的论述，无论是从业人员还是对推荐系统感兴趣的读者都能从本书中获益。
冯扬贝壳找房数据智能中心负责人，曾任腾讯、新浪微博推荐算法专家

推荐序1

2018年“双11”，阿里巴巴总成交额达2135亿元，这是一个非常庞大的数字。其中，基于个性化的推荐方式所带来的流量已经超过了搜索等传统方式，这在过去是难以想象的。它代表了一个非常重大的转折。PC互联网是搜索的时代，移动互联网是推荐的时代。除了淘宝，今日头条也依靠Feed流加推荐系统，开创了移动内容分发产业的新格局。PC时代推荐引擎还只是互联网的配角，如今它所创造的价值已经不可同日而语。推荐时代，实实在在地到来了。
现如今，无论是大型还是小型的互联网企业，都已经开始不遗余力地投入到推荐系统的研发中。但是，推荐系统这种数据贪婪型应用，并不是靠一些产品直觉和灵感就可以一蹴而就的，它不仅需要积累数据、塑造思维，还需要积累技术、算法，并辅以产品运营，才可能开花结果，可以说是一套综合打法，而不是单一工种。这是一个事实，也是一个门槛，这个门槛把许多人和公司拦在了门外。于是，促进推荐系统从业者和爱好者互相交流、学习进步，是我一直以来愿意参与和投入的事业。
差不多十年之前，我和项亮发起了微信公众号ResysChina，为业内关注推荐系统的朋友们提供了一个交流讨论的社区。ResysChina帮助一些从业者打开了推荐系统的大门，输出了一批高质量的内容资料，也聚集了不少优秀的作者，开江就是其中之一。大概在2016年，开江开始在ResysChina上发布与Feed流相关的系列内容，收获读者好评无数，后来又持续贡献了大量的优质内容。他的写作风格浅显易懂，语言风趣幽默。这本书的部分内容是之前他在ResysChina上发布过的，但大部分是新撰写的。相比之前的文章，书中内容覆盖面更广、更加系统，也增加了大量的实例和代码。这本书从思维方法到产品逻辑，从算法原理到工程实践，从团队到个人，将推荐系统所涉及的内容娓娓道来。
展望未来，我认为推荐系统技术会进一步演化，它将更加即时、更加个性化，推荐系统将演化成为一种系统基础能力，融于每一次用户互动。它知道你是谁，了解你的喜好，为你的每一次选择提供帮助，并且能对你的需求做出预测。美好生活，善用科技，希望每一个热爱推荐系统的朋友都能在这个智能时代留下自己的痕迹。
谷文栋 ResysChina发起人

推荐序2

我一直觉得，推荐系统是人工智能领域的好方向。
一方面是因为它既是重要业务，又由技术主导，能同时满足这两个条件的AI方向其实不多，而能同时满足这两者的往往都是好的技术方向。另一方面是因为推荐无处不在，它符合时代的发展趋势和潮流。也许推荐物品的形态和主体会发生变化，比如以视频、图片等为主体的推荐将来会很常见，但是推荐这个事情无疑会越来越重要。
推荐系统这个方向是一个好方向，但是对于很多有志于从事推荐业务的同学来说，如何入门是一个难题，开江这本书对于对推荐系统业务或者技术感兴趣的同学们来说无疑是一本很好的入门教材。
我认识开江很久了，一直觉得开江是一个特别接地气的人，所以本书的这个特点也非常突出，特别实用、接地气。这本书几乎涵盖了构造一个实用推荐系统的方方面面。单从模型角度来说，书中不仅包含了相对传统的内容推荐、协同过滤等内容，还引入了FM模型以及最近几年大家都比较关注的深度学习推荐模型。针对每个技术点，不仅写得通俗易懂，还配有代码实例来加强读者的理解。在书的后半部分，还细致地介绍了完整的信息流推荐等实用推荐系统的整体架构。总而言之，我觉得这是一本非常适合入门推荐系统的教程，诚挚地推荐给对这个方向感兴趣的同学。
张俊林新浪微博机器学习团队AILab负责人

请回答，2018

嗯，我知道，技术书籍的“作者序”往往是作者自己“絮絮叨叨”，而少有人看，所以我给我这篇作者序起了一个不一样的标题。
2018年上半年，我应邀在极客时间上开设了付费专栏《推荐系统36式》，用36篇文章讲述了我和推荐系统的故事，然意犹未尽。从2018年下半年开始，一直到2019年春节，我认真阅读了专栏读者所有的反馈和建议，并且在专栏基础上重新梳理了所有内容，查漏补缺，完成了这本书。
本书为什么叫《推荐系统》这么简单的名字？当然是因为这本书是关于推荐系统，而不是关于搜索引擎的……至于推荐和搜索之间的“爱恨纠葛”，谷文栋先生为我写的推荐序中阐述得很好，这是“你可能感兴趣”的另一篇序——这篇序中就有了“推荐系统”的影子，这些可能是连我自己都没有想到的。
这本书都讲了些什么呢？讲了我所知道的推荐系统的各个方面。总体来说，有“务虚”的内容，也有“务实”的内容。“务虚”的内容本质上是个人观点，是我真诚地想讲的内容，有自己的“踩坑”总结，也有主观偏见；“务实”的内容则是事实、原理和实践，有我的认真作答，有我的阅读解读，也有我的实践总结，但也有浅薄之言、遗漏甚至错误。
在这本书的写作过程中，有挑灯夜战，也有倦怠拖延、时而偷懒；有灵光乍现，也有苦读论文、狂写代码；有诚意满满、自鸣得意，也有技不如人、战战兢兢。我相信，这本书下可垫桌子，上可长知识，总有一款适合你。
回想起来，写作过程经历了2018年的冬天和2019年的春天，庆幸能得众人为我抱薪，这本书才没有冻毙于风雪，所以我想带着十分的敬意感谢TA们，排名不分先后，TA们是：
本书读者、陈开江先生、陈于飞女士、冯扬先生、谷文栋先生、李坤先生、刘佳禾女士、马越女士、毛倩倩女士、王守崑先生、王文彬先生、稳国柱先生、严强先生、严维艰女士、专栏读者、张春雨先生、张俊林先生、张奇先生、张相於先生、朱剑女士。
上述排名为拼音序，不分先后。
最后，很多前辈和同行们在我的邀请下写了很多夸奖我的话，但是书中如果出现错误，可与他们无关，都“冲”我来吧。我知道，我会犯错、有局限，虽然书中专门讲到了一些过滤算法，但是我不会过滤掉你们给我的任何意见和建议，相信我。请加知识星球免费群，与我进一步沟通交流：ResysChina。
以上。

陈开江@刑无刀
公元2019年仲季夏之交

目录

1 概念与思维 1
1．1 该要推荐系统吗 2
1．1．1 什么是推荐系统 2
1．1．2 是否需要推荐系统 4
1．1．3 小结 5
1．2 问题模式有哪些 7
1．2．1 预测问题模式 7
1．2．2 几个常见顽疾 10
1．2．3 小结 12
1．3 要具有什么样的思维模式 13
1．3．1 关键元素 13
1．3．2 思维模式 15
1．3．3 小结 19
2 产品漫谈 21
2．1 推荐系统的价值和成本 22
2．1．1 价值 22
2．1．2 成本 25
2．1．3 小结 27
2．2 信息流简史 28
2．2．1 前世今生 28
2．2．2 配套设施 29
2．2．3 小结 33
3 内容推荐 35
3．1 用户画像简介 36
3．1．1 什么是用户画像 36
3．1．2 关键因素 38
3．1．3 构建方法 40
3．1．4 小结 41
3．2 标签挖掘技术 42
3．2．1 挖掘标签的物料 42
3．2．2 标签库该有的样子 43
3．2．3 标签挖掘方法 45
3．2．4 小结 76
3．3 基于内容的推荐 78
3．3．1 为什么要做好内容推荐 78
3．3．2 基于内容的推荐系统 79
3．3．3 小结 83
4 近邻推荐 85
4．1 基于用户的协同过滤算法 86
4．1．1 协同过滤算法 86
4．1．2 基于用户的协同过滤算法原理 87
4．1．3 应用场景 98
4．1．4 小结 99
4．2 基于物品的协同过滤算法 100
4．2．1 常见的应用场景 100
4．2．2 算法原理 101
4．2．3 小结 110
4．3 相似度算法一览 111
4．3．1 相似度的本质 111
4．3．2 相似度计算方法 112
4．3．3 向量化计算 115
4．3．4 小结 117
5 矩阵分解 119
5．1 SVD算法 120
5．1．1 历史背景 120
5．1．2 首谈矩阵分解 121
5．1．3 小结 129
5．2 ALS算法 130
5．2．1 再谈矩阵分解 130
5．2．2 ALS算法原理 131
5．2．3 隐式反馈 132
5．2．4 推荐计算 136
5．2．5 小结 137
5．3 BPR算法 138
5．3．1 三谈矩阵分解 138
5．3．2 贝叶斯个性化排序 139
5．3．3 小结 146
6 模型融合 147
6．1 线性模型和树模型 148
6．1．1 为什么要融合 148
6．1．2 “辑度组合”原理 150
6．1．3 小结 163
6．2 因子分解机 164
6．2．1 从特征组合说起 164
6．2．2 因子分解机详解 165
6．2．3 小结 173
6．3 Wide＆Deep模型 174
6．3．1 要“深”还是要“宽” 174
6．3．2 Wide ＆ Deep模型详解 175
6．3．3 几点技巧 180
6．3．4 模型实例 182
6．3．5 小结 186
7 探索和利用 189
7．1 MAB问题与Bandit算法 190
7．1．1 推荐即选择 190
7．1．2 MAB问题 191
7．1．3 Bandit算法 192
7．1．4 冷启动 201
7．1．5 小结 201
7．2 加入特征的UCB算法 202
7．2．1 UCB算法回顾 202
7．2．2 LinUCB算法 203
7．2．3 构建特征 209
7．2．4 小结 211
7．3 Bandit算法与协同过滤算法 212
7．3．1 信息茧房 212
7．3．2 COFIBA算法 213
7．3．3 再谈EE问题 222
7．3．4 小结 223
8 深度学习 225
8．1 深度隐因子 226
8．1．1 深度学习与推荐系统 226
8．1．2 各种“2Vec” 229
8．1．3 深度Embedding 232
8．1．4 深度学习与视频推荐 236
8．1．5 小结 238
8．2 深度CTR预估 239
8．2．1 深度学习与CTR预估 239
8．2．2 CTR预估 240
8．2．3 小结 248
9 其他算法 249
9．1 排行榜 250
9．1．1 为什么要有排行榜 250
9．1．2 排行榜算法 251
9．1．3 小结 257
9．2 采样算法 259
9．2．1 有限数据集 260
9．2．2 无限数据集 262
9．2．3 小结 263
9．3 重复检测 264
9．3．1 生产端的重复检测 264
9．3．2 消费端的重复检测 266
9．3．3 小结 268
10 架构总览 269
10．1 信息流推荐架构 270
10．1．1 信息流的种类 270
10．1．2 抓取聚合信息流 271
10．1．3 社交动态信息流 274
10．1．4 小结 281
10．2 个性化首页架构 282
10．2．1 架构的特质 282
10．2．2 Netflix的个性化首页架构 282
10．2．3 简化推荐系统架构 287
10．2．4 小结 289
10．3 搜索引擎、推荐系统及广告系统 290
10．3．1 异同对比 290
10．3．2 三者的架构 292
10．3．3 三者的协同 294
10．3．4 小结 294
11 关键模块 297
11．1 日志收集 298
11．1．1 日志的用途 298
11．1．2 详细方案 299
11．1．3 小结 305
11．2 实时推荐 306
11．2．1 实时的层次 306
11．2．2 实时推荐要点 307
11．2．3 小结 318
11．3 AB实验 319
11．3．1 AB实验是什么 319
11．3．2 AB实验框架 321
11．3．3 实验数据分析 327
11．3．4 小结 331
11．4 推荐服务 332
11．4．1 服务 332
11．4．2 存储 332
11．4．3 API 336
11．4．4 小结 340
11．5 开源工具 341
11．5．1 不重复造轮子 341
11．5．2 内容分析 342
11．5．3 协同过滤和矩阵分解 342
11．5．4 模型融合 344
11．5．5 Web服务框架 344
11．5．6 其他算法 345
11．5．7 完整推荐系统 345
11．5．8 小结 345
12 效果保证 347
12．1 测试及常用指标 348
12．1．1 测试方法 348
12．1．2 检测指标 351
12．1．3 小结 356
12．2 推荐系统的安全 357
12．2．1 攻击手段 357
12．2．2 防护方式 360
12．2．3 小结 362
13 团队与个人 363
13．1 团队组建 364
13．2 个人成长 367
13．3 小结 370