猜你喜欢
这就是推荐系统——核心技术原理与企业应用

这就是推荐系统——核心技术原理与企业应用

书籍作者:胡澜涛 ISBN:9787121454226
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8186
创建日期:2024-04-01 发布日期:2024-04-01
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

推荐系统技术作为近年来非常热门的AI技术,已广泛应用于互联网各行业,从衣食住行到娱乐消费,以及无处不在的广告,背后都依赖推荐系统的决策。本书贴合工业级推荐系统,以推荐系统的整体技术框架为切入点,深入剖析推荐系统中的内容理解、用户画像、召回、排序、重排等核心模块,介绍每个模块的核心技术和业界应用,并展开介绍了推荐冷启动、推荐偏差与消偏等常见问题和解决方案。此外,还对当前推荐系统领域的热门前沿技术进行了介绍,包括强化学习、因果推断、端上智能等。

本书既适合推荐系统、计算广告及搜索领域的互联网相关从业人员,也适合高等院校人工智能、计算机技术、软件工程等专业的本科生、研究生及博士生,以及对推荐系统感兴趣的爱好者等,可以帮助他们了解工业级推荐系统的基础框架、核心技术和前沿发展。


作者简介

胡澜涛

毕业于清华大学计算机系,快手推荐算法技术总监。曾任字节跳动高级算法工程师,腾讯高级研究员。在推荐系统领域有丰富的实践经验,负责过包括TikTok、快手、微信看一看在内的多个大规模工业级推荐系统的核心研发工作。主要研究方向为推荐系统,发表相关领域的学术论文6篇,拥有专利5项。


李玥亭

毕业于大连理工大学计算机专业。曾先后就职于百度、小米等公司,参与百度凤巢广告CTR预估模型的研发,负责小米音乐、阅读、应用商店、游戏中心等多个产品推荐服务从0到1的搭建,在搜索、广告、推荐领域有丰富的实战经验。目前转战智能家居领域,探索智能感知、智能决策等AI技术在新场景的落地。


崔光范

毕业于中国科学院软件研究所,爱奇艺助理研究员,负责短视频信息流推荐业务。曾任小米推荐算法工程师,负责应用商店、游戏中心、有品等业务的推荐工作,从零构建了小米垂域业务的深度推荐引擎。主要研究方向是推荐系统、计算广告、搜索等,发表过多篇论文和专利。


易可欣

毕业于北京大学,先后在爱奇艺、快手担任推荐算法工程师,主要研究方向为召回策略与模型、数据挖掘、样本优化等。

编辑推荐

本书不要求读者必须具备深度学习或者机器学习的背景知识,不论是互联网行业的技术、产品、运营人员,还是高等院校的在校生,或者对个性化推荐、大数据应用感兴趣的爱好者等都可以阅读此书。


亮点一:完全来自于工业化实践,内容按照实际推荐系统的模块划分:内容理解、用户画像、召回、排序、重排等,其他书没有这样写的。
亮点二:内容全面系统但精炼,全书是作者根据实践总结,没有大面积理论讲解,只讲基础框架、核心技术和前沿发展。

亮点三:囊括当下热门前沿技术,包括强化学习、因果推断、端上智能,以及ChatGPT时代的推荐系统未来发展描述,对当下的技术人员很有指导意义。

亮点四:四位作者均是来自一线大厂的工程师,长期在工业界从事推荐算法的相关应用研究,本书的内容融入了作者对推荐算法的思考、体会及实战经验。

亮点五:此书不仅具有全局视野,体系完善,而且生动翔实,细节拉满。不管你是小白还是推荐系统的从业者,阅读此书都会让你受益匪浅。


向读者更全面、更具体地介绍推荐系统,全方位地剖析主流工业推荐系统的运作机理和每个核心模块,并让读者能够了解不同的互联网产品中推荐系统是如何与业务场景进行深度结合来加速达成业务核心目标的。



前言

推荐序

随着移动互联网的不断发展和5G的普及,信息的视频化呈现出了前所未有的发展速度,不仅是抖音、快手、小红书等,就连很多工具类App都把视频作为一种基础的信息交换格式。而推荐系统作为信息过滤的重要产品和技术手段,近十年来发展迅速,特别是深度学习与推荐系统的结合,不论是工业界还是学术界都涌现出非常多的新算法和实践。初学者接触推荐系统很容易被复杂的算法带偏,甚至以为其系统中最重要的就是模型表达能力的强弱(特征容量),而在实际的工业级推荐系统中涉及大量的在/离线系统架构、数据信号与机器学习系统的反馈链路,以及与人的经验知识的结合方式。

真实的线上推荐系统不仅涉及召回、粗排、精排、重排(在本书中,“重排”等同于“重排序”)这些阶段,而且涉及内容理解、用户画像、AB实验平台、Session上下文管理、创作者生态扶持、流量运营操作平台等,这些子系统在同类书中是比较少涉及的,而模型技术的演进通常是笔墨最重的部分。以内容理解为例,给每一个内容打上标签,或者通过无监督学习的方式得到一个向量表达,这两种不同的形态实际上都有用处,标签在用户冷启动方面是能够发挥比较大的作用的,而向量化也可以作用于用户和内容的冷启动方面。

AB实验平台对于推荐算法工程师做策略迭代至关重要,如何设计一个好的实验及解读实验结果是否有显著性,这对推荐算法工程师而言是一件比较困难的事情,实验分析背后是需要统计学理论基础的,如何看置信度、P-Value等都是需要掌握的。

本书以一个多年在工业界从事推荐系统研发工作的算法工程师的视角详细介绍了推荐体系中的各个重要组成部分,在标签体系、用户画像、多模态内容理解的特点、优化效果的实践技巧等方面,以及其他介绍推荐系统的图书中容易略过的地方,都做了很细致的阐述,并结合具体的实战场景做了清晰的讲解。该如何评估推荐系统的好坏是一个具有挑战性的难题,分为很多流派,无论是只看在线消费指标,还是构建一个复杂的多层次指标矩阵,其取舍都是很困难的,这就需要与你所做的业务场景结合起来,跟产品或运营团队紧密配合。

标签抽取曾经在推荐算法的迭代历史上发挥过重要的作用,以其白盒化、容易控制、与运营领域知识好结合等特点被广泛采用。而随着深度学习技术的应用,单从指标优化上来看,标签似乎是一个过时的技术,但推荐冷启动仍然是每个工业级推荐系统都跨不过去的难点。基于用户标签的冷启动算法与E&E(探索与利用)策略或者与强化学习结合起来,可以在冷启动这个经典难题上取得非常不错的效果。

本书风格比较务实,非常适合希望学习推荐系统的工程师群体入门学习,也比较适合从事推荐系统研究工作的学者及学生了解工业级推荐系统的全貌,期待有更多优秀的技术人员能够推开智能化推荐系统的大门。


风笛,小红书技术VP


这就是推荐系统

核心技术原理与企业应用

前言

互联网及移动互联网的迅速发展颠覆了整个世界,层出不穷的互联网服务改变了人们获取信息的途径。为了提高信息的匹配效率,推荐系统应运而生,现在已经是互联网应用的标配。在移动互联网和互联网信息平台日益繁荣的今天,推荐系统发挥着无可替代的重要作用。就让我们顺应智能推荐的大趋势,去探索推荐技术的发展和变革吧!

本书的特色

推荐系统是一个以应用为主的领域,本书的初衷是让更多的人清晰、完整地了解推荐系统,以及各项推荐技术出现和演化的因与果。本书以从业者的视角,从推荐系统的整体框架技术出发,逐步深入各个核心技术模块和关键问题分支,介绍工业级推荐系统涉及的方方面面。

本书结合工业级推荐系统对功能模块及人员的组织分工,将推荐系统分为内容理解、用户画像、召回、粗排、精排和重排等核心模块。对于每个核心模块,阐述其在推荐系统中的作用和主流技术选型路线,详细介绍模块中的核心算法和策略,深入讨论各项技术被提出的原因和对应解决的问题。此外,本书还结合实际产品中的业务问题,给出了一些通用的优化策略和技巧。

本书的读者对象

本书的读者对象分为以下两类。

一类是互联网行业相关的从业人员,特别是推荐系统、计算广告、搜索领域的技术、产品或者运营人员等。对多数互联网公司来说,推荐系统是产品信息触达用户的主要途径之一。希望通过本书可以帮助读者熟悉推荐系统的全貌,厘清每个关键模块和核心技术,构建推荐业务的思维框架和知识体系,进而将这些内容融会贯通在实际的生产过程中。

另一类是包括高等院校人工智能、计算机技术、软件工程等专业的本科生、研究生及博士生,以及对个性化推荐、大数据应用感兴趣,希望进入推荐系统领域的爱好者等。本书尽量深入浅出,从整体出发再深入细节,介绍推荐系统技术的相关原理和应用方法,使读者可以从零开始构建实用的推荐系统知识体系。

本书的内容结构

本书的内容大体可以分为如下四个部分。

?? 第1部分(第1章):鸟瞰推荐系统全貌,阐述推荐系统的定义、价值及时代的红利,概览工业级推荐系统的整体结构和核心功能模块。

?? 第2部分(第2章至第6章):剖析推荐系统的核心模块。深入推荐系统中的内容理解、用户画像、召回、排序及重排模块内部,介绍每个核心模块的作用及关键技术应用。

?? 第3部分(第7章至第9章):讲解推荐系统中的其他关键技术和问题。介绍支撑推荐系统的特征工程、样本挖掘、推荐系统实效性、AB实验平台等技术;探讨推荐系统都会面临的冷启动问题和推荐偏差问题,并结合业务应用给出一些通用的解决方案。

?? 第4部分(第10章):追踪推荐系统中的前沿技术。探讨目前的一些热门前沿技术在推荐系统中的应用,包括强化学习、因果推断、端上智能、动态算力分配,以及ChatGPT时代推荐系统的未来等。

如何使用本书

本书并不要求读者必须具备深度学习或者机器学习的背景知识。对于没有相关知识背景的读者,可以通过阅读本书来了解推荐系统的全息全貌;对于有相关知识背景的读者,也可以针对学习和工作中的实际问题翻阅相应的章节,深入每个模块的技术细节。

对于推荐系统的初学者,建议从第1章开始按顺序阅读本书。对于有一定推荐领域经验的读者,可以直接翻阅感兴趣的章节进行阅读。由于篇幅限制,有些内容的背景知识或细节无法全面展开,感兴趣的读者可以查阅相应的参考文献。


目录

第1章 初识推荐系统

1.1 推荐系统大时代

1.1.1 推荐系统的定义

1.1.2 推荐系统的价值

1.1.3 推荐系统的天时地利

1.1.4 推荐系统架构概览

1.2 推荐系统的核心模块

1.2.1 内容理解:理解和刻画推荐内容

1.2.2 用户画像:理解和刻画用户

1.2.3 召回:为用户初筛内容

1.2.4 排序:为用户精选内容

1.2.5 重排:从业务角度进行内容调整

1.2.6 推荐系统质量评估体系

总结

第2章 多模态时代的内容理解

2.1 内容标签体系建设

2.1.1 标签体系的作用

2.1.2 标签体系设计和建设

2.1.3 标签提取或生成

2.2 文本内容理解

2.2.1 文本分类

2.2.2 文本标签提取

2.2.3 文本聚类

2.2.4 文本Embedding

2.2.5 知识图谱

2.3 多模态内容理解

2.3.1 图像分类

2.3.2 视频分类

2.3.3 视频多模态内容Embedding

2.4 内容理解在推荐系统中的应用

总结

第3章 比你更了解自己的用户画像

3.1 初识用户画像

3.1.1 什么是用户画像

3.1.2 用户画像的作用

3.1.3 用户画像系统架构

3.2 用户画像标签体系

3.2.1 用户基础属性标签

3.2.2 用户社交属性标签

3.2.3 用户行为属性标签

3.2.4 用户兴趣标签

3.2.5 用户分层标签

3.2.6 其他常用维度标签

3.3 用户画像标签开发

3.3.1 标签的基础数据

3.3.2 标签计算整体流程

3.3.3 规则类标签

3.3.4 统计类标签

3.3.5 模型类标签

3.4 用户画像实践案例

总结

第4章 包罗万象的召回环节

4.1 召回的基本逻辑和方法论

4.1.1 召回的重要性

4.1.2 召回与排序的区别

4.1.3 主要的召回策略与算法

4.2 传统召回策略

4.2.1 基于内容的召回

4.2.2 经典协同过滤召回

4.2.3 探索类召回

4.3 向量化模型召回

4.3.1 向量化模型召回原理

4.3.2 从KNN到ANN

4.3.3 经典向量化召回模型

4.4 基于用户行为序列的召回

4.4.1 SASRec——经典行为序列召回模型

4.4.2 BERT4Rec与BST——NLP技术与用户行为序列结合

4.4.3 MIND及其衍生——多兴趣召回模型

4.4.4 超长序列召回——建模用户全期兴趣

4.5 图Embedding在召回中的应用

4.5.1 图Embedding技术

4.5.2 DeepWalk——经典图Embedding方法

4.5.3 Node2Vec——DeepWalk更进一步

4.5.4 PinSAGE——GCN在推荐系统领域的工业化应用

4.5.5 MetaPath2Vec——异构图Embedding方法

4.6 前瞻性召回策略与模型

4.6.1 TDM——模型与索引结合的艺术

4.6.2 对比学习——样本的魔法

4.7 召回质量评估方法

4.7.1 召回评估方法概述

4.7.2 召回率、精确率、F1值——基准评估指标

4.7.3 HR、ARHR——TopN推荐评价指标

4.7.4 CG、DCG、NDCG——信息增益维度的评估指标

4.7.5 长尾覆盖评估

总结

第5章 投你所好的排序环节

5.1 排序环节的意义和优化方向

5.1.1 排序环节的意义

5.1.2 排序环节的优化方向

5.2 从Embedding看排序模型的演进

5.2.1 什么是Embedding

5.2.2 Embedding的产生过程

5.2.3 特征组合在深度排序模型中的应用

5.2.4 用户历史行为建模在深度排序模型中的应用

5.2.5 超大规模Embedding在实际中的应用

5.3 推荐系统粗排阶段及其发展历程

5.3.1 粗排定位与技术路线选择

5.3.2 粗排模型架构的演变

5.3.3 使用知识蒸馏增强粗排与精排的一致性

5.3.4 缓解样本选择偏差

5.3.5 粗排效果的评价

5.4 多目标排序建模

5.4.1 多目标排序建模的意义和挑战

5.4.2 多目标排序建模方法概览

5.4.3 多目标融合寻参

5.5 推荐系统排序阶段的评估

5.5.1 排序评估的两个阶段

5.5.2 常用的效果评估指标

5.5.3 常用的系统评估指标

5.5.4 离线和线上效果的一致性问题

总结

第6章 权衡再三重排序

6.1 重排序的必要性和作用

6.2 重排模型

6.2.1 重排模型建模的出发点

6.2.2 序列重排模型

6.2.3 基于强化学习的重排模型

6.3 重排多样性策略

6.3.1 重排多样性的出发点

6.3.2 多样性评估指标

6.3.3 规则多样性打散

6.3.4 多样性模型策略

6.4 重排中的业务规则

总结

第7章 如若初见冷启动

7.1 推荐冷启动的定义与挑战

7.2 冷启动一般解决思路

7.3 新用户推荐冷启动

7.3.1 新用户召回策略

7.3.2 新用户排序模型

7.3.3 新用户重排策略

7.4 新物品分发冷启动

7.4.1 新物品冷启动召回策略

7.4.2 新物品冷启动排序策略

7.4.3 新物品冷启动流量分配机制

总结

第8章 推荐系统中的魔术手

8.1 特征工程

8.1.1 特征的理解和分类

8.1.2 特征挖掘维度

8.1.3 工程视角下的特征工程开发

8.1.4 特征工程的流程和方法

8.2 样本加工艺术

8.2.1 如何提取有效样本

8.2.2 负样本优化

8.2.3 样本迁移

8.2.4 其他样本优化技巧

8.3 推荐系统实效性

8.3.1 推荐数据实效性

8.3.2 推荐模型实效性

8.3.3 在线学习整体机制

8.4 推荐中的偏差与消偏策略

8.4.1 推荐偏差的缘由

8.4.2 推荐系统常见偏差

8.4.3 常用的消偏技术和策略

总结

第9章 系统进化的利器——AB实验平台

9.1 什么是AB实验

9.2 AB实验平台框架

9.3 AB实验分流机制&实验类型

9.4 AB实验效果评估

9.4.1 推荐系统常见的AB指标

9.4.2 AB实验的假设检验

9.4.3 AB实验的流量大小

9.5 AB实验并不是万能的

总结

第10章 推荐系统中的前沿技术

10.1 强化学习

10.2 因果推断

10.3 端上智能

10.4 动态算力分配

10.5 增益模型

总结

后记


短评

g

2023-06-01 10:10:19

产品特色