猜你喜欢
用户画像:平台构建与业务实践

用户画像:平台构建与业务实践

书籍作者:张型龙 ISBN:9787111731849
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:4513
创建日期:2024-04-29 发布日期:2024-04-29
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

内容简介
这是一本从功能模块、技术实现、平台构建、业务应用4个层次由浅入深地讲解用户画像的著作。作者在某头部互联网公司经历了其用户画像平台从0到1并发展为画像中台的全过程,打下了扎实的技术功底,积累了丰富的业务经验,本书从技术和业务双重维度对整个过程进行了复盘。
具体来讲,本书主要包含如下内容:
(1)画像的作用、业界主流的4种商用画像平台的核心功能和实现逻辑;
(2)画像平台的主要功能、画像平台的技术架构与技术选型、画像平台的数据模型;
(3)画像平台4大功能模块:标签管理、标签服务、分群功能、画像分析的实现方案;
(4)从0到1搭建用户画像平台,包括环境搭建和前、后端工程框架搭建;
(5)画像平台在用户的不同生命周期阶段和各种业务场景中如何为业务赋能;
(6)画像平台的优化和佳实践。
书中有200+设计图和原型图,可以帮助读者更加直观地了解平台的实现原理及功能形态。20+真实应用案例,技术方案和案例均来自真实的项目。本书提供可运行的代码,能帮助读者快速搭建并部署用户画像平台。

作者简介

张型龙

用户画像与用户增长领域的资深专家,同 时拥有近10年的服务端和大数据方面的开发经 验。目前从事用户画像平台建设及业务实践相关 的工作。 毕业后入职百度国际化产品部,主要从事服 务端研发工作,完成了海外消息服务、图片服务 的升级与优化,在服务端框架、分布式与高并发 方面积累了一定的经验。之后加入某头部互联网 公司,主要从事用户增长与用户画像相关工作。 在此期间从0到1搭建了公司的用户画像平台, 对画像业务和平台技术有了进一步的认识。随着 画像的数据量和用户量不断增加,增加和优化了 用户画像平台的功能,调整了用户画像平台的 架构,使之发展成为一个画像中台,在这个过程 中,掌握了画像平台架构以及超大规模数据量下 的画像实现方案,对于如何使用画像数据取得业 务价值也有了更深的认识。 此外,近几年在用户画像领域申请了多项专 利,在公司内及业界有一定的技术影响力。


编辑推荐
适读人群 :工作与用户画像相关的开发工程师、数据分析师、产品经理、运营经理、营销人员等

(1)作者背景资深:作者先后就职于多家头部互联网公司,从事用户增长与用户画像相关工作。
(2)作者经验丰富:从0到1搭建公司用户画像平台,并使其发展为画像中台。
(3)纯零基础入门:围绕画像平台的功能模块、技术实现、平台构建、业务应用层层深入,零基础读者也可以搭建画像平台并为业务赋能。
(4)解决业务难题:指导读者用画像数据解决用户增长、用户运营、电商卖货、内容推荐、风险控制5大类业务数据分析难题。
(5)大量佳实践:包含大量对画像平台进行优化的思考和佳实践。
(6)图表丰富,通俗易懂:200+给类设计图和原型图,大大降低读者的阅读难度,一看就懂,一学就会。
(7)源于真实项目:书中所有技术方案和应用案例全部来自于真实的实践项目。

前言

前  言
为何写作本书
我第一次接触用户画像是在某节数据挖掘课堂上。那时,我对用户画像只有一个概念上的认识。工作后,我接触到了画像平台,并在平台上查询了自己的画像信息。我发现查询结果非常准确,这让我对平台背后的画像技术产生了浓厚的兴趣。再后来,我有幸参与了画像平台的建设工作,并对用户画像有了更深入的了解。
我们所负责的产品的用户量不断增长,构建画像数据并搭建画像平台主要是为了解决以下两个问题。
清晰、明确地描述用户特点。针对每一款产品,我们需要了解用户来自哪些渠道、使用产品的行为特点以及为何离开产品等问题。机器学习虽然广泛地应用于各类业务中并取得了明显的成果,但是无法清晰、明确地描述用户特点并对用户群体进行统计分析,而画像平台可以借助标签数据回答上述问题。
提高分析效率,释放数据价值。虽然部门内有独立的数据分析师团队,但是面对大量的分析需求时人力也比较紧张。画像平台建设的目标之一是做好画像分析,提高分析师的工作效率并降低人力消耗,通过可视化的平台功能帮助普通用户进行自主分析,充分挖掘并释放数据价值。
作为研发工程师,我有幸参与了画像平台从0到1的构建过程并见证了平台的发展历程。首先,我们完成了画像平台基础功能建设,并顺利解决了上述两个问题。然后,我们根据业务需求不断完善画像平台功能,对人群圈选和画像分析完成了技术升级,使得服务质量得到了保障。最后,我们将画像平台作为基础服务,开始广泛地对部门及公司内其他业务提供通用画像服务,取得了不错的效果。在工作过程中,我学习并掌握了构建画像平台的主要流程与方法,对于算法和大数据等技术也有了更加深入的了解。
在对外提供画像服务的过程中,我对于画像的重要性以及使用方式也有了更加清晰的认识。画像是一种最简单的直接体现大数据价值的方式,画像数据在业务中的使用场景非常
广泛:
可以作为特征应用在算法中,提高算法的准召率。
可以作为分析维度应用在数据分析中,全方位、多角度地了解用户。
借助画像标签或者人群可以极大地提高运营效率,实现精细化运营。
在大数据时代,如何有效地挖掘数据价值并通过画像数据进行呈现,如何基于画像数据构建平台功能并提高业务产出,是值得各类公司和业务人员思考并付诸实践的事情。
出于对用户画像的兴趣以及工作经验,我萌生了写一本与画像平台相关图书的想法。写这本书的主要目的有三个。
通过画像释放大数据价值。大数据时代不缺少数据,而是缺乏挖掘数据价值的系统性方法,希望借助本书提高读者对画像的认识,引导各公司和业务人员从画像的角度更加充分地利用大数据资源并释放更多的数据价值。
介绍清楚画像平台是什么。通过本书将画像平台的构建过程以及赋能业务的方式讲清楚,帮助读者全面且深入地了解画像平台。参考书中内容,读者在构建画像平台和使用画像数据的过程中会更加有的放矢。
总结构建画像平台的经验,实现技术沉淀,并通过写书锻炼自己。我一直记得高中老师说过的一句话:“人活一辈子,应该给这个世界留下点什么。”希望我这些浅薄的经验和知识能够通过本书被记录下来。
本书主要内容
本书共9章,采用总—分—总结构,首先整体介绍什么是画像平台,然后分模块详细介绍画像平台的实现方案,最后从实践的角度介绍如何构建和使用画像平台。各章详细内容介绍如下。
第1章的重点是了解画像平台。首先介绍画像的基本概念及其重要性,并引出了画像平台的定位;然后介绍与画像平台紧密相关的OLAP(Online Analytical Processing,联机分析处
理)技术及其发展历程,为从技术角度更全面地认识画像平台奠定了理论基础;之后介绍4款业界主流的画像数据平台,通过功能截图和架构图描述了4款平台的核心功能与实现逻辑,让读者了解画像平台的发展现状;最后介绍在开发画像平台过程中涉及的各类岗位及主要分工。
第2章描述画像平台的主要功能、技术架构和数据模型。首先介绍画像平台的4个主要功能模块,并通过示意图介绍各模块的主要功能点;然后通过一张架构图展现画像平台的关键技术模块,并结合实践案例描述各模块的技术选型方案;最后介绍画像平台的核心—数据的3种常见组织模型。
第3章介绍标签生产及其管理功能的实现方案。首先介绍标签生产和管理功能技术架构,让读者对技术方案有个整体认识;然后介绍标签的主要分类方式并给出了一个具体的分类示例;之后详细介绍标签管理各功能模块的实现方案,涉及标签存储、标签生产和标签数据监控功能,并用一个具体工程实现案例进行详细分析;最后介绍标签管理功能涉及的各岗位的主要分工及注意事项。
第4章介绍标签服务的实现方案。首先介绍标签服务的整体架构;然后介绍标签查询服务实现方式,其中涉及标签数据灌入缓存、标签数据结构的选择以及标签数据处理过程;随后介绍标签元数据查询服务;之后介绍标签实时预测服务;最后介绍画像领域常见的ID-Mapping实现方案以及标签服务模块各岗位的主要分工及注意事项。
第5章介绍分群功能的实现方案。首先介绍分群功能的整体架构;然后介绍分群功能所依赖的底层画像宽表和BitMap的生成方案;之后介绍规则圈选、导入人群、组合人群、行为明细、人群Lookalike、挖掘人群等常见的人群创建方式及其工程实现逻辑;随后介绍如何对外输出人群数据以及常见的人群附加功能;接着重点介绍什么是人群判存以及实现人群判存服务的3种技术方案;最后介绍分群功能的岗位分工及主要注意事项。
第6章介绍画像分析的实现方案。首先介绍画像分析功能的整体架构,包含各主要功能模块及关键技术组件;然后介绍几种常见的人群画像分析方式,包括分布分析、指标分析、下钻分析、交叉分析等;之后介绍在规则圈选这一特定场景下,无须创建人群便可使用的人群即席分析能力;接着介绍几种常见的行为明细分析模型,以及几种常见的单用户分析功能;最后介绍画像分析中的岗位分工。
第7章介绍如何从0到1构建画像平台。首先介绍画像平台运行环境配置,包括基础准备、大数据环境搭建和存储引擎安装;然后介绍工程框架的搭建方法,重点介绍服务端工程和前端工程的搭建方法;最后介绍在本地运行开源代码的主要步骤。本章涉及的安装包和代码示例都已上传至开源平台,读者可自行下载使用。
第8章介绍画像平台应用与业务实践。首先通过一些实际应用案例介绍画像平台各核心功能模块可以支持的各类业务需求;然后从用户生命周期的角度说明画像在各阶段可以起到辅助作用;最后介绍用户画像在几个典型业务场景下的综合应用方式,这些业务覆盖了用户增长、用户运营、电商卖货和内容推荐等。
第9章总结画像平台建设过程中的一些优化思路和个人感悟。首先介绍任务模式的引入过程,并详细描述采用任务模式的原因以及主要收益;然后介绍人群圈选优化进阶的主要流程以及BitMap在画像平台各功能模块中的使用方案;之后展开介绍生成画像宽表的优化过程;接着延伸介绍如何构建一个类似神策的平台;最后给出一些常见的技术优化思路,并结合画像平台建设过程进行详细说明。
本书内容特色
1. 平台建设与业务思考
本书目的明确,就是要告诉读者如何实现一个功能完善的画像平台。书中首先整体介绍画像平台相关概念以及技术架构,然后深入介绍具体的功能模块实现逻辑,最后描述如何从0到1构建一个可运行的画像平台。
本书内容不局限于工程实现方案的介绍,还会兼顾业务思考和技术总结。研发人员往往局限于功能的实现而缺乏对业务的思考,这对职业发展不利。技术的应用最终都是服务于业务,那么了解业务必然是重中之重。本书会在很多章节中穿插描述一些对用户画像和平台功能的思考与总结,希望能引导研发人员在后续工作中加强对业务的思考。
书中也对画像平台的主要参与者进行了详细描述,其中包含数据工程师、算法工程师、研发工程师、产品经理以及运营人员,在部分章节中还介绍了各岗位的主要分工和注意事项。这些内容不仅可以促进各岗位深入思考业务特点,而且可以提高画像平台开发过程中的合作效率,提前规避业务风险。
2. 技术广度和深度
广度是扩展大家的认知范围。画像平台建设涉及的技术领域比较多,包括大数据处理、算法挖掘、分布式与高并发服务开发等。本书不局限于对某一门技术的介绍,而是尽量从全局的角度描述画像的发展现状、相关技术、平台整体架构及技术选型优缺点等。读者可以更清晰地了解画像平台的相关技术,知道自身业务处于什么位置,了解哪种技术类型更适合
自己。
深度是夯实大家的技术功底。画像平台各功能模块的实现方案都会落地到具体技术上面,书中会结合案例深入介绍部分技术的运行原理及其使用方式。对于人群圈选和画像宽表生成等核心功能,本书也有专门的章节详细介绍其优化方案,让读者由浅入深地了解平台优化
过程。
有了广度的认识和深度的研究,我们在开发画像平台时会更加得心应手。每个项目的业务背景和技术方案都不同,希望本书可以给读者带来一些启发并应用到自身的项目中。
3. 业界前沿技术
业界也有介绍画像平台的技术文章和书籍,但其中涉及的技术方案可能不适用于超大规模的数据场景或者无法满足复杂的业务需求。本书介绍的技术方案均来源于实际项目,项目中涉及百亿级的画像数据,产品功能包括标签管理、人群圈选和画像分析等。书中给出的画像平台技术方案不仅实用,而且具有一定的先进性。它在传统的大数据架构之上引入了近几年比较流行的OLAP引擎ClickHouse,其在画像平台部分功能上性能表现优异。书中还穿插介绍了一些前沿的技术和发展方向,希望能帮助读者了解画像平台相关技术的发展趋势。
4. 可运行的代码示例
本书不仅详尽地介绍了如何从0到1构建画像平台,包括大数据环境的配置以及工程搭建方案,而且给出了可运行的核心代码示例。书中涉及的安装包和代码也已经上传至开源平台

严格来说,画像平台是一个比较重要但比较小众的平台,涉及的技术领域较多且在大数据量下才能凸显价值,所以目前只有大公司或者数据服务厂商才会构建符合自身业务特点的画像平台。但是画像数据已经广泛应用到了各类业务中。比如:在使用DMP(Data Management Platform,数据管理平台)和CDP(Customer Data Platform,客户数据中台)系统时就涉及人群圈选和分析等功能;在客服和风控系统中查询用户基本信息可以归为画像查询范畴;通过问卷调研结果标注用户可以看作给用户设置画像标签数值;各业务数据监控报表中涉及群体用户的统计分析,这也可以归为人群画像分析范畴。基于画像平台建设和数据的使用现状,本书面向的读者对象按照相关性由近及远可以分为三类。

正在建设或者计划建设画像相关功能的人员。此类读者如果正在进行画像平台建设或者计划构建画像平台(或者说有类似功能的平台),可以通过本书对画像平台有更加全面的认识,辅助做好产品规划和技术选型。

对画像感兴趣的公司和个人。画像是一种简单且能直接体现大数据价值的方式,画像数据及相关平台功能建设肯定会被逐渐重视起来。对画像感兴趣的读者可以通过本书加深对画像数据及平台功能的了解和认识。

互联网从业人员。画像平台涉及的岗位较多,用到的技术也比较广泛。本书完整地呈现了画像平台的核心功能及技术实现方案,其中很多技术点和优化思路也适用于互联网其他业务领域。了解如何基于大数据构建完整的标签体系、如何保证标签质量、如何处理实时标签数据等,对数据工程师有一定的启发作用。画像平台中的标签查询、人群判存以及人群数据输出涉及分布式及高并发场景,了解如何保证服务高可用并不断提高系统性能对研发工程师有一定的借鉴价值。画像平台功能模块介绍、技术发展趋势、平台选型的优劣、相关技术的适用场景说明等,可以帮助产品经理更深入地了解大数据产品。了解画像平台基本运行原理,对运营人员更高效地使用标签和人群数据来提高运营效率也有一定的参考价值。

勘误和支持

画像平台建设需要各岗位的参与,每个岗位在其中都贡献了非常专业的技术知识。但是我个人能力有限,在书中某些业务场景和技术领域的描述上可能不够专业,存在一些疏漏和错误,希望读者朋友批评指正。如果对用户画像感兴趣,也欢迎随时找我沟通交流。

三人行必有我师,期待与大家交流学习。我的联系邮箱:[email protected]。

致谢

写这本书大概用了一年的时间。在这期间,陪伴家人的时间比较少。最终能够顺利成书,离不开家人一直以来的理解和支持。感谢父母、妻子和孩子!特别感谢我的好友周越、皇甫杨、张杰在百忙之中抽时间帮忙审读稿件,并提出了很多宝贵意见!

书中内容源于实际学习和工作经验总结,感谢一路上遇到的人和事,让这本书变得更加完善!因为我是第一次写书,所以在编写过程中遇到了很多问题,感谢机械工业出版社老师们给予的专业且耐心的指导,我在这个过程中也学到了很多知识。

每当回顾写书的历程时,总能感受到坚持的力量。一本书需要从每一个字、每一张图做起,不积跬步,无以至千里。感谢能够坚持到今天的自己,也希望借助写书这件事情给孩子树立一个榜样,做自己想做的事情且要持之以恒,最终必然会有收获!


目录

前 言

第1章 了解画像平台 1

1.1 画像基本概念 1

1.1.1 什么是画像 1

1.1.2 画像的重要性 2

1.1.3 画像平台定位 3

1.2 OLAP介绍 3

1.2.1 OLAP与OLTP对比 3

1.2.2 OLAP场景关键特征 4

1.2.3 OLAP的3种建模类型 5

1.2.4 OLAP相关技术发展历程 5

1.3 业界画像平台介绍 6

1.3.1 神策数据 7

1.3.2 火山引擎增长分析 10

1.3.3 GrowingIO 13

1.3.4 阿里云智能用户增长 16

1.4 画像平台涉及的岗位 18

1.4.1 数据工程师 18

1.4.2 算法工程师 18

1.4.3 研发工程师 18

1.4.4 产品经理 19

1.4.5 运营人员 19

1.5 本章小结 19

第2章 画像平台功能与架构 20

2.1 画像平台主要功能 20

2.1.1 标签管理 20

2.1.2 标签服务 24

2.1.3 分群功能 25

2.1.4 画像分析 28

2.2 画像平台技术架构 32

2.2.1 画像平台常见的技术架构 32

2.2.2 画像平台技术选型示例 33

2.2.3 业界画像功能技术选型 35

2.3 画像平台的3种数据模型 36

2.4 本章小结 38

第3章 标签管理 40

3.1 标签管理整体架构 40

3.2 标签分类 43

3.2.1 标签实体及ID类型 43

3.2.2 标签分类方式 44

3.3 标签管理功能实现 48

3.3.1 标签存储 48

3.3.2 标签生产 55

3.3.3 标签数据监控 67

3.3.4 工程实现 69

3.4 岗位分工介绍 70

3.5 本章小结 72

第4章 标签服务 73

4.1 标签服务整体架构 73

4.2 标签查询服务 74

4.2.1 标签查询服务介绍 74

4.2.2 标签数据灌入缓存 76

4.2.3 标签数据结构 79

4.2.4 标签数据处理 81

4.2.5 工程实现 83

4.3 标签元数据查询服务 85

4.3.1 标签元数据查询服务介绍 85

4.3.2 工程实现 87

4.4 标签实时预测服务 89

4.4.1 标签实时预测服务介绍 89

4.4.2 工程实现 90

4.5 ID-Mapping 93

4.6 岗位分工介绍 97

4.7 本章小结 98

第5章 分群功能 99

5.1 分群功能整体架构 99

5.2 基础数据准备 101

5.2.1 画像宽表 101

5.2.2 画像BitMap 108

5.3 人群创建方式 111

5.3.1 规则圈选 112

5.3.2 导入人群 119

5.3.3 组合人群 121

5.3.4 行为明细 123

5.3.5 人群Lookalike 125

5.3.6 挖掘人群 126

5.3.7 LBS人群 127

5.3.8 其他人群圈选 128

5.3.9 工程实现 131

5.4 人群数据对外输出 137

5.5 人群附加功能 138

5.5.1 人群预估 138

5.5.2 人群拆分 140

5.5.3 人群自动更新 141

5.5.4 人群下载 142

5.5.5 ID转换 143

5.6 人群判存服务 144

5.6.1 Redis方案 144

5.6.2 BitMap方案 147

5.6.3 基于规则的判存 149

5.7 岗位分工介绍 150

5.8 本章小结 152

第6章 画像分析 153

6.1 画像分析整体架构 153

6.2 人群画像分析 155

6.2.1 人群分布分析 155

6.2.2 人群指标分析 156

6.2.3 人群下钻分析 157

6.2.4 人群交叉分析 158

6.2.5 人群对比分析 158

6.2.6 工程实现 159

6.3 人群即席分析 165

6.3.1 分布分析与指标分析 166

6.3.2 下钻分析与交叉分析 167

6.3.3 人群画像预览 168

6.4 行为明细分析 169

6.4.1 明细统计 171

6.4.2 用户分析 173

6.4.3 流程转化 176

6.4.4 价值分析 179

6.4.5 工程实现 181

6.5 单用户分析 183

6.5.1 用户画像查询 184

6.5.2 用户关系数据分析 185

6.5.3 用户涨掉粉分析 190

6.5.4 用户内容流量分析 192

6.6 其他常见分析 193

6.6.1 业务分析看板 193

6.6.2 地域分析 195

6.6.3 人群投放分析 197

6.7 岗位分工介绍 199

6.8 本章小结 200

第7章 从0到1构建画像平台 201

7.1 基础准备 201

7.1.1 技术组件协作关系 201

7.1.2 基础环境准备 203

7.2 大数据环境搭建 206

7.2.1 Hadoop 207

7.2.2 Spark 210

7.2.3 Hive 212

7.2.4 ZooKeeper 215

7.2.5 DolphinScheduler 216

7.2.6 Flink 217

7.3 存储引擎安装 219

7.3.1 ClickHouse 219

7.3.2 Redis 221

7.3.3 MySQL 222

7.4 工程框架搭建 223

7.4.1 服务端工程搭建 223

7.4.2 前端工程搭建 237

7.5 运行开源代码 238

7.6 本章小结 240

第8章 画像平台应用与业务实践 241

8.1 画像平台常见应用案例 241

8.1.1 标签管理应用案例 241

8.1.2 标签服务应用案例 244

8.1.3 分群功能应用案例 245

8.1.4 画像分析应用案例 247

8.2 用户生命周期中画像的使用 248

8.2.1 用户生命周期的划分方式 249

8.2.2 引入期画像的使用 250

8.2.3 成长期画像的使用 251

8.2.4 成熟期画像的使用 252

8.2.5 休眠期画像的使用 253

8.2.6 流失期画像的使用 254

8.3 画像平台业务实践 255

8.3.1 用户增长 255

8.3.2 用户运营 259

8.3.3 电商卖货 263

8.3.4 内容推荐 266

8.3.5 风险控制 268

8.3.6 其他业务 271

8.4 本章小结 273

第9章 画像平台优化总结 274

9.1 任务模式 274

9.1.1 任务定义及执行模式 276

9.1.2 任务优先级及并发控制 277

9.1.3 父子任务拆分 277

9.1.4 任务异常检测与重试 278

9.1.5 便捷的横向拓展能力 279

9.2 人群创建优化进阶 279

9.2.1 人群圈选需求 279

9.2.2 简单直接的解决思路 280

9.2.3 将ClickHouse作为缓存 281

9.2.4 SQL优化 283

9.3 BitMap在画像平台中的

使用方案 286

9.3.1 BitMap基本原理 286

9.3.2 BitMap在人群圈选中的

使用方案 287

9.3.3 BitMap在分布分析中的

使用方案 289

9.3.4 BitMap在判存服务中的

使用方案 291

9.4 画像宽表生成优化 292

9.4.1 多表左连接 293

9.4.2 分组再合并 294

9.4.3 增加数据加载层 296

9.4.4 采用Bucket Join 297

9.5 ID编码映射方案 299

9.6 如何构建一个类似神策的平台 301

9.6.1 神策产品介绍 301

9.6.2 主要技术模块 302

9.7 平台技术优化思考 305

9.8 本章小结 307


产品特色