书籍作者:王聪颖 | ISBN:9787111736547 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:2885 |
创建日期:2024-04-29 | 发布日期:2024-04-29 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
人工智能方兴未艾,机器学习算法作为实现人工智能最重要的技术之一,引起了无数相关从业者的兴趣。本书详细介绍了机器学习算法的理论基础和高级实践案例,理论部分介绍了机器学习项目体系搭建路径,包括业务场景拆解、特征工程、模型评估和选型、模型优化;实践部分介绍了业界常见的业务场景,包括计算广告、供需预测、智能营销、动态定价。随书附赠所有案例源码,获取方式见封底。
本书内容深入浅出,理论与实践相结合,帮助计算机专业应届毕业生、跨专业从业者、算法工程师等读者能够从零构建机器学习项目实现流程,快速掌握关键技术,迅速从小白成长为独当一面的算法工程师。
王聪颖,北京邮电大学计算机学院(国家示范性软件学院)硕士,现任滴滴国际化资深算法工程师,负责滴滴国际化增长、调度算法策略。曾供职于快手,顺丰,VMware等多家国内外知名科技公司,从0-1、1-10的参与设计并主导开发了多个机器学习算法赋能业务场景并显著提升业务效果的项目,曾获得Kaggle比赛银牌、铜牌。
谢志辉,得克萨斯大学奥斯汀分校博士, 在人工智能和机器学习领域有着深厚实践和理论经验。曾供职于滴滴出行和阿里巴巴等互联网平台,成功构建了工业级的分析和自动化的模型平台,对支持业务规模化和快速迭代起到了关键作用。作者也曾在美国雅虎公司桑尼维尔总部担任广告科学家, 从事雅虎全域展示广告和视频广告交易以及拍卖定价机制的相关研究,贡献数千万美元的卖方收益。进入工业界之前在伊利诺伊大学执教。作者在相关领域的国际会议和杂志上发表论文十多篇,申请中/已授权中美国专利二十多项。
全彩印刷,多位国内外知名学者也业内专家联合推荐
2023年初是人工智能爆发的里程碑式的重要阶段,在我完成本书的初稿时,正值以OpenAI研发的GPT为代表的大模型大行其道,NLP领域的ChatGPT模型火爆一时,引发了全民热议。而最新更新的GPT-4更是实现了大型多模态模型的飞跃式提升,它能够同时接受图像和文本的输入,并输出正确的文本回复。很多从事人工智能的同行一方面惊叹于GPT-4的优秀表现,另一方面也为自己的职业生涯隐隐担忧。如果说“大算力+强算法”的大模型是人工智能未来发展的趋势,那么传统的机器学习算法在真实的业务场景中还有用吗?会不会早晚被大模型取代?我认为不会。每个业务场景都有其独特性,优秀的算法工程师最难能可贵的地方在于对业务知识的透彻理解和长期沉淀。而业务知识就如同机器学习项目这棵大树的根,理论知识如同大树的多个枝干,算法应用如同枝干上的叶,只有根扎得够深,这棵大树才能够开枝散叶、开花结果。到目前为止,大模型对于瞬息万变、复杂多样的业务形态的理解、思考还达不到人类算法工程师的水平,即使有朝一日能够在大模型的基础上研发出各种不同业务场景的算法应用,也依然需要算法工程师具备强悍的业务能力和扎实的机器学习理论知识,来引导大模型对特定的业务场景进行有效学习。
身处人工智能爆发式增长时代的机器学习从业者无疑是幸运的,人工智能如何更好地融入人类生活的方方面面是这个时代要解决的重要问题。本书虽然没有涉及复杂模型知识和业务场景,但万变不离其宗,再复杂的模型都不是凭空捏造,而是由一个个简单的基础知识堆砌而成的。因此,希望读者在读完本书后,能够建立起机器学习算法扎实的基础和体系化的思维方式,快速掌握人工智能领域飞速迭代的新知识和新业务。
本书缘起2022年3月,机械工业出版社的李晓波编辑找到我,问我能不能出一本关于机器学习算法应用的书籍。这已经是我踏入互联网的第5个年头,其间参与设计并主导开发了多个机器学习算法赋能业务场景并显著提升业务效果的项目,也带过不少应届生和实习生。我发现很多新人在入行伊始,往往把高大上的模型理论背得滚瓜烂熟,而在真正应用时却摸不清门路、抓不住重点,导致好钢没用到刀刃上,无法取得实际的业务收益。如果能有一本指导新人从入门到精通、从理论到实践的技术书籍,那该多好,这样不仅省去了企业培养新人的成本,也留给了新人自我学习成长的空间。
本着这个初心,我花了将近一年的业余时间来复盘总结了自己以及身边同事从小白成长为独当一面的合格算法工程师的成长历程和项目经验,最终以理论结合实践的方式写入本书中,希望我有限的经验能够真正地帮助到对机器学习算法感兴趣的读者。
本书特色
本书最大的特色是理论与实践相结合,前5章介绍了机器学习算法的基础理论知识,除重点介绍典型的特征工程方法和基础机器学习模型之外,还归纳总结了业界构建机器学习项目过程中经常涉及的业务拆解方法、模型评估选型方法,以及常见的模型优化方法。读者在掌握了一定的机器学习理论基础之后,再结合第6章到第9章的实战案例进行实践。4个实战案例包含了业界常见的业务场景,手把手引导读者对业务场景进行深入理解,并结合公开数据集进行数据分析、特征挖掘、模型建设等。当读者真正地从头到尾理解了本书讲解的理论基础并进行了相应的实践后,便可以在学习机器学习算法上少走很多弯路。无论是理论部分还是实战部分,我都给出了相应的应用代码,读者可以边看书边实践,加深对理论知识的掌握。
机器学习高级实践:计算广告、供需预测、智能营销、动态定价本书整体结构
本书整体结构分两部分,第一部分是基础理论,围绕机器学习项目所需要的基础知识展开讲解;第二部分是实战案例,通过4个机器学习实战案例详解基础理论知识的实践过程。
本书读者对象
本书主要面对以下三类读者朋友:
1)计算机相关专业的应届毕业生。本书介绍了机器学习算法的基础理论知识和实战案例,能够有效地帮助计算机相关专业的应届毕业生快速掌握相关算法原理,同时结合实战案例对应届毕业生缺乏的算法实战能力进行了补充。
2)跨专业想要从事机器学习算法相关工作的读者。本书尽量用简单易懂的语言和直击本质的风格来讲解机器学习算法复杂的原理知识,帮助读者快速从零构建对机器学习算法的系统感知,同时提供业务案例帮助跨专业读者快速了解互联网常见的业务场景。
3)算法工程师。对于有一定经验的算法工程师来说,本书更像是一本手头工具书,它尽可能全面地涵盖了机器学习算法基础知识和常见业务场景的模型优化迭代路径,能够帮助有经验的算法工程师温故而知新。
致谢
写作并非易事,尤其是写一本科技类书籍,需要作者在专业领域有足够的广度和深度,我深知自身资历尚浅,因此几乎挤出了所有的业余时间进行整书构思、相关知识体系搭建、专业论文查阅等,中途几度因倍感艰难而想要放弃,但身边同事、朋友、老师、同行的鼓励和帮助支撑我最终完成了创作,在此特别感谢他们!
最后,我要感谢我的母亲,她在我成长的道路上给予了无限的鼓励、无条件的支持和无私的爱,我将本书献给她!
王聪颖
序一
序二
前言
第1章 机器学习/
1.1机器学习概述/
1.1.1机器学习发展历史/
1.1.2机器学习工作原理/
1.2机器学习典型工具箱/
1.2.1NumPy/
1.2.2Pandas/
1.2.3SciKit-Learn/
1.2.4TensorFlow/
1.3机器学习项目实现流程/
1.3.1业务场景拆解/
1.3.2构建特征工程/
1.3.3模型评估与选型/
1.3.4模型优化/
第2章 业务场景拆解/
2.1业务目标拆解/
2.1.1业务目标拆解方法/
2.1.2算法模型作用环节分析/
2.2项目方案制定/
2.2.1项目团队配置/
2.2.2机器学习项目方案制定/
第3章 特征工程/
3.1特征工程基础/
3.1.1特征工程的概念和意义/
3.1.2工业界特征工程应用/
3.2数据预处理/
3.2.1缺失值处理/
3.2.2异常值处理/
3.3数值变量处理/
3.3.1连续特征离散化/
3.3.2数值数据变换/
3.3.3特征缩放和归一化/
3.4类别变量处理/
3.4.1类别特征的编码方法/
3.4.2特征交叉/
3.5特征筛选/
3.5.1过滤式/
3.5.2包装法/
3.5.3嵌入法/
第4章 模型评估和模型选型/
4.1模型评估和模型选型概要/
4.1.1模型评估简介/
4.1.2模型选型简介/
4.2模型评估方法/
4.2.1留出法/
4.2.2K折交叉验证法/
4.2.3自助法/
4.3模型评估指标/
4.3.1分类问题评估指标/
4.3.2回归模型评估指标/
4.3.3结合业务场景选择评估指标/
4.4典型模型介绍/
4.4.1统计机器学习/
4.4.2深度学习/
4.4.3因果推断/
4.5模型选型技术/
4.5.1模型选型依据/
4.5.2偏差和方差/
4.5.3结合业务场景进行模型选型/
第5章 模型优化/
5.1数据集优化/
5.1.1数据采样/
5.1.2数据降维/
5.2目标函数优化/
5.2.1常见损失函数/
5.2.2正则化项/
5.2.3不平衡数据集下对损失函数的优化/
5.3模型结构优化——集成学习/
5.3.1Bagging/
5.3.2Boosting/
5.3.3Stacking/
5.4最优化算法/
5.4.1梯度下降法/
5.4.2牛顿法和拟牛顿法/
5.4.3Momentum/AdaGrad/RMSProp/Adam/
5.5模型参数优化/
5.5.1模型调参要素/
5.5.2网格搜索/
5.5.3随机搜索/
5.5.4贝叶斯优化/
第6章 计算广告:广告点击率预估/
6.1业务场景介绍/
6.1.1计算广告概述/
6.1.2计算广告核心算法/
6.2点击率预估场景下的特征挖掘/
6.2.1数据集介绍/
6.2.2数据分析/
6.2.3特征构建/
6.3常见的点击率预估模型/
6.3.1基线模型建设/
6.3.2DeepCrossing模型/
6.3.3Wide&Deep模型/
6.3.4Deep&Cross模型/
6.3.5DeepFM模型/
6.3.6AFM模型/
6.3.7DIN模型/
第7章 供需预测:“新零售”之供需时序建模/
7.1业务场景介绍/
7.1.1为什么需要供需预测/
7.1.2新零售场景下的供需预测/
7.2时序问题的数据分析和特征挖掘/
7.2.1数据集介绍/
7.2.2数据分析/
7.2.3特征构建/
7.3时序模型探索过程/
7.3.1传统时序模型——ARIMA/
7.3.2Prophet模型/
7.3.3树模型——LightGBM/
7.3.4深度学习模型——LSTM模型/
7.3.5深度学习模型——Transformer模型/
7.3.6深度学习模型——DeepAR模型/
第8章 智能营销:优惠券发放/
8.1业务场景介绍/
8.1.1智能营销的概念和架构/
8.1.2优惠券发放业务场景/
8.2智能营销场景下的特征挖掘/
8.2.1数据集介绍/
8.2.2用户侧特征挖掘/
8.2.3产品侧特征挖掘/
8.3智能营销建模流程/
8.3.1发给谁——人群分层模型(RFM、Uplift Model、ESMM)/
8.3.2发多少——LTV模型/
8.3.3怎么发——优惠券分发策略/
第9章 动态定价:交易市场价格动态调整/
9.1业务场景介绍/
9.1.1动态定价概述/
9.1.2常见动态定价业务场景/
9.1.3网约车场景下的交易市场业务/
9.2动态定价相关的特征挖掘/
9.2.1时空特征挖掘/
9.2.2用户特征挖掘/
9.2.3平台特征挖掘/
9.3动态定价模型/
9.3.1动态定价策略总览/
9.3.2用户行为预估模型/