猜你喜欢
机器学习的产业实践之路

机器学习的产业实践之路

书籍作者:毕然 ISBN:9787111726159
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:9764
创建日期:2024-04-06 发布日期:2024-04-06
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书是一本人工智能应用方法论的书,从技术原理、项目实践到商业战略再到实践课,逐层放开视野。第一部分首先围绕“机器为何学习”和“机器怎样学习”展开,树立机器学习的基本观念,认识大数据对机器学习和深度学习的价值,启发对产业应用的思考;然后聚焦机器学习和深度学习的技术原理和实践经验,详述“假设+目标+寻解”的学习框架,探讨模型如何变强,以及建模的实践经验。第二部分以电商促销策略中的模型、计算机视觉技术和视觉搜索,以及知识图谱和对话机器人为案例,展示从业务分析到系统建模的全过程,这是应用技术的项目级实践。第三部分站在行业和商业的视角审视技术,以应用技术为出发点,构建一个成功的商业模式,是应用技术的商业实践。第四部分的实践以数值预测、计算机视觉、自然语言处理领域的经典任务——房价预测、手写数字识别和语义相似度计算为例,结合产业应用案例,便于读者更深刻地体会本书介绍的方法论。
本书既有对技术原理的思考,也有对商业应用的总结;既有简洁的数学公式,也有有趣的哲学思考。本书不追求讲解机器学习原理的每个细节,而是通过系统化思考让读者轻松掌握机器学习的本质和应用方法论。

作者简介

毕然
专注于机器学习、人工智能、数据分析、商业战略等领域,出品过“大数据分析的道与术”“零基础实践深度学习”“机器学习的思考故事”“如何系统化地分析业务和战略”等系列课程,其中前2个课程著有同名书籍,本书为第3个课程的配套书籍。

编辑推荐
适读人群 :IT从业者

内容深入浅出,系统介绍机器学习理论知识:本书从大数据与机器学习的关系入手,深入浅出地介绍了机器学习的建模思想和经典算法。

内容涉及从技术到商业,更具实践性:本书以电商平台促销、图像检索、知识图谱和对话机器人为例,深度剖析了AI技术与这些业务结合的方法,让读者身临其境地感知AI技术对产业智能化升级的影响。

理论结合实践,代码简单易用:本书实践案例采用飞桨动态图编程,代码简洁易用,适合新手用户入门。

配套免费的AI Studio在线课程:内容源自在线课程“机器学习的思考故事”,由作者本人授课,包括30小时的视频课程和可在线运行的实训项目,目前已有超过2万人在线学习。

前言

前言
近年,随着人工智能技术的不断发展及普及,与其相关的各种观点和书籍不断涌现。作为一名多年从事人工智能研究及实践的行业工作者,我有很多朋友和客户来找我讨论,甚至争论各种问题。其中,有些人将人工智能看作解决未来一切问题的“万能钥匙”,而有些人则视人工智能为“空中楼阁”,认为它概念炒作大于实际意义。对此,我个人的看法是,人工智能确实是未来技术最重要的发展方向之一,随着其技术的不断发展与成熟,它也必将成为人类新的文明之光,深入社会、工作、生活的各个角落。但实事求是地讲,受各种客观条件制约,人工智能技术确实还有很多不尽如人意之处,其中如何与产业进行有效融合并获得预期的应用效果,已成为人工智能商业化落地的关键问题之一。目前,市面上有很多优秀的书籍针对这一问题开展了见仁见智的论述并给出了不少解决方案,我个人的研究是将其大致归为三类。
第一类是算法理论类书籍。这类书籍通常由学术巨擘执笔,专业又详尽地介绍算法原理。多数应用研发的从业者会感觉这类书阅读难度较高,且与关注的应用距离较远。
第二类是平台工具介绍类书籍。这类书籍中有大量的实践案例,甚至是源代码。这类书有“术”缺“道”,虽然可以帮助任务明确的工程师实现模型,但不能帮助他们分析业务并找到业务中的应用场景,从而准确拆解出建模问题。
第三类是产业发展综述类书籍。阅读此类书籍可以纵览大局,快速掌握人工智能在各个领域的激动人心的发展概况。然而宏观知识并不是实操的方法论,虽然能够激发读者投身人工智能浪潮的热情,但无法提供具体领域应用技术的方法论。
综上,解决人工智能的产业实践,既不缺宏观理念,也不缺实用工具和基础理论,唯独欠缺应用技术的方法论,即如何以人工智能技术为基础进行商业布局和业务创新。对于从事人工智能应用的企业,不能只有技术人员懂模型,业务人员和管理者也需要深入掌握人工智能,才能不断挖掘应用场景并高效完成实现方案。
我在工作中曾经遇到过不少这类企业案例:高管在认识到人工智能在各行业的发展前景后决定战略转型,但他们没有精力去设计业务的具体方案;一线研发工程师虽熟悉各种平台及工具,但无法设计业务的重构方案。而“承上启下”的企业中层,则承接了人工智能重构业务模式的设计重任,这包含了“从产业链的视角设计商业模式”“从业务流程的视角设计系统方案”以及“从整体系统的视角拆解建模任务”三个层面的工作。但可惜的是,总结人工智能应用方法论的图书在市面上凤毛麟角。正因为切身体会到人工智能应用的方法论和深度内容缺位,所以我决定通过自己这些年在人工智能领域的一些从业经历及所感所得,写一本人工智能应用方法论的书,希望这本书能够对企业客户,特别是企业的业务和技术中层有所帮助。
本书的第一个特点是通过深入浅出的叙述与读者进行沟通。虽然本书中也不乏一些基础原理和定义的介绍,但我更希望通过轻松的语言、简洁的数学公式和有趣的哲学思考,将我对技术原理的思考及对商业应用的总结向大家娓娓道来。
请原谅我的任性。在我动笔之前,很多朋友给了许多建议:

“你要写能让读者快速上手的案例,最好把代码贴出来,讲解平台工具的使用。”
“你要多讲最新的技术进展和项目实现,让做类似项目的读者可以参考。”
“你要多做宏观市场的展望,激励各行各业的读者加入人工智能的大潮。”

如果朋友们只是期望这些,本书可能要让大家失望了。我进行创作的动力来自所思所感所得。在周末的午后,泡一杯茶,静静地想,静静地写,仿佛整个世界都慢了下来。目标回归纯粹,把一件事情想通透的愉悦感,与更多人一起分享时的满足感,让人沉迷。如果作者只为了迎合市场而不享受过程,写出的文字也难以持久。朋友们的建议很好,的确也是市场迫切需要的。如何使用工具并不重要,重要的是理解原理和本质;技术和市场判断是否最新并不重要,重要的是永不过时的思考方法;激动人心的宏观展望并不重要,重要的是能谋划业务的应用方法论。
别失望,任性并不意味着本书不能成为畅销书。本书弥补了当前人工智能图书市场的空白,我在书中对市场需求的判断与朋友们不同。近些年,虽然人工智能技术发展得很快,但其在各行业应用落地的速度还没有达到预期,阻碍推广的关键在于应用方法论的缺失。
《道德经》开篇名句“名可名,非常名”的一种解释是“我们能够定义事物,但不能用一套永恒不变的概念来定义事物”。我深以为然。不要轻易给自己和自己的作品下定义,因为人类社会需要高度的分工协作,但不同人和组织之间存在极大的信息不对称。为了高效管理,人们给出各种定义和评判标准,用于快速构建人类对彼此的认知,但如果一个人将这些定义严丝合缝地套在自己头上,不敢越雷池一步,这是极其可悲的。在职业发展初期,严格符合职业定义的人会取得更快的发展,因为他的所有努力均符合职业的评判标准。但在职业发展后期,标准化的发展反而会造成瓶颈。经济学提醒我们,标准意味着供给充足,供给充足意味着价格低廉。高阶人才之所以稀少,是因为他们是具备多种能力的复合型人才,每个人都不一样。类似地,本书可能与市场上大部分人工智能图书不同,“体态”不那么“标准”。
本书的第二个特点是以角色转换的方式写思考,以激发读者独立思考的能力。从业多年,我深刻体会到独立思考能力对企业发展的重要性,原因在于只有独立思考才能避免人云亦云,才能发现被其他人忽视或遗漏的事物,而这是企业好战略的充要条件。什么才是好战略呢?我认为,好战略不是取得所有人的认同,而是执行后取得成功或预期效果,这才能证明好战略的超前性。正确的战略可以让公司在开展业务时事半功倍,就如大家常说的“方向远比努力重要,方向错了,停止便是进步”。在本书中,我希望把自己锻炼独立思考能力的经验分享给大家。培养独立思考能力不用特殊训练,在日常学习中就可以锻炼。例如,课本和论文已经告诉我们每个知识概念的含义,每个技术的实现方案,我们也可以“重造轮子”——站在知识和技术创造者的视角思考其当初的思考流程,以及是否有更好的总结方式。本书中一些知识点的讲解也采用了这种方式,即按照自己的理解和思考重新介绍一些传统概念,所以有些读者可能开始会不太适应本书的风格。但我个人的体会是,坚持这种学习新知识的方法有利于透彻地理解知识,并可以提高独立思考的能力。
本书的第三个特点是以故事或者案例为载体传递知识内核。我经常听一些朋友说,书上内容明明都看了,但总有一些知识点理解不到位,导致实际应用中出现各种问题。我通过观察发现,这可能与知识的表述方式有关。众所周知,为了保证科学知识的严谨性与高效性,大部分科学类论文或书籍都会使用大量专业术语和表达方式,这就给一些读者带来了一定的阅读难度。特别是在当下,如果期望将科研成果转化成产业应用,则需要各类职能人员的参与,如果这些非专业读者不能理解,又如何能高效地落地呢?因此,为了让更多行业非专业人士能在阅读本书的过程中有所收获,我决定以“故事”的形式阐述对技术原理的思考,希望通过这种更轻松易懂的语言和形式,分享与普及人工智能的实践经验。
阅读本书需要两类前置知识:一类是微积分、线性代数和概率论,有助于更好地理解技术原理部分;另外一类是经济学、心理学和商业战略,有助于在阅读后半部分的应用案例和产业思考时产生更多的共鸣。
本书分为四个部分,从原理与思考、应用与方法到商业与战略,再到工具与实践,逐层放开视野。

第一部分包括第1~4章。第1章围绕“机器为何能学习”和“机器是怎样学习的”这两个基本问题展开,树立机器学习的基本观念,并概述大数据对机器学习和深度学习的价值,以及有关产业应用的思考。
第2~4章聚焦机器学习和深度学习的技术原理和实践经验,包含如下三个主题,这部分是应用技术的内核(第一层)。第2章再度展开第1章讨论的“机器为何能学习”和“机器是怎样学习的”,详述“假设+目标+寻解”的学习框架,揭示模型过拟合和欠拟合的两难,探讨解决过拟合的正则化与校验等方法。第3章探讨如何构建强大的模型,包括非线性变换、多模型组合,以及神经网络和深度学习。第4章介绍机器学习的建模实践,即在基本原理之外,进行实际建模时绕不过去的外围工作,包括业务建模、样本处理、特征工程、模型评估四方面的内容。
第二部分包括第5~7章,借助三个业务背景完整的案例,展示从业务分析到系统建模的全过程,这部分是应用技术的项目级实践(第二层)。
第5章介绍电商平台促销策略中的模型,以及传统上以运营驱动的业务如何与模型深度结合来创新。建模的难度不仅体现在如何在各大比赛中实现“百尺竿头更进一步”的效果,更体现在如何在一种前所未见的业务环境下准确地挖掘和定义建模问题。第6章讲解计算机视觉及其应用产品的构建,澄清学术判断和工业实践的不同,展示技术选型的重要性,以及如何在不完美的技术现状下设计可用的产品。第7章以知识图谱和对话机器人为案例,介绍除深度学习之外的一些人工智能算法,并以时下热门的领域展示分析产业和判断趋势的方法。技术人员需要具备商业眼光和头脑,才能推动技术,改造行业。
成功的业务不仅需要模型,还需要全局思考,只有跳出技术,才能真正做好技术。
第三部分包括第8~10章,站在行业和商业的视角审视技术,以应用技术为出发点,构建一个成功的商业模式。这部分是应用技术的商业实践(第三层)。
人类社会前进的原始驱动力是科技进步,这也是多数商业创新的起源。第8章以区块链技术和应用为例,探讨认知新技术并布局业务的方法。以区块链为例,是为了让读者体会一下,对于一项尚不了解的新技术,应如何分析技术本质,乃至规划业务布局。第9章以医疗行业的业务逻辑和技术应用为例,探讨如何洞察行业中的应用场景,以及为技术应用找到研究商业模式的路径。第10章首先介绍从技术发展到商业的必备技能,包括对技术壁垒的认知和技术投资方法;最后,总结了人工智能的产业展望和技术应用方法。
第四部分包含第11章。机器学习是一门实践学科,为了避免“纸上得来终觉浅”,在本书最后一部分安排了4次实践课内容。第一次实践课以房价预测的数值预测任务为案例,使读者亲身体会模型的三要素:假设、目标和寻解。第二次实践课以手写数字识别的计算机视觉任务为案例,全面展示从一个基础版本模型,优化到理想版本模型的过程,以巩固这部分所学的理论知识。第三次实践课以语义相似度计算的自然语言处理任务为案例,认知深度学习模型的重要附属产物:向量表示。最后一次实践课会布置行业应用作业,并向读者展示许多往届学员的精彩成果,启发读者挖掘自己所处行业的应用场景。
我的第一本著作《大数据分析的道与术》出版后,一个不熟的朋友突然对我说:“读了你的书,好像与你一起经历了很多事,也逐渐熟悉了你。”这让我意识到写作可以使人摆脱孤独,认识更多的朋友,真好。
本书的创作历经近2年,近100个周末,在此特别感谢我的妻子的理解和支持,并细心地帮我完成了本书的初次编辑与校对。本书也赠给我的女儿彤彤,她的出生带给我无穷的欢乐和激励。
此外,我还要特别感谢飞桨的吴甜女士、马艳军博士和于佃海架构师在本书的创作过程中给予的指导,感谢飞桨教材编写组的安梦涛、张翰迪、汪庆辉、张亚娴等为本书贡献的简洁易用的实践代码,感谢吴蕾为本书进行细致的校对和沟通工作。此外还要感谢通过微信、邮件、培训等方式与我交流过的深度学习开发者和企业伙伴,与你们的每一次沟通和讨论都让我受益匪浅,并让我更坚信,中国的AI未来可期。
最后要特别感谢愿意通过本书与我结缘的每一位读者,纵使你我并不相识,但通过知识和思想的分享与交流,我们突破了时空的限制,成为志同道合的朋友。


谨以此书献给我最爱的家人们。
特别感谢妻子一如既往地鼓励和支持,以及女儿彤彤的出生给予我的巨大喜悦与快乐!

目录

前言

第一部分 原理与思考

第1章 机器学习与大数据 2

1.1 机器为何能学习 2

1.1.1 人类为何能学习 2

1.1.2 从个案学习到统计学习 3

1.1.3 统计学习是否可信 5

1.2 机器是怎样学习的 9

1.2.1 机器学习的框架:假设+目标+寻解 9

1.2.2 如何在机器学习场景中应用大数定律 14

1.2.3 大数据对机器学习的意义 17

1.2.4 小结 20

1.3 跨上人工智能的战车 20

1.3.1 大数据的概念及价值 20

1.3.2 企业为何要搭上人工智能的战车 24

1.3.3 企业如何搭上人工智能的战车 27

1.3.4 人工智能技术团队的建设 38

第2章 机器学习框架的深入探讨 40

2.1 机器为何能学习(续):故事结束了吗?我们需要更多的

  ??模型吗 40

2.1.1 牛顿第二定律的遗留问题 40

2.1.2 新的需求场景 43

2.1.3 不同的目标 49

2.1.4 不同的寻解 54

2.1.5 小结与回顾 60

2.2 重要权衡与过拟合 62

2.2.1 重要权衡的四张“面孔” 62

2.2.2 过拟合的成因和防控 68

2.2.3 小结与回顾 77

第3章 从线性函数到非线性函数,如何构建强大的模型 78

3.1 从线性函数到非线性函数 78

3.1.1 线性模型的不足 78

3.1.2 怎样扩展假设空间 79

3.2 核函数方法 82

3.2.1 正则化的另一种理解与SVM模型 82

3.2.2 核函数的思路 86

3.3 多模型组合的方法 88

3.3.1 组合模型的两个好处 88

3.3.2 实现组合模型的两个步骤和方法 89

3.3.3 装袋方式 91

3.3.4 提升方式 92

3.3.5 切分方式 93

3.3.6 小结 96

3.4 神经网络与深度学习 97

3.4.1 神经网络和深度学习的模型思路 97

3.4.2 组建神经网络 98

3.4.3 神经网络模型的优化 99

3.4.4 非线性变换函数的选择 102

3.4.5 神经网络结构的选择 104

3.4.6 深度学习得到发展的前提及其具备的优势 107

3.4.7 深度学习的重要衍生功能 111

第4章 机器学习的建模实践 122

4.1 业务建模 122

4.1.1 如何做好业务建模 122

4.1.2 案例:两个不同的排序模型 124

4.2 特征工程 128

4.2.1 特征工程的定义 128

4.2.2 信息可以存储在特征中,也可以存储在模型中 129

4.2.3 特征工程案例 131

4.2.4 特征的类型和维度 135

4.2.5 特征存在缺失或错误值时怎么办 137

4.2.6 特征降维和选择 137

4.3 样本处理 140

4.3.1 训练样本的基本概念 140

4.3.2 训练样本的常见问题及其解决方案 141

4.4 模型评估 151

4.4.1 业务目标的评估 151

4.4.2 模型目标的评估 155

4.5 小结 170

第二部分 应用与方法

第5章 电商平台促销策略模型 174

5.1 业务背景 174

5.1.1 互联网的盈利模式 174

5.1.2 广告定价机制 175

5.2 传统的促销方案 176

5.2.1 问题1:如何选择促销时机 177

5.2.2 问题2:如何为店铺制定广告消费任务 179

5.2.3 问题3:如何设置优惠定价模型 182

5.3 基于竞争传播的颠覆创新 190

5.3.1 颠覆创新的思考 190

5.3.2 竞争传播模型 192

5.3.3 种子集合筛选算法 197

5.4 小结 198

第6章 计算机视觉及其应用产品的构建 199

6.1 计算机视觉产品的问题背景 199

6.2 图像的特征表示 200

6.2.1 SIFT特征 201

6.2.2 CNN模型与特征 205

6.2.3 实现高速计算的方法:特征降维 221

6.3 视觉产品的构建案例 223

6.3.1 如何在海量数据中寻找匹配的图像 223

6.3.2 如何识别和理解图像中的实体信息 223

6.3.3 其他计算机视觉领域常见任务 233

6.4 计算机视觉应用的产业分析 236

6.4.1 计算机视觉在互联网行业的应用 237

6.4.2 计算机视觉在传统行业的应用 243

6.5 小结 245

第7章 知识图谱和对话机器人 248

7.1 知识图谱技术 248

7.1.1 两类信息 248

7.1.2 人工智能技术的发展历程 248

7.1.3 什么是知识图谱 250

7.1.4 知识图谱的应用场景 251

7.2 基于知识的人机交互 253

7.2.1 基于领域知识优化人机交互策略 253

7.2.2 领域知识的挖掘 257

7.3 对话机器人的产业分析与技术方案 266

7.3.1 技术流派与实现方案 266

7.3.2 技术应用两大方向 268

7.3.3 技术实现 276

7.3.4 应用MDP和Q-learning算法的案例 283

第三部分 商业与战略

第8章 认知新技术:区块链 290

8.1 从创造者的视角理解技术 290

8.1.1 货币的本质是什么 292

8.1.2 如何记账 293

8.1.3 如何保证账本的真实性 294

8.1.4 如何保证账本的安全性 294

8.1.5 如何实现分布式存储的数据同步 295

8.1.6 如何解决记账的动力 297

8.2 用抽象逻辑梳理应用场景 298

8.2.1 “链圈”应用的内在逻辑 298

8.2.2 区块链技术应用的案例 299

8.2.3 区块链技术应用的三个阻碍 303

8.2.4 “链圈”应用的总结 306

8.3 “币圈”应用思想的精要 306

8.3.1 为什么要发币 306

8.3.2 为何币会值钱 307

8.3.3 如何设计发币 309

8.4 从商业本质来制定战略 310

第9章 医疗行业的技术布局和应用思考 314

9.1 谋划行业中的技术应用 314

9.2 互联网医疗平台 315

9.2.1 多种医药流通业态逐渐融合 315

9.2.2 互联网医疗平台与商业保险的合作模式 316

9.3 医疗行业的技术应用分析 317

9.3.1 互联网应用 318

9.3.2 区块链应用 321

9.3.3 IT软件和云计算应用 326

9.3.4 人工智能应用 330

9.3.5 科技企业进入传统行业落地AI技术 336

9.4 思考技术在行业应用的方法论 338

第10章 从技术到商业的思考 340

10.1 主题回顾 340

10.2 从技术到商业的思维模式转变 341

10.3 新型壁垒:平台模式的解析 346

10.4 技术投资与采购的方法论 358

10.5 人工智能的产业展望 364

10.6 企业的组织能力: 《创新者的窘境》中的理论 370

10.7 人工智能应用领域的职业前景 372

第四部分 工具与实践

第11章 实践课 374

11.1 实践课1:基于深度学习框架飞桨完成房价

    预测任务 374

11.2 实践课2:手写数字识别 384

11.3 实践课3:词向量和语义相似度 388

11.4 实践课4:毕业设计 395


产品特色