首页
IT
Python机器学习系统构建(原书第3版)
Python机器学习系统构建(原书第3版)
书籍作者:[葡] 路易斯·佩德罗·科埃略(Luis
ISBN:9787111669234
书籍语言:简体中文
连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3
下载次数:1199
创建日期:2021-10-07
发布日期:2021-10-07
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介
Python是一种非常通用的编程语言,得力于其广泛的工具库支持,常用于开发机器学习应用。 《Python机器学习系统构建(原书第3版)》涉及机器学习领域的一些新进展,通过对常用数据集的转换和工具库的介绍,帮助你构建实用的机器学习系统。 使用机器学习方法可以从数据的角度获得更深刻的洞察,这是现今应用程序开发者和分析人员需要的一项关键技能。Python作为一种动态语言,可用于快速探索和实验。 《Python机器学习系统构建(原书第3版)》展示了如何在原始数据中准确发掘出模式,首先回顾Python机器学习的基础知识,接着介绍相关的工具库。 通过《Python机器学习系统构建(原书第3版)》,你将获得新的工具,并理解构建机器学习系统所需的必要知识,以更好地解决现实数据分析问题。 通过《Python机器学习系统构建(原书第3版)》的学习,你将能够使用诸如分类、情感分析、计算机视觉、强化学习和神经网络等技术及方法构建机器学习系统。
作者简介
路易斯·佩德罗·科埃略(Luis Pedro Coelho),计算生物学家,专注于分析微生物群落DNA,并描绘其行为方式。博士毕业于卡内基·梅隆大学。曾出版多本科学书籍。早在2004年就开始使用Python进行开发工作,是多个开源工具库的开发者。他的主要研究方向是大规模数据集的处理与集成,以及应用机器学习技术分析生物标本影像。目前在复旦大学任教。 威力·里克特(Willi Richert),机器学习/机器人专业的博士,对异构机器人的学习和模仿颇有心得。目前在微软就职,他的研究方向涉及多个机器学习领域,如深度学习、主动学习和统计机器翻译。威力儿时就开始在Commodore128上用BASIC编程。后来又逐步了解了TurboPascal、Java、C++,直到最后发现他的真爱——Python。 马蒂厄·布鲁切尔(Matthieu Brucher),计算机科学家,擅长高性能计算和计算建模,目前就职于JPMorgan的量化研究小组。他也是AudioToolKit工具(一个实时音频信号处理的工具库)的主要开发者。他博士毕业于斯特拉斯堡大学,研究方向是机器学习和信号处理,并于巴黎第十一大学和法国高等电力大学取得两个理学硕士学位——一个是数字电路和信号处理方向,另一个是自动化方向。他还取得了巴斯斯巴大学的音乐学硕士学位。
编辑推荐
本书面向数据科学家、机器学习开发人员,以及想学习如何构建日趋复杂的机器学习系统的Python开发人员,详细讲解如何使用scikit-learn、TensorFlow等工具库构建高效的智能系统。
在无须编程的情况下,计算机系统通过机器学习也能进行学习。Python是一种非常通用的编程语言,得力于其广泛的工具库支持,常用于开发机器学习应用。本书涉及机器学习领域的一些新进展,通过对常用数据集的转换和工具库的介绍,帮助你构建实用的机器学习系统。
使用机器学习方法可以从数据的角度获得更深刻的洞察,这是现今应用程序开发者和分析人员需要的一项关键技能。Python作为一种动态语言,可用于快速探索和实验。本书向你展示了如何在原始数据中准确发掘出模式,书中首先回顾Python机器学习的基础知识,接着介绍相关的工具库。通过建模和创建推荐系统,你将快速掌握有关数据的真是项目。通过本书,你将获得新的工具,并理解构建机器学习系统所需的必要知识,以更好地解决现实数据分析问题。
前言
在机器学习的帮助下,无须对模型或系统进行明确的编程。通过本书,你将了解如何使用可用的最佳类库支持构建高效的智能系统,这些类库包括scikit-learn、TensorFlow等。
本书的读者对象
本书面向的是数据科学家、机器学习开发人员以及想学习构建日趋复杂的机器学习系统的Python开发人员。我们将使用Python的机器学习潜能开发有效的解决方案。读者需要提前了解一些关于Python的编程知识。
本书的主要内容
第1章介绍机器学习的基本思想和一个非常简单的TensorFlow示例。尽管这是个简单的示例,但我们还是会遇到过拟合的风险挑战。
第2章使用真实数据,通过训练计算机区分不同类型的花进行分类研究。
第3章解释如何使用回归算法处理数据,这一直是一个经典的讨论话题。你还可以了解高级的回归技术,如Lasso和ElasticNet。
第4章主要介绍如何使用logistic回归来确定某个问题的用户答案好还是不好,还将展示如何使用偏差-方差的平衡调试机器学习模型。
第5章研究有助于缩小数据量的其他现有方法,以便机器学习算法能够处理这些数据。
第6章展示将词袋模型方法运用在找到相似帖子的场景中的高适用度,而查找过程无须真正理解这些帖子。
第7章建立基于客户产品评级的推荐系统。我们还会看到不需要评级数据(用户不一定总会提供这些数据),如何从购物数据创建推荐机制。
第8章介绍相关的基本原理以及使用TensorFlow的CNN和RNN的示例。
第9章解释朴素贝叶斯的工作原理,以及如何使用朴素贝叶斯对tweet进行分类,以区分出这些tweet是积极情绪还是消极情绪。
第10章不仅将每一个帖子指定给一个单独的集群,还将帖子分配到多个主题中,同真实的文本可以涉及多个主题一样。
第11章设置一个场景。有人弄混了庞大且复杂的音乐收藏夹,我们希望构建某种规则,让机器学习者对这些歌曲进行分类。事实证明,通过信任他人的专业知识来创建自己的特征有时更好。本章还将介绍语音如何转为文本。
第12章介绍如何通过从数据中提取特征将分类应用于处理图像中的特定上下文。本章还会介绍如何修改这些方法以找到一个集合中的相似图像,以及使用TensorFlow的CNN和GAN的应用。
第13章涵盖有关Atari游戏的强化学习和深度Q网络的基本原理。
第14章研究利用多核或计算集群的优势来处理更大量数据的一些方法。本章还将介绍云计算(使用Amazon Web Services作为云提供商)。
充分利用本书
本书假定你了解Python,并且知道如何使用easy_install或pip安装模块库。读者无须了解任何高等数学理论,如微积分或矩阵代数。
本书使用的计算机语言版本如下,不过任何更新的版本都适用:
Python 3.5
NumPy 1.13.3
SciPy 1.0.0
scikit-learn的新版本
在我们代码包中的所有示例都可以在Jupyter notebook编辑器中打开(https://github.com/PacktPublishing/Building-Machine-Learning-Systems-with-Python-Third-edition)。
下载示例代码及彩色图像
本书的示例代码及所有截图和样图,可以从http://www.packtpub.com通过个人账号下载,也可以访问华章图书官网http://www.hzbook.com,通过注册并登录个人账号下载。
目录
前言
第1章 Python机器学习入门1
1.1 机器学习和Python—梦之队1
1.1.1 本书涵盖的和未涵盖的内容2
1.1.2 如何最好地阅读本书3
1.1.3 遇到困难怎么办4
1.1.4 入门指南5
1.1.5 机器学习基础10
1.1.6 第一个机器学习的小应用11
1.2 小结23
第2章 使用现实示例进行分类24
2.1 鸢尾花数据集24
2.1.1 可视化是一个很好的开始25
2.1.2 用scikit-learn分类25
2.1.3 建立我们的第一个分类模型26
2.2 评估—留出数据和交叉验证27
2.3 如何测量和比较分类器29
2.4 更复杂的数据集和最近邻分类器30
2.4.1 了解种子数据集30
2.4.2 特征和特征工程 31
2.4.3 最近邻分类31
2.4.4 查看决策边界32
2.5 使用哪个分类器35
2.6 小结35
第3章 回归37
3.1 用回归方法预测房价走势37
3.2 多维属性回归40
3.3 回归中的交叉验证41
3.3.1 惩罚化或正则化回归42
3.3.2 L1和L2惩罚项42
3.4 在scikit-learn中使用Lasso或 ElasticNet43
3.4.1 Lasso路径的可视化44
3.4.2 P-greater-than-N场景45
3.4.3 一个基于文本文档的例子45
3.4.4 主流的超参设置方法47
3.5 用TensorFlow实现回归50
3.6 小结54
第4章 分类Ⅰ—检测劣质答案55
4.1 本章概览55
4.2 学习分类优质答案56
4.2.1 数据实例调整56
4.2.2 分类器调优56
4.3 数据获取56
4.3.1 将数据转换为可用的数据块58
4.3.2 属性的预选择和处理58
4.3.3 定义什么是优质答案59
4.4 创建我们的第一个分类器60
4.4.1 特征工程60
4.4.2 训练分类器61
4.4.3 评价分类器的性能62
4.4.4 设计更多的特征62
4.5 如何改进性能65
4.5.1 偏置、方差和它们之间的平衡66
4.5.2 修复高偏置66
4.5.3 修复高方差66
4.5.4 高偏置还是低偏置67
4.6 使用logistic回归69
4.6.1 用一个小例子了解一些数学原理69
4.6.2 将logistic回归用于我们的帖子分类问题71
4.7 探索准确率背后的细节—精度和召回73
4.8 为分类器减负75
4.9 整合分类器76
4.10 用TensorFlow分类77
4.11 小结82
第5章 降维83
5.1 本章概览83
5.2 选择特征84
5.2.1 使用过滤器检测冗余特征84
5.2.2 使用包装法从模型中查询特征90
5.2.3 其他特征选择方法93
5.3 特征投影93
5.3.1 主成分分析93
5.3.2 PCA的局限性以及LDA如何提供帮助95
5.4 多维缩放96
5.5 用于降维的自动编码器或神经网络99
5.6 小结103
第6章 聚类—查找相关帖子105
6.1 测量帖子间的相关性 105
6.1.1 不应该这么做106
6.1.2 应该怎么做106
6.2 预处理—将测量的相似性作为常用词的相似数量107
6.2.1 将原始文本转换成词袋107
6.2.2 我们的成就和目标115
6.3 聚类116
6.3.1 K-means 116
6.3.2 获取测试数据以评估我们的想法119
6.3.3 聚类帖子120
6.4 解决最初的挑战120
6.5 调整参数123
6.6 小结123
第7章 推荐系统125
7.1 评级预测和推荐125
7.2 切分训练集和测试集127
7.3 训练数据归一化127
7.4 用最近邻方法实现推荐129
7.5 用回归方法实现推荐132
7.6 结合多种方法133
7.7 购物篮分析135
7.7.1 获得有用的预测结果136
7.7.2 分析超市购物篮137
7.8 关联规则挖掘140
7.9 小结141
第8章 人工神经网络与深度学习143
8.1 使用TensorFlow143
8.1.1 TensorFlow API 144
8.1.2 图144
8.1.3 会话145
8.1.4 有用的操作146
8.2 保存和还原神经网络147
8.2.1 训练神经网络149
8.2.2 卷积神经网络149
8.2.3 循环神经网络156
8.3 LSTM用于文本预测157
8.4 LSTM用于图像处理160
8.5 小结162
第9章 分类Ⅱ—情感分析163
9.1 本章概览163
9.2 获取Twitter数据163
9.3 介绍朴素贝叶斯分类器164
9.3.1 了解贝叶斯定理 164
9.3.2 简单化165
9.3.3 使用朴素贝叶斯进行分类166
9.3.4 对未曾出现的和奇怪的单词进行说明168
9.3.5 对算术下溢进行说明169
9.4 创建并优化第一个分类器171
9.4.1 首先解决容易的问题171
9.4.2 使用所有类173
9.4.3 调整分类器参数175
9.5 清理tweet179
9.6 考虑单词的类型180
9.6.1 确定单词类型181
9.6.2 使用SentiWordNet成功作弊182
9.6.3 我们的第一个评估器184
9.6.4 把所有东西放在一起186
9.7 小结187
第10章 主题建模188
10.1 隐含狄利克雷分配188
10.1.1 构建主题模型189
10.1.2 按主题比较文档 193
10.1.3 为整体维基百科建模195
10.1.4 选择主题数量197
10.2 小结198
第11章 分类III—音乐流派分类199
11.1 本章概览199
11.2 获取音乐数据199
11.3 观察音乐数据201
11.4 使用FFT构建第一个分类器204
11.4.1 增加实验灵活性204
11.4.2 训练分类器205
11.4.3 用混淆矩阵测试多类别问题的准确率207
11.4.4 另一种用接收者- 操作者特征测量分类性能的方法209
11.5 使用梅尔频率倒谱系数改善分类器性能212
11.6 用TensorFlow分类音乐215
11.7 小结220
第12章 计算机视觉222
12.1 图像处理简介222
12.1.1 加载和显示图像 223
短评
有很多干货,值得一读
2021-02-13 23:54:53