书籍作者:[意] 朱塞佩·博纳科尔索 | ISBN:9787111645788 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:5231 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
与机器学习领域很多偏重于理论的书相比,本书在简明扼要地阐明基本原理的基础上,侧重于介绍如何在Python环境下使用机器学习方法库,并通过大量实例清晰形象地展示了不同场景下机器学习方法的应用。从这个角度来说,本书是一本使机器学习算法通过Python实现真正“落地”的书,而这无疑将给想要或致力于机器学习应用的读者带来方法理解和实现上的巨大裨益。
书中所有实例都是用Python编写,使用了scikit-learn机器学习框架、自然语言工具包(NLTK)、Crab、langdetect、Spark(PySpark)、Gensim、Keras和TensorFlow(深度学习框架)。这些程序适用于基于Linux、和Windows系统的Python 2.7和3.3+版本。
本书主要面向希望在预测分析和机器学习领域建立扎实基础的机器学习工程师、数据工程师和数据科学家。
朱塞佩·博纳科尔索(Giuseppe Bonaccorso)
一家大型跨国公司的数据科学主管。他拥有意大利卡塔尼亚大学电子工程专业工程学硕士学位,然后在意大利罗马第二大学、英国埃塞克斯大学深造过。在他的职业生涯中,担任过公共管理、军事、公用事业、医疗保健、诊断和广告等多个业务领域的IT工程师,使用Java、Python、Hadoop、Spark、Theano和TensorFlow等多种技术进行过项目开发与管理。他的主要研究兴趣包括人工智能、机器学习、深度学习、强化学习、数据科学等。
◆ 译者简介 ◆
罗娜
博士,副研究员,在华东理工大学信息科学工程学院任教。研究方向为机器学习算法及其在工业中的应用。作为项目负责人,先后承担了国家自然科学基金青年科学基金、上海市自然科学基金等多项课题的研究工作,并作为技术负责人承担了多项中石化科技攻关项目,发表相关学术论文20余篇,申请国家发明专利两项,登记软件著作权两项。
1)便于学习,所有的理论后都附有基于Python的具体实例;
2)版本新,适用Python3.5以上版本;
3)实例丰富,场景多样,配套代码完备。
◆译者序◆
作为一门多领域交叉学科,人工智能近年来引起了越来越多的关注,也日益广泛地应用于工业及日常生活中。作为未来能够真正意义上实现人工智能的方向之一,机器学习涵盖了大量包括概率、统计、代数、优化等在内的基础知识以及数量繁多的算法,形成了庞大的理论知识体系。对机器学习方法进行实现并封装,使得人们可以在了解基本理论的基础上,快速将机器学习的现有技术应用于所关注的领域。
Python作为一种解释型语言,简单易学,开发生态成熟,无论是初学者还是专业的程序员都可以方便地编写出所需要的程序。同时,Python可以轻松调用很多第三方库,这给程序的实现带来了很大的便捷性。基于此,Python拥有了庞大的用户群体以及繁荣的社区,这反过来也促进了Python的进一步发展。
与机器学习领域很多偏重于理论的图书相比,本书在简明扼要阐明基本原理的基础上,侧重于在Python环境下如何实现机器学习,并通过大量实例清晰形象地展示了不同场景下机器学习方法的应用。从这个角度来说,本书是一本使机器学习算法通过Python实现真正“落地”的书,而这无疑将给想要或致力于机器学习应用的读者带来理解和实现上的巨大裨益。
在本书翻译的过程中,感谢国家自然科学基金项目(61403140)对译者的资助,使我们在安心研究之余对本书所述内容有了更深的认识。感谢华东理工大学信息科学与工程学院的领导和老师创造的浓厚学术研究氛围。在本书的审阅过程中,感谢目前就职于上海壹账通金融科技有限公司的软件架构师崔冬所提出的建设性意见和建议。本书的成稿还要特别感谢机械工业出版社刘锋编辑周到细致的进度安排和高效率的工作。
限于译者水平,难免会对本书中部分内容的理解或中文语言表达存在不当之处,敬请读者批评指正,以便能够不断改进。
罗娜 汪文发
2019年9月23日于上海
◆ 前言◆
本书介绍了机器学习,一个不仅对于IT专业人员和分析师,而且对于所有想要利用如预测分析、分类、聚类和自然语言处理等强大技术的数据科学家和工程师都十分重要的领域。为便于学习,所有的理论后都附有基于Python的具体实例。
要想对该领域有基本而扎实的理解需要具备一定的数学基础,这不仅是解释算法所必需的,同时还能使读者理解如何通过调整超参数以获得尽可能高的精度。当然,本书不可能覆盖所有细节内容,因而对某些内容只进行了简单的描述,仅将理论用于结果解释。这样,用户能有更多的机会专注于没有过于复杂数学理论的基础内容,并可以通过文献来深入研究所有感兴趣的内容。
所有章节的阅读不需要按特定的顺序,可以随意跳过你已经知道的内容。必要时可以参考解释某些概念的章节。作者在此对本书中任何不准确或笔误的内容表示歉意,同时感谢所有Packt出版社编辑人员的合作和持续关注。
读者对象
本书适合那些希望在预测分析和机器学习领域建立扎实基础的机器学习工程师、数据工程师和数据科学家阅读。熟悉Python将是一个额外的优势,这将使你能够充分利用本书。
本书内容
第1章介绍了机器学习的世界,解释了创建智能应用程序涉及的最重要方法的基本概念,重点介绍了不同类型的学习方法。
第2章解释了关于常见机器学习问题的数学概念,包括可学习性的概念和信息论的内容。本章包含一些理论,但如果你从头开始学习本章内容,它将非常有用,因为其中深入介绍了大多数算法中使用的最重要的数学工具。
第3章描述了用于预处理数据集、选择信息量最大的特性和降低原始维度的重要技术。
第4章描述了线性回归算法及其优化方法,包括Ridge、Lasso和ElasticNet。本章还给出了更高级的模型,可用于解决非线性回归问题或减轻异常值的影响。
第5章介绍了线性分类的概念,重点介绍了逻辑回归、感知器、随机梯度下降算法和被动攻击算法。5.7节介绍了最重要的评价指标,这些指标用于衡量模型的性能并找到最优的超参数集。
第6章解释了贝叶斯概率理论并描述了广泛使用的朴素贝叶斯分类器的结构。在6.4节中,通过一些具体的例子分析了线性和二次判别。
第7章介绍了SVM算法,特别介绍了利用核技巧解决线性和非线性分类问题。本章的最后介绍了支持向量回归和更复杂的分类模型。
第8章解释了分层决策过程的概念,描述了决策树分类、随机森林、bootstrapped和袋装树以及投票分类器的概念。
第9章描述了高斯混合、k-NN算法和k-means算法。本章最后介绍了确定最优簇数和度量模型性能的不同方法。
第10章介绍了更复杂的聚类技术,包括DBSCAN、谱聚类和双聚类,这些方法可用于非凸数据集结构。10.3节介绍了两种在线聚类算法(mini-batch k-means聚类和BIRCH)。
第11章在上一章的基础上介绍更复杂的聚类算法,还介绍了凝聚聚类和树形图的概念。
第12章解释了推荐系统中最广泛使用的算法:基于内容和用户的策略、协同过滤和交替最小二乘法。一个基于Apache Spark的完整示例展示了如何使用交替最小二乘法处理非常大的数据集。
第13章解释了词袋策略的概念,并介绍了有效处理自然语言数据集所需的最重要的技术(标记、词干抽取、停止词删除、标注和向量化)。13.4节还讨论了基于Reuters数据集的分类器示例。
第14章介绍了主题建模的概念,并描述了最重要的算法,如潜在语义分析(确定性和概率性)和隐性狄利克雷分配。14.2节和14.3节分别介绍了词嵌入和情感分析的问题,阐述了解决这一问题的使用最广泛的方法。
第15章介绍了深度学习的内容,解释了神经网络和计算图的概念。15.2节以多层感知器的具体例子介绍了高级深度学习框架Keras。
第16章解释了最重要的深度学习层的基本功能,并以深度卷积网络和用于处理时间序列的循环网络(LSTM)的Keras示例来说明。16.4节简要介绍了TensorFlow框架,并通过一些示例来展示它的一些基本功能。
第17章解释了如何定义完整的机器学习管道,重点介绍了每个步骤的特性和缺点。
充分利用本书
为完全理解本书中的所有算法,需要掌握线性代数、概率论和微积分的基本知识。
所有实例都是用Python编写的,使用了scikit-learn机器学习框架、自然语言工具包(NLTK)、Crab、langdetect、Spark(PySpark)、Gensim、Keras和TensorFlow(深度学习框架)。这些程序适用于Linux、macOS X和Windows系统的Python 2.7及Python 3.3或以上版本。当特定框架用于特定任务时,将提供详细的说明和参考。第1~14章的所有示例都可以使用Python 2.7执行(而TensorFlow需要Python 3.5或以上版本)。但是,强烈建议读者使用Python 3.5或以上版本的发行版。数据科学和机器学习最常见的选择是Anaconda(https://www.anaconda.com/distribution/),它已经包含了所有最重要的软件包。
下载示例代码及彩色图像
本书的示例代码及所有截图和样图可以从http://www.packtpub.com通过个人账号下载,也可以访问华章图书官网http://www.hzbook.com,通过注册并登录个人账号下载。
约定使用
本书中使用了一些字体约定。
代码:表示文本中的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄。例如:“scikit-learn提供了SVC类,这种实现非常有效,可以在大多数情况下使用。”
代码段设置如下:
粗体:新术语和重要词汇以粗体显示。
警告或重要内容用此标识提示。
提示和技巧用此标识提示。
译者序
前言
第1章机器学习简介
1.1简介——经典机器和自适应的机器
1.1.1描述性分析
1.1.2预测性分析
1.2关于学习
1.2.1监督学习
1.2.2无监督学习
1.2.3半监督学习
1.2.4强化学习
1.2.5计算神经科学
1.3超越机器学习——深度学习和基于生物启发的适应系统
1.4机器学习和大数据
1.5本章小结
第2章机器学习的重要元素
2.1数据格式
2.2可学习性
2.2.1欠拟合和过拟合
2.2.2误差度量和成本函数
2.2.3PAC学习
2.3统计学习方法介绍
2.3.1最大后验概率学习
2.3.2最大似然学习
2.4类平衡
2.4.1可置换的重采样
2.4.2合成少数类过采样
2.5信息论的要素
2.5.1熵
2.5.2交叉熵和互信息
2.5.3两个概率分布的散度
2.6本章小结
第3章特征选择与特征工程
3.1scikit-learn的toy数据集
3.2创建训练集和测试集
3.3管理分类数据
3.4管理缺失特征
3.5数据缩放和归一化
3.6特征选择和过滤
3.7主成分分析
3.7.1非负矩阵分解
3.7.2稀疏PCA
3.7.3核PCA
3.8独立成分分析
3.9原子提取和字典学习
3.10使用t-SNE可视化高维数据集
3.11本章小结
第4章回归算法
4.1线性模型
4.2一个二维的例子
4.3基于scikit-learn的线性回归和更高维
4.3.1决定系数
4.3.2可解释方差
4.3.3回归的解析表达
4.4Ridge回归、Lasso回归和ElasticNet
4.4.1Ridge回归
4.4.2Lasso回归
4.4.3ElasticNet
4.5稳健回归
4.5.1随机抽样一致算法
4.5.2Huber回归
4.6贝叶斯回归
4.7多项式回归
4.8保序回归
4.9本章小结
第5章线性分类算法
5.1线性分类
5.2逻辑回归
5.3实现和优化
5.4随机梯度下降算法
5.5被动攻击算法
5.6通过网格搜索找到最优超参数
5.7评估分类的指标
5.7.1混淆矩阵
5.7.2精确率
5.7.3召回率
5.7.4F-Beta
5.7.5Kappa系数
5.7.6分类报告
5.7.7学习曲线
5.8ROC曲线
5.9本章小结
第6章朴素贝叶斯和判别分析
6.1贝叶斯定理
6.2朴素贝叶斯分类器
6.3scikit-learn中的朴素贝叶斯
6.3.1伯努利朴素贝叶斯
6.3.2多项式朴素贝叶斯
6.3.3高斯朴素贝叶斯
6.4判别分析
6.5本章小结
第7章支持向量机
7.1线性支持向量机
7.2scikit-learn实现
7.3基于内核的分类
7.3.1径向基函数
7.3.2多项式核
7.3.3Sigmoid核
7.3.4自定义核
7.3.5非线性例子
7.4受控支持向量机
7.5支持向量回归
7.6半监督支持向量机简介
7.7本章小结
第8章决策树和集成学习
8.1二元决策树
8.1.1二元决策
8.1.2不纯度的衡量
8.1.3特征重要度
8.2基于scikit-learn的决策树分类
8.3决策树回归
8.4集成学习简介
8.4.1随机森林
8.4.2AdaBoost
8.4.3梯度树提升
8.4.4投票分类器
8.5本章小结
第9章聚类原理
9.1聚类基础
9.2k-NN算法
9.3高斯混合
9.4k-means
9.5基于样本标记的评价方法
9.5.1同质性
9.5.2完整性
9.5.3修正兰德指数
9.6本章小结
第10章高级聚类
10.1DBSCAN
10.2谱聚类
10.3在线聚类
10.3.1mini-batch k-means
10.3.2BIRCH
10.4双聚类
10.5本章小结
第11章层次聚类
11.1分层策略
11.2凝聚聚类
11.2.1树形图
11.2.2scikit-learn中的凝聚聚类
11.2.3连接限制
11.3本章小结
第12章推荐系统介绍
12.1朴素的基于用户的系统
12.2基于内容的系统
12.3无模式(或基于内存的)协同过滤
12.4基于模型的协同过滤
12.4.1奇异值分解策略
12.4.2交替最小二乘法策略
12.4.3用Apache Spark MLlib实现交替最小二乘法策略
12.5本章小结
第13章自然语言处理简介
13.1NLTK和内置语料库
13.2词袋策略
13.2.1标记
13.2.2停止词的删除
13.2.3词干抽取
13.2.4向量化
13.3词性
13.4示例文本分类器
13.5本章小结
第14章NLP中的主题建模与情感分析
14.1主题建模
14.1.1隐性语义分析
14.1.2概率隐性语义分析
14.1.3隐性狄利克雷分配
14.2使用Gensim的Word2vec简介
14.3情感分析
14.4本章小结
第15章神经网络介绍
15.1深度学习简介
15.2基于Keras的MLP
15.3本章小结
第16章高级深度学习模型
16.1深层结构
16.2基于Keras的深度卷积网络示例
16.3基于Kears的LSTM网络示例
16.4TensorFlow简介
16.4.1梯度计算
16.4.2逻辑回归
16.4.3用多层感知器进行分类
16.4.4图像卷积
16.5本章小结
第17章创建机器学习架构
17.1机器学习框架
17.1.1数据收集
17.1.2归一化
17.1.3降维
17.1.4数据扩充
17.1.5数据转换
17.1.6建模、网格搜索和交叉验证
17.1.7可视化
17.1.8GPU支持
17.1.9分布式架构简介
17.2用于机器学习架构的scikit-learn工具
17.2.1管道
17.2.2特征联合
17.3本章小结
很经典的书。本书的内容非常的实用,里面有大量的程序代码可供学习。
2020-04-15 11:12:23
此书整体编排可以,但知识细节不足
2020-04-07 20:48:49