猜你喜欢
机器学习中的统计思维(Python实现)

机器学习中的统计思维(Python实现)

书籍作者:董平 ISBN:9787302634010
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8240
创建日期:2024-04-22 发布日期:2024-04-22
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
下载地址
内容简介

机器学习是人工智能的核心,而统计思维则是机器学习方法的核心:从随机性中寻找规律性。例如,利用方差对不确定性的捕捉构造 k维树,采用贝叶斯公式构建分类决策模型,等等。只有树立正确的统计思维,才能准确高效地运用机器学习方法开展数据处理与分析。本书以统计思维的视角,揭示监督学习中回归和分类模型的核心思想,帮助读者构建理论体系。具体模型包括线性回归模型、K近邻模型、贝叶斯推断、逻辑回归模型、决策树模型、感知机模型、支持向量机、EM算法和提升方法。

本书共 12章,绪论介绍贯穿本书的两大思维模式,以及关于全书的阅读指南;第 1章介绍一些基本术语,并给出监督学习的流程;第 2章介绍关于回归问题的机器学习方法;第 3~9章介绍关于分类问题的机器学习方法;第 10章介绍可应用于具有隐变量模型的参数学习算法——EM算法;第 11章简单介绍集成学习,并重点阐述其中的提升(Boosting)

方法。为满足个性化学习需求的不同需求,本书从核心思想、方法流程及实际案例应用等不同角度,详细描述各种方法的原理和实用价值,非常适合数据科学、机器学习专业的本科生和研究生学习,也可供相关从业者参考。


作者简介

董平(博士),上海对外经贸大学统计与信息学院讲师。曾获概率论与数理统计理学博士学位(山东大学2018)、 理学学士学位和经济学学士学位(山东大学2012);美国迈阿密大学访问学者。主要研究领域为高维数据、假设检验、半监督回归、统计机器学习等。参与多项科研项目和工程类项目,主持多项校级课程建设项目,曾获第三届上海市高校教师教学创新大赛二等奖。


编辑推荐

本书从统计学的角度来理解机器学习模型的本质。

《机器学习中的统计思维(Python实现)》电子书免费下载

pdf下载 txt下载 epub下载 mobi下载 azw3下载

前言


前言

2018年,一位计算机专业的朋友自学机器学习内容,期间遇到诸多困难,尤其是关于概率与统计学方面的内容,这一现象让我开始关注统计学与机器学习这两个领域。李航老师的《统计学习方法》可以说是一本与统计学接轨最多的书籍,也让我萌生了与大家分享统计学与机器学习的想法。虽然机器学习的发展有其独特的发展历程,但是很多模型和算法的理论基础仍然来自于统计学。因此,我们需要从统计学的角度来理解机器学习模型的本质。

在朋友们的鼓励下,我决定以《统计学习方法》为蓝本,制作知识型视频。入驻 B站后,从最初寥寥的几十名粉丝,到几百名粉丝,再到现在的将近三万名粉丝。这些人中有一部分是学生,如刚毕业的高中生、本科生、硕士生和博士生;还有一部分是从业者,如高校教师、企业或公司的在职人员。大家志同道合、汇聚于此。与各位的互动交流让我加深了理解,开阔了视野,拓宽了思路。真诚地感谢各位小伙伴们长期以来的支持!是你们的支持让我有勇气继续录制视频并贯彻始终。

自古以来,学者们便一直在探寻万物本源,寻找真理。如今,人工智能已经成为科技领域的一大热点,机器学习更是其中最为核心的研究方向之一。在机器学习领域,很多人关注算法的实现和结果,却忽略了算法背后的理论基础。而在这一领域,概率和统计学是不可或缺的。希望本书的出版为展示机器学习背后的统计学原理提供绵薄之力。

为满足不同年龄和不同专业读者的需求,我们为大家贴心地准备了主体书与小册子。主体书以机器学习模型为主,每一章都清晰透彻地解析了模型原理,书中的每一页都设计了留白,方便读者批注;小册子用于查阅碎片化的知识点,便于读者随时复习需要的数学概念。书中不仅有机器学习的理论知识,还有故事和案例,希望各位读者在阅读本书的过程中能够感受到机器学习中统计思维的魅力,获得科学思维方法的启迪并具有独立的创新思辨能力。

最后,我要感谢清华大学出版社的杨迪娜编辑,是她让我有了写书的想法,将我积累多年的机器学习中的统计思维知识分享给读者,更感谢她为本书立项、编校与出版所付出的辛勤劳动,同时感谢清华大学出版社对本书的支持。感谢所有哔哩哔哩、机器学习中的统计思维 (Python实现)公众号和知乎上的粉丝对我的关注、留言、提问与批评。感谢来自天津大学的马晓慧帮助整理视频讲义。感谢家人带给我的灵感、快乐与温暖。限于本人水平,书中的缺点和不足之处在所难免,热忱欢迎各位读者批评指正。

董平

2023年 9月


目录


目录



绪论1


01本书讲什么,初衷是什么 1


02贯穿本书的两大思维模式 3


021提问的思维方式 3


022发散的思维方式 4


03这本书决定它还想要这样 5


031第一性原理 5


032奥卡姆剃刀原理 7


04如何使用本书 8


第 1章步入监督学习之旅 11


11机器学习从数据开始 11


12监督学习是什么 14


121基本术语 16


122学习过程如同一场科学推理 17


13如何评价模型的好坏 21


131评价模型的量化指标 21


132拟合能力 24


133泛化能力 24


14损失最小化思想 25


15怎样理解模型的性能:方差-偏差折中思想 27


16如何选择最优模型 28


161正则化:对模型复杂程度加以惩罚 28


162交叉验证:样本的多次重复利用 30


17本章小结 31


18习题 31


第 2章线性回归模型 33


21探寻线性回归模型 33


211诺贝尔奖中的线性回归模型 33


212回归模型的诞生 34


213线性回归模型结构 38


22最小二乘法 39


221回归模型用哪种损失:平方损失 40




机器学习中的统计思维 (Python实现)

222如何估计模型参数:最小二乘法 41


23线性回归模型的预测 44


231一元线性回归模型的预测 44


232多元线性回归模型的预测 48


24拓展部分:岭回归与套索回归 49


241岭回归 50


242套索回归 51


25案例分析——共享单车数据集 53


26本章小结 56


27习题 57



第 3章 K近邻模型 59


31邻友思想 59


32 K近邻算法 60


321聚合思想 60


322 K近邻模型的具体算法 61


323 K近邻算法的三要素 63


324 K近邻算法的可视化 67


33最近邻分类器的误差率 67


34 k维树 70


341 k维树的构建 70


342 k维树的搜索 73


35拓展部分:距离度量学习的 K近邻分类器 76


36案例分析——莺尾花数据集 79


37本章小结 83


38习题 83



第 4章贝叶斯推断 85


41贝叶斯思想 85


411什么是概率 86


412从概率到条件概率 91


413贝叶斯定理 93


42贝叶斯分类器 97


421贝叶斯分类 97


422朴素贝叶斯分类 98


43如何训练贝叶斯分类器 103


431极大似然估计:概率最大化思想 104


432贝叶斯估计:贝叶斯思想 111


44常用的朴素贝叶斯分类器115


441离散属性变量下的朴素贝叶斯分类器 115


442连续特征变量下的朴素贝叶斯分类器 115


45拓展部分 116


451半朴素贝叶斯116



目录



452贝叶斯网络 119


46案例分析——蘑菇数据集 122


47本章小结 124


48习题124


49阅读时间:贝叶斯思想的起源 125


第 5章逻辑回归模型 131


51一切始于逻辑函数131


511逻辑函数 131


512逻辑斯谛分布133


513逻辑回归 134


52逻辑回归模型的学习 136


521加权最小二乘法 136


522极大似然法 139


53逻辑回归模型的学习算法141


531梯度下降法 141


532牛顿法143


54拓展部分 144


541拓展 1:多分类逻辑回归模型 144


542拓展 2:非线性逻辑回归模型 147


55案例分析——离职数据集 147


56本章小结 149


57习题150


58阅读时间:牛顿法是牛顿提出的吗 150


第 6章最大熵模型 153


61问世间熵为何物 153


611热力学熵 153


612信息熵155


62最大熵思想156


621离散随机变量的分布156


622连续随机变量的分布160


63最大熵模型的学习问题 163


631最大熵模型的定义 163


632最大熵模型的原始问题与对偶问题167


633最大熵模型的学习 169


64模型学习的最优化算法 173


641最速梯度下降法 177


642拟牛顿法:DFP算法和 BFGS算法 178


643改进的迭代尺度法 179


65案例分析——汤圆小例子 183


66本章小结 185


67习题186





机器学习中的统计思维 (Python实现)

68阅读时间:奇妙的对数 187



第 7章决策树模型 191


71决策树中蕴含的基本思想191


711什么是决策树191


712决策树的基本思想 195


72决策树的特征选择195


721错分类误差 195


722基于熵的信息增益和信息增益比 196


723基尼不纯度 199


724比较错分类误差、信息熵和基尼不纯度 201


73决策树的生成算法201


731 ID3算法202


732 C45算法 205


733 CART算法205


74决策树的剪枝过程211


741预剪枝211


742后剪枝213


75拓展部分:随机森林 223


76案例分析——帕尔默企鹅数据集 223


77本章小结 226


78习题226


79阅读时间:经济学中的基尼指数227



第 8章感知机模型 231


81感知机制——从逻辑回归到感知机 231


82感知机的学习 233


83感知机的优化算法234


831原始形式算法235


832对偶形式算法239


84案例分析——莺尾花数据集 241


85本章小结 243


86习题243



第 9章支持向量机 245


91从感知机到支持向量机 245


92线性可分支持向量机 248


921线性可分支持向量机与最大间隔算法 248


922对偶问题与硬间隔算法 254


93线性支持向量机 258


931线性支持向量机的学习问题259


932对偶问题与软间隔算法 260


933线性支持向量机之合页损失263


94非线性支持向量机265



目录



941核变换的根本——核函数 266


942非线性可分支持向量机 277


943非线性支持向量机 278


95 SMO优化方法 279


951“失败的”坐标下降法 279


952“成功的”SMO算法280


96案例分析——电离层数据集 287


97本章小结 288


98习题289


第 10章 EM算法 291


101极大似然法与 EM算法 291


1011具有缺失数据的豆花小例子291


1012具有隐变量的硬币盲盒例子295


102 EM算法的迭代过程298


1021 EM算法中的两部曲 298


1022 EM算法的合理性 302


103 EM算法的应用 305


1031高斯混合模型305


1032隐马尔可夫模型 309


104本章小结 316


105习题 317


第 11章提升方法 319


111提升方法(Boosting)是一种集成学习方法319


1111什么是集成学习 319


1112强可学习与弱可学习321


112起步于 AdaBoost算法 323


1121两大内核:前向回归和可加模型 323


1122 AdaBoost的前向分步算法324


1123 AdaBoost分类算法 326


1124 AdaBoost分类算法的训练误差 333


113提升树和 GBDT算法 339


1131回归提升树 339


1132 GDBT算法 342


114拓展部分:XGBoost算法344


115案例分析——波士顿房价数据集 346


116本章小结 347


117习题 348


参考文献 349