书籍作者:齐伟 | ISBN:9787121428197 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:6454 |
创建日期:2023-03-21 | 发布日期:2023-03-21 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
《机器学习数学基础》系统地阐述机器学习的数学基础知识,但并非大学数学教材的翻版,而是以机器学习算法为依据,选取数学知识,并从应用的角度阐述各种数学定义、定理等,侧重于讲清楚它们的应用和实现方法。所以,《机器学习数学基础》这一书中将使用开发者喜欢的编程语言(Python)来实现各种数学计算,并阐述数学知识在机器学习算法中的应用体现。
齐伟,江湖名号老齐,已在代码世界耕耘多年,并先后出版了《跟老齐学Python:轻松入门》《跟老齐学Python:Django实战》《跟老齐学Python:数据分析》《Python大学实用教程》《数据准备和特征工程》等图书。
前言
现在,终于不单纯因为考试的需要而开始重视对数学的学习和研究了—是不是过于乐观。
机器学习的兴起,人工智能时代的到来,让数学显得尤其重要,无论是对于普通的工程技术人员,还是对于大众而言。
在机器学习或人工智能领域中,有各种算法、模型,犹如武侠们的各类功夫,江湖中的大侠往往以深厚的内功驱动某种招式,比如九阴真经、吸星大法、小无相功。那么,机器学习的“内功”是什么呢?答案不是吐纳运气之法,而是—数学。
那么“数学内功”需要修炼到什么程度才能研习机器学习呢?
以我的经验,研习机器学习所需要的最低数学基础,相当于大学理工科的高等数学(以下简称高数)内容。“早就还给老师了”——不少人如此感慨,也因此对机器学习望而却步。实则不然,只要当初正常地修完了所有课程(不妨以通过考试为标准),“高数内功”就已经被老师传授给你了,在有生之年是无法自行去除的。只不过,由于种种原因,它没有被激发出来罢了。
本书就是要帮助读者将已经被灌注在大脑里的“高数内功”激发出来——注意,不是重新“灌输”一遍。所以,本书所介绍的数学内容不是高数的翻版,而是默认读者已经将一些最基本的高数知识内化了。我只是根据个人经验,遴选与机器学习有关的内容,唤醒读者大脑中沉睡已久的“数学潜意识”,引导读者大胆地进入机器学习领域。
按照这样的目的,我对本书内容做了如下安排:
不将微积分的有关内容作为独立章节,因为这些内容在高数中是重点,所以相信读者已经对其有了基本的了解。但为了方便读者,在本书的附录和在线资料中,我们分别提供了有关微积分的基本知识。
以机器学习的直接需要为标准,选择基本的数学内容,从工程应用的角度给予介绍。一般的数学教材因聚焦于严谨的数学内容而忽略了工程应用,而一般的机器学习资料又缺乏相关的数学基础介绍—甚至有不少不合“数学之理”的地方,学习者看后仅“知其然”,但“不知其所以然”,甚至感到“茫然”。本书旨在帮助读者通过工程实践,打通数学基本概念和机器学习之间的壁垒。所以,在数学知识之后,读者会看到它们是如何在机器学习中应用的。
书中省略了一些严格的数学证明,这是本书不同于数学教材的重要方面,但这并不意味着数学证明不重要。如果读者对有关数学证明感兴趣,可以参阅本书提供的在线资料。
再次强调,不要将本书当作数学教材,本书不会面面俱到地介绍高数内容。
常规数学教材的结构,一般是先介绍概念、定理及其证明,然后讲解例题,以及适量的习题,书的最后会附上习题的参考答案。本书则不然。当你阅读的时候,会感觉本书更像一个有数学经验的人介绍他自己的心得体会。因此,这本书不会侧重于“解题”技能的训练,书中也会演示一些手工计算,但这么做的目的是帮助读者理解某些概念,更复杂的计算都会用编程语言实现——本书采用Python语言,但书中并不会介绍这种语言的使用方法,请读者自行解决编程语言问题(可参考“跟老齐学Python”系列图书)。
如果不进行拣选,那么针对机器学习的数学内容,不是一本书能够完全涵盖的,即使能,那也将是一本超级厚的书,不仅会增加读者的经济负担,而且更会让很多人半途而废。但考虑到不同读者有不同的需要,因此会在本书的在线资料中发布补充内容,包括但不限于:
某些定理、结论的证明
机器学习原理的数学推导
微积分有关内容(供不熟悉微积分的读者参考)
本书勘误和增删
其他补充资料
当读者阅读本书正文的时候,可能会感觉“不很数学”,或者“很不数学”,这其实也是我的写作目的,就如同前面所说,要将读者头脑中已有的“数学”激发起来,如果书中内容“很数学”,阅读起来就容易昏昏欲睡,适得其反。肯定有读者要看“很数学”的内容,为了满足这部分需要,在本书的在线资料中会专门提供。
在编写本书的过程中,我唯恐因知识浅薄、头脑愚钝,致使谬误流传,所以,读者在阅读时如发现谬误,请不吝赐教,不胜感激。
邀请您关注我的微信公众号:老齐教室,前面提到的在线资料会发布到这个微信公众号。
在本书编写过程中,我得到了很多人帮助。我的妻子帮助我翻译了不少国外资料,西交利物浦大学的Derek博士是本书很多内容的第一位读者。感谢本书的编辑,编审那些无聊的公式要比文字更痛苦。
最后,要郑重声明,本书内容,有的是个人理解和体会,有的借鉴了其他研究者的成果,在一般情况下我会说明所借鉴的资料来源。如果碰巧原创者看到了我所借鉴的内容且没有说明来源,请通过上述微信公众号联系我,在本书再印刷(希望能再次印刷)的时候会进行修改,并在本书在线资料中给予说明。
如果本书能在某种程度上激活潜藏于读者大脑中已久的数学知识,那么请感谢你的大学老师,是他们播下了智慧的种子;如果看完本书依然处于数学的懵懂之中,则建议利用本书在线资料。
齐伟
目录
第1章 向量和向量空间 1
1.1 向量 2
1.1.1 描述向量 3
1.1.2 向量的加法 10
1.1.3 向量的数量乘法 12
1.2 向量空间 14
1.2.1 什么是向量空间 14
1.2.2 线性组合 16
1.2.3 线性无关 17
1.2.4 子空间 23
1.3 基和维数 25
1.3.1 极大线性无关组 25
1.3.2 基 26
1.3.3 维数 32
1.4 内积空间 34
1.4.1 什么是内积空间 34
1.4.2 点积和欧几里得空间 36
1.5 距离和角度 38
1.5.1 距离 38
1.5.2 基于距离的分类 43
1.5.3 范数和正则化 46
1.5.4 角度 49
1.6 非欧几何 51
第2章 矩阵 54
2.1 基础知识 55
2.1.1 什么是矩阵 55
2.1.2 初等变换 59
2.1.3 矩阵加法 62
2.1.4 数量乘法 63
2.1.5 矩阵乘法 65
2.2 线性映射 70
2.2.1 理解什么是线性 70
2.2.2 线性映射 72
2.2.3 矩阵与线性映射 76
2.2.4 齐次坐标系 79
2.3 矩阵的逆和转置 85
2.3.1 逆矩阵 85
2.3.2 转置矩阵 89
2.3.3 矩阵LU分解 91
2.4 行列式 94
2.4.1 计算方法和意义 94
2.4.2 线性方程组 98
2.5 矩阵的秩 102
2.6 稀疏矩阵 107
2.6.1 生成稀疏矩阵 107
2.6.2 稀疏矩阵压缩 108
2.7 图与矩阵 112
2.7.1 图的基本概念 112
2.7.2 邻接矩阵 114
2.7.3 关联矩阵 119
2.7.4 拉普拉斯矩阵 120
第3章 特征值和特征向量 122
3.1 基本概念 123
3.1.1 定义 123
3.1.2 矩阵的迹 127
3.1.3 一般性质 128
3.2 应用示例 129
3.2.1 动力系统微分方程 129
3.2.2 马尔科夫矩阵 131
3.3 相似矩阵 135
3.3.1 相似变换 137
3.3.2 几何理解 141
3.3.3 对角化 144
3.4 正交和投影 150
3.4.1 正交集和标准正交基 150
3.4.2 正交矩阵 154
3.4.3 再探对称矩阵 156
3.4.4 投影 159
3.5 矩阵分解 163
3.5.1 QR分解 163
3.5.2 特征分解 167
3.5.3 奇异值分解 172
3.5.4 数据压缩 178
3.5.5 降噪 182
3.6 最小二乘法(1) 184
3.6.1 正规方程 184
3.6.2 线性回归(1) 186
第4章 向量分析 191
4.1 向量的代数运算 192
4.1.1 叉积 192
4.1.2 张量和外积 196
4.2 向量微分 199
4.2.1 函数及其导数 199
4.2.2 偏导数 201
4.2.3 梯度 206
4.2.4 矩阵导数 211
4.3 最优化方法 215
4.3.1 简单的线性规划 215
4.3.2 最小二乘法(2) 218
4.3.3 梯度下降法 221
4.3.4 线性回归(2) 226
4.3.5 牛顿法 228
4.4 反向传播算法 229
4.4.1 神经网络 230
4.4.2 参数学习 234
4.4.3 损失函数 248
4.4.4 激活函数 253
4.4.5 理论推导 258
第5章 概率 263
5.1 基本概念 264
5.1.1 试验和事件 264
5.1.2 理解概率 266
5.1.3 条件概率 269
5.2 贝叶斯定理 272
5.2.1 事件的独立性 273
5.2.2 全概率公式 274
5.2.3 理解贝叶斯定理 276
5.3 随机变量和概率分布 279
5.3.1 随机变量 279
5.3.2 离散型随机变量的分布 281
5.3.3 连续型随机变量的分布 295
5.3.4 多维随机变量及分布 307
5.3.5 条件概率分布 312
5.4 随机变量的和 317
5.4.1 离散型随机变量的和 317
5.4.2 连续型随机变量的和 318
5.5 随机变量的数字特征 321
5.5.1 数学期望 321
5.5.2 方差和协方差 326
5.5.3 计算相似度 337
5.5.4 协方差矩阵 343
第6章 数理统计 346
6.1 样本和抽样 347
6.1.1 总体和样本 347
6.1.2 统计量 348
6.2 点估计 353
6.2.1 最大似然估计 354
6.2.2 线性回归(3) 358
6.2.3 最大后验估计 362
6.2.4 估计的选择标准 365
6.3 区间估计 368
6.4 参数检验 373
6.4.1 基本概念 374
6.4.2 正态总体均值的假设检验 378
6.4.3 正态总体方差的假设检验 384
6.4.4 p值检验 385
6.4.5 用假设检验比较模型 388
6.5 非参数检验 391
6.5.1 拟合优度检验 391
6.5.2 列联表检验 394
第7章 信息与熵 399
7.1 度量信息 399
7.2 信息熵 402
7.3 联合熵和条件熵 406
7.4 相对熵和交叉熵 409
7.5 互信息 414
7.6 连续分布 416
附录 419
后记 436