猜你喜欢
机器学习(从公理到算法)/中国计算机学会学术著作丛书

机器学习(从公理到算法)/中国计算机学会学术著作丛书

书籍作者:于剑 ISBN:9787302471363
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:3125
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

  这是一本基于公理研究学习算法的书。共17章,由两部分组成。第一部分是机器学习公理以及部分理论演绎,包括第1、2、6、8章,论述学习公理以及相应的聚类、分类理论。第二部分关注如何从公理推出经典学习算法,包括单类、多类和多源问题。第3~5章为单类问题,分别论述密度估计、回归和单类数据降维。第7、9~16章为多类问题,包括聚类、神经网络、K近邻、支持向量机、Logistic回归、贝叶斯分类、决策树、多类降维与升维等经典算法。最后第17章研究了多源数据学习问题。

  本书可以作为高等院校计算机、自动化、数学、统计学、人工智能及相关专业的研究生教材,也可以供机器学习的爱好者参考。


作者简介

于剑,北京交通大学计算机学院教授,博士生导师,交通数据分析与挖掘北京市重点实验室主任,先后获得北京大学数学专业本科、硕士、博士,中国人工智能学会机器学习专委会副主任,中国计算机学会人工智能与模式识别专委会秘书长,承担多项国家自然科学基金项目,发表多篇学术论文,包括TPAMI、CVPR 等。

编辑推荐

  机器学习是本次人工智能热潮的核心技术。引起轰动的应用如AlphaGo等,都可以看到机器学习的身影。目前,机器学习理论纷繁复杂,算法形式花样百出。人们一直在疑惑,机器学习,特别是其中的深度学习的本质到底是什么?

  作者积二十年研究之力,将各种学习理论融于一体,提出了五条学习公理,据此推导出了常见的学习算法,包括深度学习。如果想要知道机器学习的本质,快速理清各种学习算法之间的关系,本书是一条不容错过的终南捷径。


前言

  机器学习的主要目的是从有限的数据中学习到知识,而知识的基本单元是概念。借助于概念,人类可以在繁复的思想与多彩的世界之间建立起映射,指认各种对象,发现各种规律,表达各种想法,交流各种观念。一旦缺失相应的概念,人们将无法思考、交流,甚至无法顺利地生活、学习、工作、医疗、娱乐等。哲学家如卡西尔等甚至认为人类的本质特性是能够使用和创造各种符号概念。因此,如何使机器能够像人一样自动发现、运用概念,正是机器学习的基本研究内容。本书将集中讨论这个问题。

  所谓的概念发现,是指从一个给定概念(或者概念集合)的有限外延子集提取对应的概念(或者概念集合)表示,又称归类问题。通过自然进化,人类可以从一个概念(或概念集合)的有限外延子集(有限的对象)中轻松提取概念(或概念集合)自身。对于人类如何处理归类问题,人们已经研究了很多年,发明了许多理论,比如经典概念理论、原型理论、样例理论和知识理论等,积累了很多的研究成果。本书借助认知科学的研究成果,提出了类的统一表示数学模型,以及与之相关的归类问题的统一数学表示。由此提出了类表示公理、归类公理和分类测试公理。据此,本书分别研究了归类结果分类、归类算法分类等诸多问题。特别需要提出的是,本书首次归纳了归类算法设计应该遵循的4条准则——类一致性准则、类紧致性准则、类分离性准则和奥卡姆剃刀准则。在理论上,任何机器学习算法的目标函数设计都遵循上述4条准则的1条或者数条。

  对于具体的机器学习问题,本书依据奥卡姆剃刀准则,按照归类表示从简单到复杂的顺序,重新进行了组织。本书不仅论述了单类问题比多类问题的归类表示简单,聚类问题比分类问题的归类表示简单,单源数据学习比多源数据学习的归类表示简单,而且对于单类问题、多类问题自身的归类表示复杂度也进行了研究。在此基础上,指出单类问题包括密度估计、回归和单类数据降维等,并借助提出的公理框架以统一的方式演绎推出了在密度估计、回归、数据降维、聚类和分类等问题中常用的机器学习算法。

  本书中章节的组织结构都是类似的,特别是与具体学习算法有关的章节。每

  章有一个简短的开篇词。如果该章是学习算法章节,该开篇词用来简要说明本章算法的主要设计思想。如果该章是理论章节,该开篇词说明该理论问题的主要目标。每章结尾有延伸阅读或者讨论,延伸阅读提供更深入的相关阅读文献,讨论说明本章的相关内容与分析或者尚未解决的问题。

  作者讲授机器学习已十数年,有感于当前的机器学习算法理论依据过多过杂,同时也一直羡慕欧氏几何从五条公理出发导出所有结论的风格。撰写本书,既是将欧氏几何风格移植到机器学习的一个尝试,更是试图为机器学习与模式识别提供一个统一但又简单的理论视角。总之,机器学习公理化这个问题在本书中提出,也在本书中解决了。

  于剑2017年3月


目录

第1章引言1

11机器学习的目的:从数据到知识1

12机器学习的基本框架2

121数据集合与对象特性表示3

122学习判据4

123学习算法5

13机器学习思想简论5

延伸阅读7

习题8

参考文献9

第2章归类理论11

21类表示公理13

22归类公理17

23归类结果分类20

24归类方法设计准则22

241类一致性准则23

242类紧致性准则23

243类分离性准则25

244奥卡姆剃刀准则25

讨论27

延伸阅读29

习题30

参考文献31

第3章密度估计33

31密度估计的参数方法33

311最大似然估计33

312贝叶斯估计35

32密度估计的非参数方法39

321直方图39

322核密度估计39

323K近邻密度估计法40

延伸阅读40

习题41

参考文献41

第4章回归43

41线性回归43

42岭回归47

43Lasso回归48

讨论51

习题52

参考文献52

第5章单类数据降维53

51主成分分析54

52非负矩阵分解56

53字典学习与稀疏表示57

54局部线性嵌入59

55典型关联分析62

56多维度尺度分析与等距映射63

讨论65

习题66

参考文献66

第6章聚类理论69

61聚类问题表示及相关定义69

62聚类算法设计准则70

621类紧致性准则和聚类不等式70

622类分离性准则和重合类非稳定假设72

623类一致性准则和迭代型聚类算法73

63聚类有效性73

631外部方法73

632内蕴方法75

延伸阅读76

习题77

参考文献77

第7章聚类算法81

71样例理论:层次聚类算法81

72原型理论:点原型聚类算法83

721C均值算法84

722模糊C均值86

73基于密度估计的聚类算法88

731基于参数密度估计的聚类算法88

732基于无参数密度估计的聚类算法97

延伸阅读106

习题107

参考文献108

第8章分类理论111

81分类及相关定义111

82从归类理论到经典分类理论112

821PAC理论113

822统计机器学习理论115

83分类测试公理118

讨论119

习题119

参考文献120

第9章基于单类的分类算法:神经网络121

91分类问题的回归表示121

92人工神经网络122

921人工神经网络相关介绍122

922前馈神经网络124

93从参数密度估计到受限玻耳兹曼机129

94深度学习131

941自编码器132

942卷积神经网络132

讨论133

习题134

参考文献134

第10章K近邻分类模型137

101K近邻算法138

1011K近邻算法问题表示138

1012K近邻分类算法139

1013K近邻分类算法的理论错误率140

102距离加权最近邻算法141

103K近邻算法加速策略142

104kd树143

105K近邻算法中的参数问题144

延伸阅读145

习题145

参考文献145

第11章线性分类模型147

111判别函数和判别模型147

112线性判别函数148

113线性感知机算法151

1131感知机数据表示151

1132感知机算法的归类判据152

1133感知机分类算法153

114支持向量机156

1141线性可分支持向量机156

1142近似线性可分支持向量机159

1143多类分类问题162

讨论164

习题165

参考文献166

第12章对数线性分类模型167

121Softmax回归167

122Logistic回归170

讨论172

习题173

参考文献173

第13章贝叶斯决策175

131贝叶斯分类器175

132朴素贝叶斯分类176

1321最大似然估计178

1322贝叶斯估计181

133最小化风险分类183

134效用最大化分类185

讨论185

习题186

参考文献186

第14章决策树187

141决策树的类表示187

142信息增益与ID3算法192

143增益比率与C45算法194

144Gini指数与CART算法195

145决策树的剪枝196

讨论197

习题197

参考文献198

第15章多类数据降维199

151有监督特征选择模型199

1511过滤式特征选择200

1512包裹式特征选择201

1513嵌入式特征选择201

152有监督特征提取模型202

1521线性判别分析202

1522二分类线性判别分析问题202

1523二分类线性判别分析203

1524二分类线性判别分析优化算法205

1525多分类线性判别分析205

延伸阅读207

习题207

参考文献207

第16章多类数据升维:核方法209

161核方法209

162非线性支持向量机210

1621特征空间210

1622核函数210

1623常用核函数212

1624非线性支持向量机212

163多核方法213

讨论215

习题215

参考文献216

第17章多源数据学习217

171多源数据学习的分类217

172单类多源数据学习217

1721完整视角下的单类多源数据学习218

1722不完整视角下的单类多源数据学习220

173多类多源数据学习221

174多源数据学习中的基本假设222

讨论222

习题223

参考文献223

后记225

索引229


标签
机器学习