书籍作者:焦李成 | ISBN:9787302630715 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:9410 |
创建日期:2024-05-10 | 发布日期:2024-05-10 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书聚焦深度学习算法的基础理论和核心算法,全面系统地论述深度学习的基础理论,兼顾人工智能数学基础知识与领域最新原创基础理论,构建脉络清晰的人工智能理论体系。本书首先介绍了深度学习的相关数学基础,主要包括线性代数、概率论、信息论三部分;紧接着系统地介绍了深度学习的重点内容,主要分为五方面,即深度学习的逼近理论,深度学习的表征理论,深度学习的学习理论,深度学习的优化理论,深度学习的核心算法。
焦李成,欧洲科学院外籍院士,俄罗斯自然科学院外籍院士,IEEE Fellow。现任西安电子科技大学计算机科学与技术学部主任、人工智能研究院院长、智能感知与图像理解教育部重点实验室主任、教育部科技委学部委员、教育部人工智能科技创新专家组专家、首批入选国家百千万人才工程(第一二层次)、教育部长江学者计划创新团队负责人、“一带一路”人工智能创新联盟理事长,陕西省人工智能产业技术创新战略联盟理事长,中国人工智能学会第六-七届副理事长,IEEE/IET/CAAI/CAA/CIE/CCF Fellow,连续七年入选爱思唯尔高被引学者榜单。主要研究方向为智能感知与量子计算、图像理解与目标识别、深度学习与类脑计算。曾获国家自然科学奖二等奖、吴文俊人工智能杰出贡献奖、霍英东青年教师奖、全国模范教师称号、中国青年科技奖、及省部级一等奖以上科技奖励十余项。
我国科技部等五部门联合印发的《加强“从0到1”基础研究工作方案》 指出,新一轮科技革命和产业变革正蓬勃兴起,可望催生新的重大科学思想和科学理论,产生颠覆性技术。加强“从0到1”的基础研究,开辟新领域、提出新理论、发展新方法,取得重大开创性的原始创新成果,是国际科技竞争的制高点。
人工智能技术作为新一轮科技革命和产业变革的核心力量,是新时期我国创新发展、建设世界科技强国不可或缺的关键技术。目前,深度学习理论的快速进展有力地推动了下一代人工智能技术的研究与应用。本书聚焦深度学习算法的基础理论和核心算法,希望较为全面系统地论述深度学习的基础理论,为我国建立新一代人工智能基础理论和关键共性技术体系贡献绵薄之力,为实现“从0到1”提供理论支撑。
本书内容的组织和安排,更多的是基于作者的学习与理解。本书内容的取舍主要在于以下两点; 理论方面,兼顾人工智能数学基础知识与领域最新原创基础理论,构建脉络清晰的人工智能理论体系,为推动下一代人工智能、下一代深度学习的发展提供坚实的理论支撑; 核心技术方面,聚焦领域前沿,力争抽取出最关键、最普适的技术思想,提炼出简洁、可复用的知识模型,为发展更有力的新方法提供“源头活水”。
本书第1章首先介绍了深度学习的相关数学基础,主要包括线性代数、概率论、信息论三部分。紧接着系统地论述了深度学习的基础理论,主要包括五方面,即深度学习的逼近理论(第2~5章)、深度学习的表征理论(第6~9章)、深度学习的学习理论(第10~15章)、深度学习的优化理论(第16~19章)、深度学习的核心算法(第20~28章)。
第一部分,深度学习的逼近理论,包括第2~5章的内容。第2章介绍深度神经网络的逼近基础理论; 第3章论述深度神经网络的函数逼近; 第4章论述深度神经网络的复杂函数逼近理论,包括仿射系统的神经网络逼近、振荡纹理的多项式逼近和指数级逼近、Weierstrass函数的指数级逼近; 第5章论述深度神经网络与多尺度几何逼近系统,从傅里叶变换到多尺度几何变换,系统介绍了多尺度几何逼近的理论基础。
第二部分,深度学习的表征理论,包括第6~9章的内容。第6章论述深度特征网络的构造理论; 第7章论述学习表征编码器的构造理论; 第8章论述多尺度几何深度网络,包括小波神经网络、多小波网、散射网、CCNN等; 第9章讨论复数深度学习网络。
第三部分,深度学习的学习理论,包括第10~15章的内容。第10章论述拟合问题; 第11章论述正则化理论; 第12章论述泛化理论; 第13章论述学习可解释性; 第14章论述收敛性理论; 第15章主要讨论模型的复杂度。
第四部分,深度学习的优化理论,包括第16~19章的内容。第16章介绍深度学习算法优化中的一阶优化方法; 第17章介绍高阶优化方法; 第18章介绍启发式学习优化; 第19章介绍进化深度学习。
第五部分,深度学习的核心算法,包括第20~28章的内容。第20章论述深度学习算法中的离散优化; 第21章论述深度学习算法中非凸优化方法; 第22章论述非负矩阵深度学习分解; 第23章论述稀疏张量深度学习分解; 第24章论述线性方程组的深度学习求解; 第25章论述微分方程的深度学习求解; 第26章论述深度学习分类; 第27章论述深度学习聚类; 第28章论述深度学习回归。
本书的完成,离不开团队的努力和各位专家、老师的大力支持,同时也特别感谢团队博士生张若浛、赵嘉璇、王丹、董惠惠、张俊、杨育婷、高捷、陈洁、马梦茹、何佩、宋雪、游超、黄钟键、王锐楠等的辛苦付出。
本书相关研究工作得到了国家自然科学基金创新研究群体基金(61621005),国家自然科学基金重点项目(61836009),国家自然科学基金重大研究计划(91438201、91438103、91838303),国防科技173计划项目,国家自然科学基金(U1701267、62076192、61871310、61902298、61573267、61906150),教育部规划项目,教育部111引智计划(B07048),教育部长江学者创新研究团队计划(IRT 15R53),陕西省创新团队 (2020TD017),陕西省重点研发计划(2019ZDLGY0306)等项目的支持,清华大学出版社对本书的出版给予了大力支持,在此一并致谢。
最后,感谢国内外同行的关怀、帮助与指导。希望本书能为人工智能基础理论研究及其应用做一点基础性工作。由于作者水平所限及这一领域的快速发展,书中难免有不足之处,欢迎大家批评指正。
编著者
2023年6月
第1章数学基础
1.1线性代数
1.1.1向量及其运算
1.1.2矩阵及其运算
1.1.3矩阵分解
1.2概率论
1.2.1概率与随机变量
1.2.2期望、方差和协方差
1.2.3常见的概率分布
1.2.4共轭分布
1.3信息论
1.3.1熵的定义
1.3.2互信息
1.3.3交叉熵
1.3.4KullbackLeibler散度
参考文献
第2章深度神经网络的逼近基础理论
2.1函数的最佳平方逼近
2.1.1正交多项式的定义与性质
2.1.2常用的正交多项式
2.1.3构造正交多项式的一般方法
2.1.4最佳平方逼近的概念及计算
2.1.5用正交多项式做最佳平方逼近
2.2曲线拟合的最小二乘法
2.2.1最小二乘法
2.2.2用多项式作最小二乘曲线拟合
2.3三角多项式逼近与快速傅里叶变换
2.3.1最佳平方三角逼近与三角插值
2.3.2快速傅里叶变换
2.4多项式的万能逼近性质
2.5从函数逼近的角度解释神经网络
2.6本章小结
参考文献
第3章深度神经网络的函数逼近
3.1基本的ReLU网络定义
3.2乘法、多项式、光滑函数的逼近
3.2.1乘法函数的逼近
3.2.2多项式函数的逼近
3.2.3光滑函数的逼近
3.3正余弦函数的逼近
3.3.1余弦函数的逼近
3.3.2正弦函数的逼近
3.4神经网络的万能逼近性质和深度的必要性
3.5本章小结
附录
参考文献
第4章深度神经网络的复杂函数逼近
4.1神经网络的逼近
4.1.1KolmogorovDonoho数据率失真理论
4.1.2字典逼近
4.1.3神经网络的表示
4.1.4神经网络最佳M项逼近表示
4.1.5字典逼近转换为神经网络逼近
4.2仿射系统的神经网络逼近
4.2.1仿射系统的定义
4.2.2仿射系统对神经网络逼近的影响
4.2.3神经网络对仿射系统逼近证明
4.3振荡纹理
4.3.1振荡纹理的定义
4.3.2振荡纹理的多项式逼近
4.3.3振荡纹理的指数级逼近
4.4Weierstrass函数
4.4.1Weierstrass函数的定义
4.4.2Weierstrass函数的指数级逼近
4.5本章小结
参考文献
第5章深度神经网络与多尺度几何逼近系统
5.1小波分析与多尺度几何分析
5.1.1由傅里叶到小波分析理论
5.1.2Gabor系统的逼近
5.2多尺度几何分析的基础
5.2.1由小波到多尺度几何理论
5.2.2脊波变换
5.2.3曲波变换
5.2.4楔波变换
5.2.5小线变换
5.2.6条带波变换
5.2.7轮廓波变换
5.2.8剪切波变换
5.2.9梳状波变换
5.2.10方向波变换
5.3多尺度几何变换的逼近性质
5.4本章小结
参考文献
第6章深度特征网络的构造理论
6.1前馈神经网络构造理论
6.1.1前馈神经网络的结构
6.1.2前馈神经网络的前向传播
6.1.3前馈神经网络的误差反向传播算法
6.1.4前馈神经网络的梯度下降法
6.1.5常见前馈神经网络
6.2卷积神经网络构造理论
6.2.1卷积运算
6.2.2非线性激活层
6.2.3池化
6.2.4常见的距离度量方法
6.2.5常见的激活函数
6.2.6卷积神经网络的生物学启发
6.2.7卷积神经网络的发展
6.3递归神经网络
6.3.1循环神经网络
6.3.2深度循环网络
6.3.3递归神经网络
6.4图卷积网络
6.4.1图的基本定义
6.4.2图信号处理
6.4.3图上的滤波器
6.4.4图卷积网络
6.4.5图卷积网络的过度平滑问题
6.4.6图小波神经网络
6.5自组织网络构造理论
6.5.1自注意力模型
6.5.2多头自注意力模型
6.5.3Transformer模型
6.5.4稀疏自注意力机制
6.5.5结合卷积的自注意力机制
6.5.6强化自注意力模型
6.5.7结合先验的自注意力机制
6.6本章小结
参考文献
第7章学习表征编码器的构造理论
7.1自编码器
7.1.1欠完备自编码器
7.1.2正则自编码器
7.1.3稀疏自编码器
7.1.4去噪自编码器
7.1.5卷积自编码器
7.2线性编码器
7.2.1概率PCA
7.2.2独立成分分析
7.2.3慢特征分析
7.2.4稀疏编码
7.3生成模型
7.3.1玻耳兹曼机
7.3.2生成随机网络
7.3.3生成对抗网络
7.4变分推断
7.5部分整体层次结构
7.6因果推理
7.6.1从相关性到因果关系
7.6.2预测和因果推理的区别
7.6.3因果推理的表示方式
7.7本章小结
参考文献
第8章多尺度几何深度网络理论
8.1小波神经网络
8.2多小波网
8.3散射网
8.4深度散射网
8.5深度曲线波散射网
8.6轮廓波卷积神经网络
8.7本章小结
参考文献
第9章复数深度学习网络
9.1复数深度神经网络的相关概念
9.1.1复数值的表征
9.1.2复数卷积
9.1.3复数可微性
9.1.4复数激活
9.1.5复数批归一化
9.1.6复数权重初始化
9.2复数卷积神经网络
9.2.1数学计算过程
9.2.2网络结构
9.3复数轮廓波网络
9.3.1原理描述
9.3.2数学计算过程
9.3.3网络参数
9.4半监督复数GAN
9.5复数Transformer网络
9.6本章小结
参考文献
第10章拟合问题
10.1拟合方法介绍
10.1.1线性回归
10.1.2复杂函数拟合
10.1.3通用逼近定理
10.2拟合数据划分
10.2.1留出法
10.2.2交叉验证法
10.2.3自助法
10.3拟合能力度量
10.3.1错误率和精度
10.3.2精准率和召回率
10.3.3精准率召回率曲线
10.3.4F1度量与交并比
10.3.5受试者工作特征曲线
10.3.6曲线下的面积与平均精度
10.3.7代价敏感错误率与代价曲线
10.3.8欠拟合与过拟合
10.4计算复杂度
10.4.1计算复杂性理论基本问题
10.4.2判定问题类
10.5本章小结
参考文献
第11章正则化理论
11.1常用范数特性
11.2正则化理论
11.2.1良态问题
11.2.2Tikhonov正则化定义
11.2.3Tikhonov正则化近似解求解
11.2.4L曲线准则
11.3正则化方法
11.3.1参数范数惩罚
11.3.2权重衰减
11.3.3噪声注入
11.3.4数据增强
11.3.5多任务学习
11.3.6提前终止
11.3.7Dropout
11.3.8Drop Connect
11.3.9SelfNorm与CrossNorm
11.4本章小结
参考文献
第12章泛化理论
12.1泛化的定义
12.2泛化理论
12.2.1机器学习的泛化理论
12.2.2基于模型复杂度的泛化理论
12.2.3基于信息论的泛化理论
12.2.4基于随机梯度下降算法的泛化理论
12.2.5基于损失曲面几何结构的泛化理论
12.2.6基于傅里叶分析的泛化理论
12.2.7基于未标记数据的泛化理论
12.3泛化方法
12.3.1数据处理
12.3.2特征表示
12.3.3训练策略
12.3.4学习方法
12.4本章小结
参考文献
第13章学习可解释性
13.1深度学习的可解释性基本概念
13.1.1可解释性的概念
13.1.2研究可解释性的必要性
13.2深度学习的可解释性分类方法
13.2.1学习深度过程的可解释性方法
13.2.2学习深度网络表示的可解释性方法
13.2.3学习深度系统自身可解释的生成方法
13.2.4其他类别方法
13.3深度卷积框架的可解释性
13.3.1卷积的Hankel矩阵表示
13.3.2Hankel矩阵分解和卷积框架
13.3.3深度卷积框架进行多分辨率分析
13.4本章小结
参考文献
第14章收敛性理论
14.1收敛问题
14.1.1收敛问题定义
14.1.2收敛与一致收敛之间的差异
14.2单隐藏层神经网络的收敛性
14.2.1基本假设与判定指标
14.2.2基于SGD算法的收敛性
14.2.3基于自适应梯度算法的收敛性
14.2.4基于动量自适应算法的收敛性
14.3非线性神经网络的收敛性
14.3.1基本假设与判定指标
14.3.2基于SGD算法的收敛性
14.3.3基于自适应梯度算法的收敛性
14.4深度神经网络的收敛性
14.4.1深度线性神经网络的收敛性
14.4.2深度非线性神经网络的收敛性
14.5本章小结
参考文献
第15章学习模型的复杂度
15.1复杂度的基本概念
15.2与动态训练无关
15.2.1VC维及其扩展
15.2.2表达能力
15.3与动态训练相关
15.3.1Rademacher复杂度
15.3.2表达能力
15.3.3有效复杂度
15.4表达能力与有效复杂度
15.5本章小结
参考文献
第16章一阶优化方法
16.1导数和梯度
16.2梯度下降算法
16.2.1批量梯度下降
16.2.2随机梯度下降
16.2.3小批量梯度下降
16.3动量
16.4自适应学习率
16.4.1Adagrad
16.4.2RMSprop
16.4.3Adadelta
16.4.4Adam
16.4.5AmsGrad
16.4.6Adamax
16.4.7Nadam
16.4.8SparseAdam
16.5减少方差的方法
16.6交替方向乘子法
16.7FrankWolfe方法
16.8投影梯度下降算法
16.9本章小结
参考文献
第17章高阶优化方法
17.1共轭梯度法
17.2牛顿法及其变体
17.2.1牛顿法
17.2.2切割牛顿法
17.2.3拟牛顿法
17.2.4DFP法
17.2.5BFGS法
17.2.6随机拟牛顿法
17.3不含海森矩阵的最优化方法
17.4自然梯度法
17.5信任区域法
17.6本章小结
参考文献
第18章启发式学习优化
18.1启发式算法
18.1.1传统启发式算法
18.1.2元启发式算法
18.2基于PSO算法的深度神经网络学习
18.2.1PSO算法
18.2.2基于PSO的深度神经网络算法的学习
18.3基于免疫优化算法的深度神经网络学习
18.3.1免疫优化算法
18.3.2基于免疫优化的RBF深度神经网络算法的学习
18.4基于量子优化算法的网络学习
18.4.1量子优化算法发展及研究现状
18.4.2基于量子离散多目标粒子群算法的学习
18.5本章小结
参考文献
第19章进化深度学习
19.1进化计算与深度学习
19.1.1进化计算
19.1.2基于进化计算的深度学习
19.2收敛性分析
19.2.1基于压缩映射的收敛性分析
19.2.2基于熵方法的收敛性分析
19.3网络结构优化
19.3.1神经网络结构搜索
19.3.2基于单目标进化的神经网络架构搜索
19.3.3基于多目标进化的NAS
19.4网络权重优化
19.4.1梯度反向传播的局限性
19.4.2基于进化算法的神经网络权重优化
19.4.3基于进化与反向传播结合的权重优化
19.5学习规则优化
19.6本章小结
参考文献
第20章离散优化问题
20.1经典离散优化问题
20.2精确方法求解离散优化问题
20.2.1分支定界算法
20.2.2割平面方法
20.3深度学习求解离散优化问题
20.4启发式算法与超启发式算法
20.4.1启发式算法
20.4.2超启发式算法
20.5本章小结