书籍作者:杨灵 | ISBN:9787121459856 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:7748 |
创建日期:2024-04-09 | 发布日期:2024-04-09 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书深入浅出地介绍了扩散模型的知识,案例丰富,讲解细致。第1章介绍AIGC与相关技术,第2章从三个视角介绍扩散模型的基本理论、算法,此外介绍了扩散模型的神经网络架构和代码实现。第3章、第4章、第5章分别从高效采样、似然优化、数据结构三个方面系统介绍了扩散模型的特点,以及后续的改进工作。第6章讨论了扩散模型与其他生成模型的关联,包括变分自编码器、生成对抗网络、归一化流、自回归模型和基于能量的模型。第7章介绍了扩散模型的应用,包括计算机视觉、自然语言处理、时间数据建模、多模态学习、鲁棒学习和跨学科应用。第8章讨论了扩散模型的未来,以及与GPT和大模型的关联。
本书适合高等院校计算机科学、人工智能和医学、生物学等交叉学科专业的师生,以及相关人工智能应用程序的开发人员阅读
杨灵,北京大学博士在读,研究兴趣是机器学习和生成式AI,作为第一作者在ICML、CVPR等人工智能顶会、顶刊发表过多篇论文,长期担任TPAMI、ICML、NeurIPS、CVPR、KDD、AAAI等多个顶级学术会议或期刊的程序委员会成员、审稿人。现与OpenAI、斯坦福大学等AI研究机构进行长期的科研合作。曾获北京大学国家奖学金、学术创新奖、三好学生等奖项。
张至隆,北京大学硕士在读,本科毕业于北京大学数学科学学院,研究兴趣是扩散模型。曾获北京大学国琴奖学金、优秀毕业生、三好学生等奖项。
张文涛,蒙特利尔学习算法研究所(Mila)博士后研究员。博士毕业于北京大学计算机学院,师从崔斌教授。研究兴趣为大规模图学习,作为第一作者在机器学习、数据挖掘和数据库等领域发表论文10余篇。曾获Apple PhD Fellowship、WAIC云帆奖和北京大学优秀博士学位论文等奖项。
崔斌,北京大学计算机学院教授、博士生导师、北京大学计算机学院副院长。担任中国计算机学会数据库专委会副主任,VLDB理事会理事,IEEE TKDE、VLDB Journal、DAPD等国际期刊编委。中国计算机学会杰出会员、IEEE高级会员、ACM会员,2016年入选教育部长江学者特聘教授。
适读人群 :本书紧跟人工智能发展,详解介绍了闻名学界、业界的扩散模型。从理论、应用到代码实践,无一不包。即具前沿又具实用性。可供高等院校计算机科学、人工智能和医学、生物学等交叉学科专业的师生,以及相关人工智能应用程序的开发人员阅读。
1.本书作者团队来自著名学府,且与国际知名研究机构、院校有众多交流,其提供的内容具有权威性,并获得众多专家、学者认可。
2.本书从理论和实践两个方面进行了细致介绍。阅读本书的读者,即可获得学术收益,又可进行实践应用。
3.为方便进行理论实践,本书提供了可配套运行的代码文件,读者可以进行下载。
序言
纵览生成式AI的发展史,自AI诞生之始,人们就试图让机器生成内容,与其对话,并诞生了图灵测试标准。从DALLE 2、Stable Diffusion、Midjourney等文生图应用点燃了大众的热情,再到ChatGPT的横空出世,更是引发了全民关注。生成式AI是一种特定类型的AI,专注于生成新内容,如文本、图像和音乐。未来,生成式AI很可能会对创意产业产生重大影响。在许多情况下,它可以协助创意人员工作,使他们能够创造出更多个性化的内容,以及产生新的想法。
扩散模型(Diffusion Model)是一类隐变量模型,采用变分推断估计未知分布。扩散模型的目标是通过对数据点在隐空间中的扩散方式进行建模,以近似估计数据集的分布。扩散模型的灵感来自非平衡热力学,首先定义扩散步骤的马尔可夫链,以逐步地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本。在计算机视觉中,这意味着通过学习逆扩散过程训练神经网络,使其可以对叠加了高斯噪声的图像进行去噪。扩散模型具有广泛的应用,在图像、3D内容、视频、音频等生成任务中表现出色,同时具有良好的可扩展性。
本书主要针对扩散模型进行了介绍,内容丰富。从广度上看,书中讨论了扩散模型的相关原理和算法改进,即去噪扩散概率扩散模型、基于分数的生成模型和随机微分方程,还讨论了扩散模型与GAN、VAE等其他生成模型的关联,最后详细介绍了扩散模型在文生图、3D建模、视频生成、时序数据预测、医学和生命科学等诸多领域的应用。从深度上看,书中包含了理论推导、算法解析和代码实践。本书作者杨灵等来自北京大学,并长期和斯坦福大学、OpenAI等国内外知名研究机构交流合作。他们在生成式AI和扩散模型等领域有着长期的研究和实践积累,因此本书呈现的内容具有实用性,可供高等院校计算机科学、人工智能和医学、生物学等交叉学科专业的师生,以及相关人工智能应用程序的开发人员阅读。
朱军
清华大学计算机系教授、清华大学人工智能研究院副院长
第1 章 AIGC 与相关技术
1.1 AIGC 简介
1.2 扩散模型简介
第2 章 扩散模型基础
2.1 去噪扩散概率模型
2.2 基于分数的生成模型
2.3 随机微分方程
2.4 扩散模型的架构
第3 章 扩散模型的高效采样
3.1 微分方程
3.2 确定性采样
3.2.1 SDE 求解器
3.2.2 ODE 求解器
3.3 基于学习的采样
3.3.1 离散方式
3.3.2 截断扩散
3.3.3 知识蒸馏
第4 章 扩散模型的似然最大化
4.1 似然函数最大化
4.2 加噪策略优化
4.3 逆向方差学习
4.4 精确的对数似然估计
第5 章 将扩散模型应用于具有特殊结构的数据
5.1 离散数据
5.2 具有不变性结构的数据
5.3 具有流形结构的数据
5.3.1 流形已知
5.3.2 流形未知
第6 章 扩散模型与其他生成模型的关联
6.1 变分自编码器与扩散模型
6.2 生成对抗网络与扩散模型
6.3 归一化流与扩散模型
6.4 自回归模型与扩散模型
6.5 基于能量的模型与扩散模型
第7 章 扩散模型的应用
7.1 无条件扩散模型与条件扩散模型
7.2 计算机视觉
7.2.1 图像超分辨率、图像修复和图像翻译
7.2.2 语义分割
7.2.3 视频生成
7.2.4 点云补全和点云生成
7.2.5 异常检测
7.3 自然语言处理
7.4 时间数据建模
7.4.1 时间序列插补
7.4.2 时间序列预测
7.5 多模态学习
7.5.1 文本到图像的生成
7.5.2 文本到音频的生成
7.5.3 场景图到图像的生成
7.5.4 文本到3D 内容的生成
7.5.5 文本到人体动作的生成
7.5.6 文本到视频的生成
7.6 鲁棒学习
7.7 跨学科应用
7.7.1 人工智能药物研发
7.7.2 医学影像
第8 章 扩散模型的未来——GPT 及大模型
8.1 预训练技术简介
8.1.1 生成式预训练和对比式预测练
8.1.2 并行训练技术
8.1.3 微调技术
8.2 GPT 及大模型
8.2.1 GPT-1
8.2.2 GPT-2
8.2.3 GPT-3 和大模型
8.2.4 InstructGPT 和ChatGPT
8.2.5 Visual ChatGPT
8.3 基于GPT 及大模型的扩散模型
8.3.1 算法研究
8.3.2 应用范式
相关资料说明