猜你喜欢
PyTorch语音识别实战(人工智能技术丛书)

PyTorch语音识别实战(人工智能技术丛书)

书籍作者:王晓华 ISBN:9787302655657
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:2305
创建日期:2024-06-27 发布日期:2024-06-27
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

《PyTorch语音识别实战》使用PyTorch 2.0作为语音识别的基本框架,循序渐进地引导读者从搭建环境开始,逐步深入到语音识别基本理论、算法以及应用实践,是较好的一本语音识别技术图书。本书配套示例源码、数据集、PPT课件等资源。

《PyTorch语音识别实战》分为13章,内容包括语音识别之路、PyTorch 2.0深度学习环境搭建、音频信号处理的理论与Python实战、音频处理常用工具包Librosa详解与实战、基于DNN的语音情绪分类识别、一学就会的深度学习基础算法、基于PyTorch卷积层的语音情绪分类识别、词映射与循环神经网络、基于Whisper的语音转换实战、注意力机制与注意力模型详解、鸟叫的多标签分类实战、多模态语音转换模型基础、GLM架构多模态语音文字转换实战。

《PyTorch语音识别实战》内容详尽、示例丰富,适合作为语音识别初学者、深度学习初学者、语音识别技术人员的必备参考书,同时也非常适合作为高等院校或高职高专深度学习、语音识别等课程的教材。


作者简介

王晓华,高校计算机专业讲师,研究方向为云计算、大数据与人工智能。其创作的部分图书:《从零开始大模型开发与微调:基于PyTorch与ChatGLM》《PyTorch 2.0深度学习从零开始学》《Python机器学习与可视化分析实战》《谷歌JAX深度学习从零开始学》《Spark 3.0大数据分析与挖掘:基于机器学习》《TensorFlow深度学习应用实践》《TensorFlow语音识别实战》《TensorFlow 2.0深度学习从零开始学》《深度学习的数学原理与实现》。

前言


随着信息科技的日新月异,人工智能已经成为新时代经济发展的引擎,而深度学习作为其背后的强大推动力,正在无声无息地改变着我们的生活。语音识别,作为人工智能领域中一颗璀璨的明珠,从智能家居到自动驾驶,从语音助手到无数其他的创新应用,它正在持续地拓展其应用边界,改变着人与机器的交流方式。

本书旨在为读者揭开语音识别的神秘面纱,通过深入浅出的讲解和丰富的实践案例,带领读者走进语音识别的奇妙世界。我们不是只停留在理论的探讨,而是通过大量的实战案例,让读者亲手体验深度学习的魅力,掌握语音识别的核心技术。

本书以应用实战为出发点,结合最新的语音识别深度学习框架进行深入浅出的讲解和演示。作者将以多角度、多方面的方式手把手地教会读者如何进行代码编写,同时结合实际案例深入剖析其中的设计模式和模型架构。

总之,本书是一本理论与实践相结合、全面覆盖语音识别领域、培养创新思维和解决问题能力的专业书籍。通过本书的学习和实践,作者期望每一个读者都能全面掌握深度学习的程序设计方法和技巧,为未来的实际工作做好充分准备。

本书特点

(1)内容与结构的系统性。本书从语音识别的基本概念、发展历程讲起,逐步深入到音频信号处理、深度学习算法、多模态语音转换模型等核心领域。每个章节的内容安排都能做到逻辑清晰、循序渐进,保证了知识的连贯性和易读性,使读者能够在学习的过程中建立起完整的知识体系。

(2)前沿性与创新性。本书站在学术的最前沿,详细介绍基于深度学习的端到端语音识别、多模态架构的语音识别与转换等最新技术。同时,通过介绍GLM架构等多模态语音文字转换的实战内容,展示语音识别技术的创新应用,让读者领略到科技创新的无穷魅力。

(3)实战性与实用性。本书通过大量实战案例,如基于深度学习的语音唤醒、音频特征提取、语音情绪分类识别等,让读者在动手实践中掌握语音识别技术的具体应用。这些案例不仅具有代表性,而且贴近实际应用,对于读者提升实践能力和解决现实问题具有很强的指导意义。

(4)跨学科融合。本书不仅涵盖了语音识别领域的专业知识,还巧妙地融合了音频信号处理、深度学习算法、自然语言处理等相关学科的基础知识。这种跨学科的知识融合有助于读者构建完备的知识体系,并从多个维度深刻领悟语音识别技术的内涵与外延。

(5)语言简明,易于理解。本书在撰写过程中注重语言的简明和表达的准确性,通过生动的比喻和形象的描述,将复杂的技术原理和算法变得通俗易懂。这种写作风格降低了读者的阅读门槛,增强了阅读过程中的愉悦体验。



适合阅读本书的读者

?语音识别初学者。

?深度学习初学者。

?语音识别技术人员。

?高等院校或高职高专相关课程的师生。

?其他对语音识别感兴趣的技术人员。

指正与鸣谢

由于笔者的水平有限,加之编写时间跨度较长,在编写此书的过程中难免会出现不准确的地方,恳请读者批评指正。

感谢清华大学出版社所有老师在本书编写中提供的无私帮助和宝贵建议,正是他们的耐心和支持才让本书得以顺利出版。感谢家人对我的支持和理解。这些都给了我莫大的动力,让我的努力更加有意义。



著 者

2024年1月


目录

第1章 语音识别之路 1

1.1 何谓语音识别 1

1.2 语音识别为什么那么难 2

1.3 语音识别之路—语音识别的发展历程 3

1.3.1 高斯混合-隐马尔科夫时代 4

1.3.2 深度神经网络-隐马尔科夫时代 5

1.3.3 基于深度学习的端到端语音识别时代 6

1.3.4 多模态架构的语音识别与转换 7

1.4 基于深度学习的语音识别的未来 8

1.5 本章小结 8

第2章 PyTorch 2.0深度学习环境搭建 9

2.1 环境搭建1:安装Python 9

2.1.1 Miniconda的下载与安装 9

2.1.2 PyCharm的下载与安装 12

2.1.3 Python代码小练习:计算softmax函数 15

2.2 环境搭建2:安装PyTorch 2.0 16

2.2.1 Nvidia 10/20/30/40系列显卡选择的GPU版本 16

2.2.2 PyTorch 2.0 GPU Nvidia运行库的安装 16

2.2.3 PyTorch 2.0小练习:Hello PyTorch 19

2.3 实战:基于特征词的语音唤醒 20

2.3.1 数据的准备 20

2.3.2 数据的处理 21

2.3.3 模型的设计 24

2.3.4 模型的数据输入方法 24

2.3.5 模型的训练 25

2.3.6 模型的结果和展示 26

2.4 本章小结 27

第3章 音频信号处理的理论与Python实战 28

3.1 音频信号的基本理论详解 28

3.1.1 音频信号的基本理论 28

3.1.2 音频信号的时域与频域 29

3.2 傅里叶变换详解 30

3.2.1 傅里叶级数 31

3.2.2 连续到离散的计算 33

3.2.3 Python中的傅里叶变换实战 34

3.3 快速傅里叶变换与短时傅里叶变换 38

3.3.1 快速傅里叶变换Python实战 39

3.3.2 短时傅里叶变换Python实战 42

3.4 梅尔频率倒谱系数Python实战 44

3.4.1 梅尔频率倒谱系数的计算过程 44

3.4.2 梅尔频率倒谱系数的Python实现 45

3.5 本章小结 52

第4章 音频处理工具包Librosa详解与实战 53

4.1 音频特征提取Librosa包基础使用 53

4.1.1 基于Librosa的音频信号读取 53

4.1.2 基于Librosa的音频多种特征提取 56

4.1.3 其他基于Librosa的音频特征提取工具 58


4.2 基于音频特征的声音聚类实战 59

4.2.1 数据集的准备 59

4.2.2 按标签类别整合数据集 62

4.2.3 音频特征提取函数 63

4.2.4 音频特征提取之数据降维 64

4.2.5 音频特征提取实战 65

4.3 本章小结 69

第5章 基于深度神经网络的语音情绪分类识别 70

5.1 深度神经网络与多层感知机详解 70

5.1.1 深度神经网络与多层感知机 70

5.1.2 基于PyTorch 2.0的深度神经网络建模示例 71

5.1.3 交叉熵损失函数详解 73

5.2 实战:基于深度神经网络的语音情绪识别 74

5.2.1 情绪数据的获取与标签的说明 75

5.2.2 情绪数据集的读取 76

5.2.3 基于深度神经网络示例的模型设计和训练 78

5.3 本章小结 79

第6章 一学就会的深度学习基础算法 80

6.1 反向传播神经网络前身历史 80

6.2 反向传播神经网络基础算法详解 84

6.2.1 最小二乘法详解 84

6.2.2 梯度下降算法(道士下山的故事) 86

6.2.3 最小二乘法的梯度下降算法及其Python实现 89

6.3 反馈神经网络反向传播算法介绍 95

6.3.1 深度学习基础 95

6.3.2 链式求导法则 96

6.3.3 反馈神经网络原理与公式推导 97

6.3.4 反馈神经网络原理的激活函数 103

6.4 本章小结 104

第7章 基于PyTorch卷积层的语音情绪分类识别 105

7.1 卷积运算的基本概念 105

7.1.1 基本卷积运算示例 106

7.1.2 PyTorch中的卷积函数实现详解 107

7.1.3 池化运算 109

7.1.4 softmax激活函数 111

7.1.5 卷积神经网络的原理 112

7.2 基于卷积神经网络的语音情绪分类识别 114

7.2.1 串联到并联的改变—数据的准备 114

7.2.2 基于卷积的模型设计 116

7.2.3 模型训练 117

7.3 PyTorch的深度可分离膨胀卷积详解 118

7.3.1 深度可分离卷积的定义 119

7.3.2 深度的定义以及不同计算层待训练参数的比较 121

7.3.3 膨胀卷积详解 121

7.4 本章小结 122

第8章 词映射与循环神经网络 123

8.1 有趣的词映射 123

8.1.1 什么是词映射 124

8.1.2 PyTorch中的词映射处理函数详解 125

8.2 实战:循环神经网络与文本内容情感分类 126

8.2.1 基于循环神经网络的中文情感分类准备工作 126

8.2.2 基于循环神经网络的中文情感分类 128

8.3 循环神经网络理论讲解 131

8.3.1 什么是GRU 131

8.3.2 单向不行,那就双向 133

8.4 本章小结 134

第9章 基于Whisper的语音转换实战 135

9.1 实战:Whisper语音转换 135

9.1.1 Whisper使用环境变量配置与模型介绍 135

9.1.2 Whisper模型的使用 137

9.1.3 一学就会的语音转换Web前端 138

9.2 Whisper模型详解 141

9.2.1 Whisper模型总体介绍 141

9.2.2 更多基于Whisper的应用 143

9.3 本章小结 144

第10章 注意力机制 146

10.1 注意力机制与模型详解 146

10.1.1 注意力机制详解 147

10.1.2 自注意力机制 148

10.1.3 ticks和Layer Normalization 153

10.1.4 多头自注意力 154

10.2 注意力机制的应用实践:编码器 157

10.2.1 编码器的总体架构 157

10.2.2 回到输入层:初始词向量层和位置编码器层 158

10.2.3 前馈层的实现 161

10.2.4 多层模块融合的TransformerBlock层 162

10.2.5 编码器的实现 164


10.3 实战编码器:拼音汉字转换模型 169

10.3.1 汉字拼音数据集处理 169

10.3.2 汉字拼音转换模型的确定 171

10.3.3 模型训练代码的编写 172

10.4 本章小结 174

第11章 鸟叫的多标签分类实战 175

11.1 基于语音识别的多标签分类背景知识详解 175

11.1.1 多标签分类不等于多分类 176

11.1.2 多标签损失函数Sigmoid + BCELoss 176

11.2 实战:鸟叫的多标签分类 178

11.2.1 鸟叫声数据集的获取 178

11.2.2 鸟叫声数据处理与可视化 179

11.2.3 鸟叫声数据的批量化数据集建立 182

11.2.4 鸟叫分辨深度学习模型的搭建 185

11.2.5 多标签鸟叫分类模型的训练与预测 188

11.3 为了更高的准确率:多标签分类模型的补充内容 190

11.3.1 使用不同的损失函数提高准确率 190

11.3.2 使用多模型集成的方式完成鸟叫语音识别 192

11.4 本章小结 194

第12章 多模态语音转换模型基础 195

12.1 语音文字转换的研究历程与深度学习 195

12.1.1 语音文字转换的传统方法 195

12.1.2 语音文字转换基于深度学习的方法 197

12.1.3 早期深度学习语音文字转换模型介绍 198

12.2 基于GLM架构的多模态语音文本转换模型 202

12.2.1 最强的人工智能模型ChatGLM介绍 202

12.2.2 更加准确、高效和泛化性的多模态语音转换架构—GLM与GPT2 203

12.3 从零开始的GPT2模型训练与数据输入输出详解 205

12.3.1 开启低硬件资源GPT2模型的训练 205

12.3.2 GPT2的输入输出结构—自回归性(auto-regression) 206

12.3.3 GPT2模型的输入格式的实现 208

12.3.4 经典GPT2模型的输出格式详解与代码实现 210

12.4 一看就能学会的GPT2模型源码详解 212

12.4.1 GPT2模型中的主类 212

12.4.2 GPT2模型中的Block类 219

12.4.3 GPT2模型中的Attention类 224

12.4.4 GPT2模型中的MLP类 231

12.5 具有多样性生成的GPT2生成函数 232

12.5.1 创造性函数的使用与代码详解 233

12.5.2 创造性参数temperature与采样个数TopK简介 234

12.6 本章小结 236

第13章 GLM架构多模态语音文字转换实战 237

13.1 GLM架构详解 237

13.1.1 GLM模型架构重大突破:旋转位置编码 238

13.1.2 添加旋转位置编码的注意力机制 239

13.1.3 新型的激活函数GLU详解 240

13.1.4 调整架构顺序的GLMBlock 240

13.1.5 自定义完整的GLM模型(单文本生成版) 243

13.2 实战:基于GLM的文本生成 247

13.2.1 数据集的准备 247

13.2.2 模型的训练 250

13.2.3 模型的推断 252

13.3 实战:基于GLM的语音文本转换 253

13.3.1 数据集的准备与特征抽取 253

13.3.2 语音特征融合的方法 255

13.3.3 基于多模态语音融合的多模态模型设计 256

13.3.4 模型的训练 261

13.3.5 模型的推断 262

13.3.6 多模态模型准确率提高的方法 263

13.4 本章小结 264


产品特色