书籍作者:张晓雷 | ISBN:9787302590002 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:7132 |
创建日期:2023-03-20 | 发布日期:2023-03-20 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
语音降噪处理是信号处理的重要分支领域。近年来,该领域在人工智能与深度学习技术的驱动下取得了突破性进展。
《复杂环境下语音信号处理的深度学习方法》系统总结语音降噪处理的深度学习方法,尽可能涵盖该方法的前沿进展。全书共分8章。第1章是绪论;第2章介绍深度学习的基础知识和常见的深度网络模型;第3~6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第3章介绍语音检测,第4章介绍单通道语音增强,第5章介绍多通道语音增强,第6章介绍多说话人语音分离;第7章和第8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础和前沿进展。
《复杂环境下语音信号处理的深度学习方法》专业性较强,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
张晓雷,西北工业大学教授,博士生导师。清华大学博士,美国俄亥俄州立大学博士后。入选国家与省部级青年人才计划。主要从事语音信号处理、机器学习、人工智能的研究工作。在Neural Networks、IEEE TPAMI、IEEE TASLP、IEEE TCYB、Computer Speech and Language等国际期刊和会议发表论文六十余篇。出版专著和译著各一部。主持国家和省部级项目十余项。获授权发明专利十余项。曾获国际神经网络学会与Neural Networks期刊2020年度论文奖、亚太信号与信息处理学会杰出讲者、北京市科学技术一等奖等奖项。研究成果成功应用于国内三大电信运营商和金融、交通、保险等行业的二十余家主流企业。担任Neural Networks、IEEE TASLP、EURASIP Journal on Audio, Speech,and Music Processing等国际期刊的编委,IEEE信号处理学会语音与语言技术委员会委员,中国人工智能学会模式识别专业委员会委员,中国计算机学会语音对话与听觉专业委员会委员。
本书将以中文首次全面介绍基于深度学习的鲁棒语音处理的发展,具体包括语音检测、单通道语音增强、多通道语音增强、语音分离、鲁棒声纹识别与鲁棒语音识别。
自2012年美国俄亥俄州立大学汪德亮教授等提出基于深度学习的鲁棒语音处理以来,语音降噪处理的深度学习方法迅速成为鲁棒语音处理的主流方法之一,在学术界和工业界的共同努力下,得到了快速发展。语音降噪处理的深度学习方法从最开始只能在匹配的噪声、匹配的信噪比环境下取得一个研究点上的突破,发展到能够在复杂的现实噪声场景和极低信噪比环境下获取惊人的性能;从最开始需要深度置信网络进行分层预训练才能训练成功,发展到今天可以没有难度地训练任意深度的深层网络;从最开始算法时延高达数十毫秒,发展到今天在没有性能显著损失的条件下能够满足实时通信的需求;从最开始的单通道(单麦克风)信号处理,发展到今天可以对由任意多个麦克风组成的自组织网络信号进行联合处理;等等。基于深度学习的鲁棒语音处理技术也在快速步入实际使用,并在智能家居、智能车载、智能语音客服、会议记录等应用方面创造了巨大的产业价值。
尽管该技术发展迅速,但是相关的中文书籍匮乏。对此,本书将以中文首次全面介绍基于深度学习的鲁棒语音处理的发展,具体内容包括语音检测、语音增强、语音去混响、多说话人语音分离、鲁棒声纹识别与鲁棒语音识别。本书侧重对历史的回顾,帮助读者梳理该方向的技术发展脉络和趋势;并着重介绍在实际使用中性能突出的代表性方法,帮助读者快速熟悉该方向的主要技术。
全书共分8章。第1章是绪论;第2章介绍深度学习的基础知识和常见的深度网络模型;第3~6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第3章介绍语音检测,第4章介绍单通道语音增强,第5章介绍多通道语音增强,第6章介绍多说话人语音分离;第7章和第8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础知识和前沿技术。
本书是一部专业性较强的著作,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
作者在编写本书时参考和引用了一些学者的研究成果、著作和论文,具体出处见参考文献。在此,作者向这些文献的著作者表示感谢。在本书的编写过程中得到了西北工业大学一批优秀研究生的协助,他们分别是官善政、李盛强、王谋、白仲鑫、王瑞、王建宇、杨子叶、刘书培、徐梦龙、李梦真、朱文博、梁成栋、谭旭、唐林瑞泽、陈俊淇、龚亦骏、姚嘉迪、陈益江、王杰、陈星(排名不分先后)。
本书获西北工业大学精品学术著作培育项目资助(项目号为21GH030801)。
基于深度学习的鲁棒语音处理是一个理论性强、实用面广、内容新、难度大的研究方向,同时这个方向又处于快速发展中,尽管作者在编写过程中力求涵盖最前沿的技术,通过简明、通俗的语言将这门技术介绍给读者,但因作者水平有限,不妥之处在所难免,敬请广大读者批评指正。
第1章 绪论
第2章 深度学习基础
2.1 有监督学习
2.2 单层神经网络
2.2.1 基本模型
2.2.2 激活函数
2.3 前馈深度神经网络
2.3.1 反向传播算法
2.3.2 正则化
2.4 循环神经网络
2.4.1 循环神经网络基础
2.4.2 长短时记忆网络
2.4.3 门控循环神经网络
2.4.4 深层RNN结构
2.4.5 序列数据的RNN建模框架
2.5 卷积神经网络
2.5.1 卷积神经网络基础
2.5.2 其他卷积形式
2.5.3 残差神经网络
2.5.4 时序卷积网络
2.6 神经网络中的归-化
2.6.1 批归-化
2.6.2 层归-化
2.7 神经网络中的注意力机制
2.7.1 编码器-解码器框架
2.7.2 编码器,注意力机制一解码器框架
2.7.3 单调注意力机制
2.7.4 Transformer
2.8 生成对抗网络
2.8.1 基本结构
2.8.2 模型训练
2.9 本章小结
第3章 语音检测
3.1 引言
3.2 基本知识
3.2.1 信号模型
3.2.2 评价指标
3.3 语音检测模型
3.3.1 语音检测模型的基本框架
3.3.2 基于深度置信网络的语音检测
3.3.3 基于降噪深度神经网络的语音检测
3.3.4 基于多分辨率堆栈的语音检测模型框架
3.4 语音检测模型的损失函数
3.4.1 最小化交叉熵
3.4.2 最小均方误差
3.4.3 最大化ROC曲线下面积
3.5 语音检测的声学特征
3.5.1 短时傅里叶变换的频带选择
3.5.2 多分辨率类耳蜗频谱特征
3.6 模型的泛化能力
3.7 本章小结
第4章 单通道语音增强
4.1 引言
4.2 基本知识
4.2.1 信号模型
4.2.2 评价指标
4.3 频域语音增强
……
第5章 多通道语音增强
第6章 多说话人语音分离
第7章 声纹识别
第8章 语音识别
参考文献
硬皮封面,印刷质量好,内容紧跟时代!
2022-03-21 19:57:19