猜你喜欢
声纹技术:从核心算法到工程实践

声纹技术:从核心算法到工程实践

书籍作者:王泉 ISBN:9787121395291
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:7231
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

这是第一本系统性地介绍声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中应用的技术书。本书内容全面且紧随时代前沿,不仅涵盖了早至 20世纪 60 年代的经典方法,而且以大量篇幅着重介绍了深度学习时代的新技术。本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。

本书面向大学与研究机构的学生、教研人员,以及企事业单位从事声纹技术相关工作的工程师、架构师和产品经理等。




作者简介

王泉,美国谷歌公司资深软件工程师、声纹识别与语言识别团队主管。作者毕业于清华大学自动化系,后取得美国伦斯勒理工学院计算机工程专业博士学位,曾在美国亚马逊公司参与亚马逊智能音箱语音助手Alexa的研发。在谷歌任职期间,作者带领团队将先进的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文,并开创了监督式声纹分割聚类及声纹定向人声分离这两个新兴研究方向。作者的工作曾被VentureBeat、TechCrunch、Engadget、CNET等国际著名科技媒体专题报道。

编辑推荐
适读人群 :本书面向广大人工智能领域爱好者,大学与研究机构的学生、教研人员,以及企事业单位从事语音识别相关工作的工程师、架构师和产品经理等。

适读人群

本书的目标读者主要有两类:

1. 在高等院校里,高年级本科生、研究生、博士生,以及教职人员与科研工作者,可以将本书作为声纹技术领域的基础教材。通过学习本书,能够对声纹技术有深入浅出的了解。若是将本书作为大学教材,每章末尾的“思考与练习”还可以作为课后习题。

2. 在企事业单位里,软件工程师、系统架构师、产品经理等,可以将本书作为一本参考工具书,在设计、实现、部署与声纹有关的产品和服务时,可以快速查阅相关的技术与方法,为自己的工作提供额外的指导。

阅读本书前,读者并不需要具备音频处理、语音识别等领域的相关知识,这部分内容会在第 2 章系统地学习。不过,建议读者在阅读本书前,先了解一些机器学习,尤其是神经网络、深度学习方面的基本概念。尽管这些概念在本书第 3 章里也会提及,但这些并不是本书的重点,所以不会在书中深入讲解。

本书虽然以声纹技术为主线,但是并不仅局限于各种具体的声纹技术,而是会涉及所有与声纹技术相关的基础知识,并且会从工程方面对声纹技术的具体部署进行指导。本书涉及的一些知识点,例如听觉感知、音频传输、流式信号处理、模型量化压缩等,乍看上去与声纹技术并无任何直接关系,但这些都是在声纹领域的实际工作中不得不接触的内容。

此外,本书在介绍概念与方法的同时,还会具体介绍一些工具及程序库(以 Python语言为主)的使用,并提供一些实践案例。熟练掌握这些基础工具,将会大大提升日常研究与开发的效率。在每章内容的结尾,本书还设置了若干道思考题与练手实践项目,以帮助读者进一步巩固本章的重要知识点。因此,与其说本书是一本声纹技术的教科书,不如说本书是一本针对所有声纹领域研究、工作人员的百科全书及实用手册。

本书不仅介绍了声纹领域经典的模型与方法,还涵盖领域里前沿的研究与应用,包括大量发表于 2019 年和 2020 年的文章。读者可以通过阅读本书对这些前沿工作的介绍,让自己的知识储备领先于同行,并对整个声纹领域的未来发展趋势有一个大致的了解。




前言

前言

本书缘起

回忆起我在亚马逊工作的那段时光,虽然充实,但也有着很大的压力。我在亚马逊所在的组,是一个倾向于科研而非产品的组,因此相比于大多数亚马逊员工,来自工作环境本身的压力并不是很大。我所感受到的压力,更多是自身知识水平的严重不足导致的危机感。每次与组里的其他成员开会讨论,或者评审他们的代码、文档,都会遇到大量的概念与方法,是我当时难以理解的。而这些概念与方法,很多都是语音识别领域的基础知识。为此,每天下班后,我都会花大量的时间,查阅语音识别方面的教程、文献和网上的文章。然而,由于这些内容大多数都是英文的,对于当时刚刚接触语音识别领域的我来说,阅读起来效率很低。当时的我就十分感慨:如果有一本中文的教程,从基础概念开始,详细地介绍我所需要的领域专业知识,那该有多好。我也试着寻找过中文教程,只不过当时我能够找到的教程,其内容早已严重过时。

后来,我在谷歌成为团队主管,每次招聘新的团队成员,如果该成员没有语音领域相关的背景,那么也会面临着和我曾经入职亚马逊时相同的困境。每次我都会花大量的时间,向新的团队成员介绍音频信号处理和声纹识别相关的背景技术,以及声纹领域的研究前沿成果。

以上这些经历,便是我编写本书的原始动机。对于所有以中文为母语的朋友,我希望本书能够快速地帮助你掌握声纹技术所需要的基础知识,并熟悉最前沿的方法。我希望读者在读完本书之后,再去阅读其他与声纹相关的文章,或者使用与声纹相关的工具时,能够快速理解其核心内容,并通过与本书介绍的概念、方法进行联系和比较,大幅提升自己学习、工作的效率。



语音及声纹技术是实现人工智能美好愿景中一个必备的关键组件。如今,王泉愿意把自己在语音领域,特别是声纹技术方面多年的研究及工程经验积累写成专业书籍惠及广大读者,是这个领域一个重要的里程碑,填补了声纹技术专著方面的空白。本书将对相关技术的进一步快速普及和发展起到积极的推动作用,吸引更多的人才从事语音及声纹技术的研究和开发。作为业界首著,作者花费了大量精力来保证深度和广度的平衡,使得处在不同阶段的声纹技术工程和研究人员都能从中获益。总结起来,本书有如下特色:

?? 门槛方面,本书从最基础的人耳听觉感知和音频信号处理等技术讲起,即使没有任何音频基础的读者也能无障碍上手。

?? 内容方面,本书不仅介绍了声纹识别,还介绍了声纹分割聚类,包含了本序开始提到的基于监督学习的声纹分割聚类和后续的发展。据我所知,无论是中文还是英文书籍,都从来没有系统介绍过这方面的内容。此外,本书还介绍了声纹技术在语音识别、语音合成、人声分离方面的应用,也是业内仅有的一本系统介绍这些内容的专著。

?? 本书内容不仅涵盖了20世纪60年代的最早期声纹识别方法,还介绍了大量2019年和 2020年发表的论文,紧随业界最新发展。

?? 本书除了介绍学术内容,还有专门的章节(第4章)介绍工程部署,覆盖了声纹技术部署的诸多实际课题(如版本控制、分布式计算等)。这也是业内独一无二的。

?? 本书配备了很多动手实践,教读者使用常用的Python工具包构建实例,进行实验,避免纸上谈兵。

?? 本书为每一章配备了思考和练习题,因此本书也十分适合作为大学教材。

技术书籍的写作过程通常是比较枯燥的,在保证其科学严谨性的同时也要保证其可读性,才能发挥专业书籍的最大影响力。这需要科研的奉献精神、很强的执行力及大量的精力投入。从我和王泉合作的过程中,我发现王泉在这些方面的特质非常突出。

相信读者在研读本书时也能很快体会到这些点。同时,我们也期待未来会有更多活跃在声纹和语音领域一线的专家,将其专业知识以中文的形式出版成书,造福更多的华人学者。

字节跳动应用机器学习研究组负责人

王崇


目录

1 声纹技术的前世今生 1

1.1 什么是声纹1

1.2 最早的声纹技术2

1.3 声纹技术的发展 5

1.4 大变革:深度学习时代的来临 10

1.5 新的机遇:智能语音助手的普及 11

2 音频信号处理基础 14

2.1 欲懂声纹,先学音频 14

2.2 声学基础15

2.3 音频信号基础概念 24

2.4 从信号到特征:短时分析38

2.5 常用的音频特征 42

3 声纹识别技术 54

3.1 声纹识别:声纹技术的核心 54

3.2 声纹识别的评价指标 60

3.3 深度学习之前的方法 65

3.4 基于深度学习的方法 78

3.5 声纹识别中的数据处理 102

3.6 声纹验证 112

3.7 常用数据集 115

4 声纹识别的工程部署 120

4.1 从模型到产品120

4.2 声纹识别常见工程问题 126

4.3 全设备端部署 139

4.4 全服务器端部署 144

4.5 复合式部署 151

5 声纹分割聚类技术 156

5.1 分割聚类:更好地理解对话语音 156

5.2 声纹分割聚类与多说话人识别 163

5.3 聚类分析 167

5.4 二次分割方法 180

5.5 监督式方法 182

5.6 声纹分割聚类的评价指标 203

5.7 常用数据集 206

6 声纹技术的其他应用 211

6.1 声纹的力量 211

6.2 用于语音识别 212

6.3 用于语音合成 214

6.4 用于语音检测 220

6.5 用于人声分离 221

6.6 声纹转换 226

6.7 声纹还原度测试 227

7 声纹技术的未来 231

7.1 概述 231

7.2 声纹技术的挑战 231

7.3 对更多数据的需求 235

7.4 声纹技术的未来研究方向 238

7.5 结语 246

中英词汇对照 248

参考文献 259

短评

这个月又在买了很多书,有从推荐看到的,这是从博文视点~~看到的,关于人工智能、语音AI、知识图谱等方向介绍了一系列的书,又搞了促销优惠,就下了不少单,差不多两千了。买下了也不后悔要退,马上拆了保护膜,书真的很好,拆开就散发持久的书香,令我着迷

2020-09-20 17:19:42

书收到了,印刷很好,送货小哥服务态度很好。

2020-09-21 09:07:57

您没有填写内容,默认好评

2020-09-18 00:50:02

您没有填写内容,默认好评

2020-09-18 01:04:53

产品特色