猜你喜欢
神经机器翻译:基础、原理、实践与进阶

神经机器翻译:基础、原理、实践与进阶

书籍作者:熊德意 ISBN:9787121437526
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8142
创建日期:2023-04-17 发布日期:2023-04-17
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

机器翻译是计算机科学与语言学交叉形成的最早的研究方向,是自然语言处理技术的重要发源地。本书聚焦新一代机器翻译技术——神经机器翻译,系统梳理和介绍神经机器翻译的核心方法和前沿研究课题。全书分为基础篇、原理篇、实践篇和进阶篇,覆盖神经机器翻译的基础知识、经典框架、原理技术、实践方法与技巧,以及无监督神经机器翻译、多语言神经机器翻译、语音与视觉多模态机器翻译等前沿研究方向。全书理论与实践相结合,基础与前沿相交映。


除此之外,本书的一个特色是在每一章均附有一篇短评,针对相应章节的主题,介绍和评论神经机器翻译技术背后的历史、故事、思想、哲学、争议和规范等。短评与全书内容相交错,使读者对神经机器翻译技术不仅知其然,而且知其所以然。


本书适合高等院校计算机专业高年级本科生,以及人工智能、自然语言处理方向的研究生阅读,也可供机器翻译研究者、实践者、使用者,以及机器翻译行业的管理者、人工翻译研究人员等对机器翻译技术感兴趣的读者参考。


作者简介

熊德意

天津大学智能与计算学部教授、博士生导师、自然语言处理实验室负责人,天津大学“语言智能与技术”中外联合研究中心主任,中译语通-天津大学自然语言处理联合实验室主任、中译语通人工智能首席科学家。主要研究方向为自然语言处理,特别专注于机器翻译、对话、问答、自然语言生成、常识推理、认知计算等方向的研究。在Computational Linguistics、IEEE TPAMI、AI、AAAI、ACL等国际著名期刊和会议上发表论文100余篇,在Springer出版英文专著一部。获得国家自然科学基金优秀青年科学基金、国家重点研发计划“政府间国际科技合作创新合作”重点专项、英国皇家学会牛顿高级学者基金等资助。获得新加坡资讯通信研究院2008年年度研究贡献奖、北京市科学技术奖二等奖、中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新奖”一等奖等奖项。曾是亚洲自然语言处理联合会AFNLP干事、新加坡中文与东方语文信息处理学会理事会成员,目前是中国中文信息学会理事。担任IALP 2012&2021程序委员会共同主席,CWMT 2017程序委员会共同主席,欧盟多国联合项目QTLeap咨询专家,ACL、EMNLP、NAACL、COLING等多个知名国际会议领域主席,以及TACL和ARR的Action Editor等。



李良友

华为诺亚FANGZHOU实验室研究员、机器翻译团队负责人。在欧盟玛丽居里项目资助下,于2017年获得都柏林城市大学计算机博士学位。主要研究方向为自然语言处理,特别专注于机器翻译相关技术领域的研发。在ACL、EMNLP等多个国际著名会议和期刊上发表论文10余篇,并担任ACL、EMNLP等国际会议领域主席和会议审稿人。

张 檬

华为诺亚FANGZHOU实验室研究员。于2018年获得清华大学计算机科学与技术系博士学位。主要研究方向为机器翻译和跨语言自然语言处理。在ACL、EMNLP、AAAI、TASLP等国际著名会议和期刊上发表论文10余篇。曾获中国中文信息学会优秀博士学位论文提名奖。担任ACL、EMNLP、AAAI、IJCAI等多个知名国际会议审稿人。


编辑推荐
适读人群 :本书适合高等院校计算机专业高年级本科生,以及人工智能、自然语言处理方向的研究生阅读,也可供机器翻译研究者、实践者、使用者,以及机器翻译行业的管理者、人工翻译研究人员等对机器翻译技术感兴趣的读者参考。

√ 探索神经机器翻译的理论基础、经典算法、原理技术、实践方法与前沿进展
√ 揭示隐藏于不同机器翻译研究范式背后的科学问题
√ 开启理解机器翻译技术的全新视角

√ 技术与短评双主线叙事,不止于技术

除了算法、模型、公式,本书特别撰写了20 篇短评,串起神经机器翻译技术背后的历史、故事、思想、哲学、争议和规范等。例如:

统计与规则的竞争

- 自然语言处理之经验主义与理性主义

- 卷积神经机器翻译——实用性倒逼技术创新

- 超参数设置——自动优化与实验可复现性

- 机器翻译工业部署

- 神经机器翻译达到人类同等水平了吗?

- 神经机器翻译是疯子吗?兼谈其‘幻想’

- 预训练技术争议与语言符号奠基问题

短评串联不同技术及同一技术的不同发展阶段,更好地介绍技术背后的思想、争议及发展原因。为机器翻译研究者、实践者、使用者、爱好者和旁观者等提供理解机器翻译技术的新视角!


前言

推荐序

机器翻译:科学vs.技术


老友钱跃良嘱我为其同事熊德意新作写个序,按说我不从事这个领域的研究,并不合适。但是,出于两个原因,我还是接受了:一是新世纪初,我刚进入国家“863 计划”计算机主题专家组时的首个任务,就是担任人机接口专题的责任专家,曾在较长时间内和机器翻译领域的学者频繁交流,算是学习了该领域的一些基本知识;二是当前正处于人工智能的热潮中,而自然语言处理被誉为人工智能“皇冠上的明珠”,机器翻译则是自然语言处理领域极具挑战性的研究方向,我也想从计算机学科这个大同行的视角谈一些认识和思考。


使用自然语言进行交流是人类区别于动物的重要标志。随着智人走出非洲,在漫长的“全球化”进程中诞生了无数种语言。农业革命后,人类开启了现代意义的全球化。工业革命后,全球化更是明显加速,其中需要解决的难题之一就是语言交流障碍!解决途径无外乎二,一是靠时间、靠融合,在这个过程中,很多语言退出了历史舞台;二是靠语言翻译,长期以来依赖掌握“双语”或“多语”的人才。


能否用机器来实现语言间的自动翻译?我没有去查文献做详细的调研,但我相信一定有不少古人产生过这种“梦想”,在早期的科幻小说中也出现过这种“机器”。20 世纪初,有科学家开始了这种研究尝试,但直到计算机诞生,才使得利用机器进行语言自动翻译的想法具备了现实可行性。从1949 年机器翻译思想的正式提出,迄今已七十余年,众多学者在此领域做出了艰辛的探索,机器翻译经历了一条曲折的螺旋式上升的发展道路。从早期的过分乐观、过度承诺,到20 世纪60 年代中期开始的10 年遇冷;从20 世纪70 年代中期研究的恢复及其成果的成功商用,到20 世纪80 年代末统计机器翻译方法的兴起;再到新世纪深度学习方法带来的翻译质量的大幅跃升及随后的“井喷式”发展,这实际上也是观察人工智能几度兴衰的一个视角。可喜的是,“热度”在变,方法在变,但梦想未变;需忧的是,跟风仍在,“过度”仍在,应避免“极化”!


机器翻译是一个多学科交叉领域,面临的既有技术问题,也有科学问题,一方面需要依赖语言学、认知科学等学科关于语言表示、理解与生成的科学发现和科学理论,另一方面也需要在技术和工程上设计和实现高效的机器模型、算法及系统。规律和原理的发现是技术突破的基础,在追求技术突破和规模化发展的同时,不能忘记探究其后的科学问题,二者的平衡才是学科健康发展的前提。


机器翻译在70 多年的发展过程中,形成了两大技术途径:基于规则的方法和基于数据的方法,也称规则驱动和数据驱动。规则驱动方法偏重于语言的抽象表示、语言学理论、知识表示等原理性探索,分别出现了提供自然语言抽象表示的中间语言途径、语言学理论指导的基于转换的途径,以及基于语义和知识的途径等。数据驱动方法则依赖语料库和计算力,发展出基于实例的机器翻译、统计机器翻译,以及现在的神经机器翻译等模式。统计机器翻译从早期的不被认可,到随计算力的不断提高及平行语料规模的不断增长,逐步成为机器翻译的主要模式。最近10 年,深度学习技术提升了机器翻译模型从数据中获取知识的能力,深度学习驱动的神经机器翻译也因此成为新一代主流机器翻译技术,其生成的译文质量与人工译文质量之间的距离不断缩小,应用场景和范围不断扩大,如在线机器翻译,已成为人们在互联网上交流不可或缺的工具。


深度学习方法的显著成效带来了新一轮人工智能热潮,热潮中更多呈现的是现有方法的应用。不可回避的是,深度学习模型的强表达能力及高计算特性,使得包括机器翻译在内的很多人工智能领域的研究在科学与技术、理性主义与经验主义之间出现了向技术、经验主义一端“极化”的态势。然而,我们也都认识到,当前的深度学习技术本身存在着诸多问题,如不可解释、鲁棒性差、耗能高等,人工智能的未来发展应该是何走向?我以为,还是应该保持开放的思维,保持研究探索的多样性。规则驱动是否可能随认知科学、语言学等相关学科研究的深入再次螺旋回归?数据驱动结合规则驱动是否能体现“科学”和“技术”的平衡?类脑途径能否成为实现人工智能的通用模式?如此等等。作为非该领域专家,我不敢妄言,只是从科研的基本规律出发,谈自己的期望。


本书介绍的是当前的主流——神经机器翻译技术。全书按两条主线组织,内容主线分四篇,覆盖神经机器翻译的基础知识、神经网络模型原理、引擎实现和部署以及若干前沿研究主题,理论和实践相结合;短评主线交织穿插于内容主线网络中,将相关内容与更广泛的主题关联,如机器翻译的发展历史、自然语言处理研究范式、软件开源、数据驱动、技术创新、实验可复现性、人工智能伦理等。可贵的是,书中的某些短评探讨了被机器翻译技术快速发展掩盖的机器翻译背后的科学问题,并呼吁机器翻译研究需在科学与技术间再平衡;在技术创新发展的同时,机器翻译研究需与其他学科交叉融合,使得相关科学理论可以支撑机器翻译未来更大的发展和突破。同时,作者也从科学研究范式的本源上深入思考了机器翻译的未来。


本书作者熊德意等长期从事机器翻译领域的研究工作,熟悉统计机器翻译和神经机器翻译技术,书中不少思想和观点来源于作者长期的研究、观察、实践及思考。


本书可作为计算机科学及相关专业,对自然语言处理和机器翻译感兴趣的高年级本科生和研究生的学习教材,也可供自然语言处理、机器翻译领域的研究人员和工程技术人员参考。希望读者通过阅读本书,能够了解自然语言处理、机器翻译技术的发展和现状,并对其中乃至人工智能中的科学问题有更深入的思考。

是为序。

梅宏

中国计算机学会理事长

壬寅孟春于北京



前言

本书对神经机器翻译技术进行了全面梳理和系统探讨,按内容分为基础篇、原理篇、实践篇及进阶篇,合计20 章。


61 基础篇:从机器翻译历史发展角度阐述了神经机器翻译的诞生过程,探讨了神经机器翻译与上一代机器翻译技术——统计机器翻译的关系,并进行了多维度对比,系统介绍了与神经机器翻译相关的神经网络、自然语言处理基础知识。


61 原理篇:按照神经机器翻译技术发展的脉络,依次介绍了经典神经机器翻译模型、神经机器翻译注意力机制、基于卷积神经网络的神经机器翻译及基于自注意力的神经机器翻译,对神经机器翻译技术发展过程中面临的主要问题进行了探讨,如集外词、深度模型、快速解码和领域适应等问题,并介绍了相应的解决方案。


61 实践篇:按照完整实现一个神经机器翻译系统的主要步骤,依次介绍了数据的准备、模型的训练、系统的测试及最后的实际部署,并对如何设计和实现一个神经机器翻译软件系统进行了详细探讨。


61 进阶篇:对目前神经机器翻译领域正在研究的前沿课题进行了介绍,包括语篇级神经机器翻译、低资源及无监督神经机器翻译、融合知识的神经机器翻译、鲁棒神经机器翻译、多语言神经机器翻译、语音与视觉多模态神经机器翻译六大主题,梳理了目前在这六大方向上的主要技术路线及开放问题。


我们希望本书不仅仅是一本介绍机器翻译新技术的书。如果对神经机器翻译的介绍仅仅停留在技术的形式化上,只有算法、模型、公式等,那么难免会让读者觉得枯燥乏味。相反,本书力求可以承载更多有意思的内容,如技术背后的思想、技术发展的脉络等。为此,在写作本书过程中,我们始终站在历史发展的角度,对比不同机器翻译范式,希望从对比中窥见技术发展的内在原因。同时,为了能够串联不同技术及同一技术的不同发展阶段,更好地介绍技术背后的思想、争议及发展原因,本书的每一章均附有一篇与该章主题相关的短评。


这些短评少则一两页,多则六七页,共计20 篇,串起了神经机器翻译技术背后的历史、故事、思想、哲学、争议和规范等,如“统计与规则的竞争”“自然语言处理之经验主义与理性主义”“卷积神经机器翻译——实用性倒逼技术创新”“超参数设置——自动优化与实验可重现性”“机器翻译工业部署”“神经机器翻译达到人类同等水平了吗?”“神经机器翻译是疯子吗?兼谈其‘幻想’”“预训练技术争议与语言符号奠基问题”等,有些评论内容已超出神经机器翻译甚至机器翻译的范畴,涉及自然语言处理乃至人工智能等更广泛的议题。这些短评既可以结合相应技术章节阅读,也可以单独阅读。它们不仅包含本书作者的观点,也涉及许多其他机器翻译、自然语言处理研究人员的发现、观察及思考等。因此,这些短评可为机器翻译研究者、实践者、使用者、爱好者和旁观者等不同读者提供一个理解机器翻译技术的新视角。受限于本书作者水平,短评及书中观点难免存在错漏,敬请读者批评指正!


机器翻译是计算机科学与语言学交叉形成的最早的研究方向,计算语言学最初以机器翻译技术研究为中心,在机器翻译初期研究遇到困难之后(ALPAC报告),其他分支开始广泛发展起来。机器翻译本身的高难度及历史发展原因,使机器翻译成为自然语言处理技术的集大成者及发源地。一方面,很多自然语言处理技术在机器翻译中得到广泛应用,如词法分析、句法分析、语义分析、语篇分析、知识图谱和信息检索等;有些自然语言处理技术即使没有直接应用于机器翻译,它们与机器翻译仍然存在诸多交叉重叠之处,如自然语言生成、对话和问答等。另一方面,自然语言处理的很多技术源自机器翻译,如深度学习驱动的自然语言处理,很多底层技术最初是在机器翻译领域提出或最先应用于机器翻译的,如序列到序列编码器-解码器框架、Transformer 等。这些技术最早应用于机器翻译,后来拓展到自然语言处理的其他任务上;有些技术甚至应用到自然语言处理之外的其他领域,如Transformer 应用于计算机视觉、语音等。

鉴于此,本书在介绍机器翻译技术时,尽可能兼顾自然语言处理,对技术的介绍希望从更广的角度展开,如:


61 第16 章介绍的融合知识的方法,对其他自然语言处理任务融合知识具有一定启发意义;

61 第17 章介绍的鲁棒性技术,不仅仅面向神经机器翻译,也面向其他自然语言处理模型;

61 第18 章介绍的大规模多语言神经机器翻译模型的设计及训练方法,也适用于其他自然语言处理大模型,如预训练语言模型。


此外,本书还涉及并讨论了自然语言处理相关的大量概念,如语篇、常识、低资源、语言类型学和语法性别等。

因此,虽然本书的主题是机器翻译,但是对自然语言处理技术感兴趣的读者,也可以将本书作为参考书使用。

熊德意

2021 年6 月1 日


目录

推荐序

前言

数学符号

第1 章绪论/1

1.1 引言/ 2

1.2 基本思想/ 6

1.3 解码/ 12

1.4 神经机器翻译与统计机器翻译对比/18

1.5 发展历史/27

1.6 应用现状/29

1.7 本书组织/33

1.8 阅读材料/35

1.9 短评:统计与规则的竞争/36


第I 部分基础篇

第2 章神经网络基础/41

2.1 神经网络/42

2.2 神经网络训练/48

2.3 常用神经网络简介/61

2.4 阅读材料/70

2.5 短评:神经网络与自然语言处理关系演变/71


第3 章自然语言处理基础/75

3.1 语言模型/ 76

3.2 词嵌入/82

3.3 对齐/ 90

3.4 语言分析/ 93

3.5 阅读材料/99

3.6 短评:自然语言处理之经验主义与理性主义/100


第II 部分原理篇

第4 章经典神经机器翻译/105

4.1 编码器-解码器结构/106

4.2 序列到序列学习/112

4.3 训练/114

4.4 解码/114

4.5 阅读材料/116

4.6 短评:神经机器翻译之独立同发现——编码器-解码器vs. 序列到序列/117


第5 章基于注意力的神经机器翻译/119

5.1 经典神经机器翻译模型的瓶颈/120

5.2 注意力机制/120

5.3 注意力机制的改进/124

5.4 基于注意力的多层神经机器翻译模型GNMT/127

5.5 阅读材料/128

5.6 短评:注意力机制与认知注意/129


第6 章基于卷积神经网络的神经机器翻译模型/131

6.1 卷积编码器/132

6.2 全卷积序列到序列模型/133

6.3 ByteNet/137

6.4 阅读材料/139

6.5 短评:卷积神经机器翻译——实用性倒逼技术创新/140


第7 章基于自注意力的神经机器翻译/142

7.1 自注意力机制/143

7.2 Transformer 模型/144

7.3 自注意力改进方法/149

7.4 阅读材料/152

7.5 短评:Transformer 带来的自然语言处理技术革新/153


第8 章神经机器翻译若干基础问题及解决方案/156

8.1 开放词汇表/157

8.2 深度模型/161

8.3 快速解码/162

8.4 模型融合/166

8.5 领域适应/169

8.6 阅读材料/172

8.7 短评:再谈神经机器翻译新思想新技术的诞生/173


第III 部分实践篇

第9 章数据准备/176

9.1 平行语料/177

9.2 语料获取/179

9.3 数据过滤与质量评估/183

9.4 数据处理/186

9.5 阅读材料/188

9.6 短评:浅谈数据对机器翻译的重要性 /188


第10 章训练/191

10.1 mini-batch 设置/192

10.2 学习速率设置/195

10.3 随机梯度下降算法选择/197

10.4 其他超参数选择/200

10.5 分布式训练/202

10.6 Transformer 训练设置/207

10.7 阅读材料/209

10.8 短评:超参数设置——自动优化与实验可复现性/ 210


第11 章测试/213

11.1 解码/214

11.2 解码和训练不一致/218

11.3 机器翻译评测方法/ 220

11.4 错误分析/ 223

11.5 阅读材料 /225

11.6 短评:评测驱动机器翻译研究/ 225


第12 章部署/233

12.1 GPU 环境下的部署/234

12.2 CPU 环境下的部署/237

12.3 智能终端部署/240

12.4 模型压缩与计算加速/244

12.5 阅读材料/245

12.6 短评:机器翻译工业部署 /246


第13 章系统设计与实现/251

13.1 总体设计/252

13.2 功能设计/254

13.3 开源系统/ 257

13.4 FAIRSEQ 解析/259

13.5 阅读材料/264

13.6 短评:机器翻译开源之路/ 264


第IV 部分进阶篇

第14 章语篇级神经机器翻译/271

14.1 什么是语篇/272

14.2 语篇级机器翻译面临的挑战/274

14.3 语篇级机器翻译形式化定义/275

14.4 语篇级神经机器翻译方法 /276

14.5 面向语篇现象的机器翻译评测数据集/288

14.6 语篇级机器翻译评测方法/288

14.7 未来方向/289

14.8 阅读材料/290

14.9 短评:神经机器翻译达到人类同等水平了吗/292


第15 章低资源及无监督神经机器翻译/296

15.1 低资源语言与资源稀缺挑战/297

15.2 低资源神经机器翻译/298

15.3 无监督机器翻译/305

15.4 未来方向/311

15.5 阅读材料/312

15.6 短评:无监督机器翻译之美及挑战/ 312


第16 章融合知识的神经机器翻译/315

16.1 知识与机器翻译 /316

16.2 语言学知识融合/318

16.3 非语言学知识融合/324

16.4 双语知识融合/328

16.5 内部知识迁移/332

16.6 未来方向/337

16.7 阅读材料/337

16.8 短评:浅谈基于知识的机器翻译/ 338


第17 章鲁棒神经机器翻译/342

17.1 鲁棒性概述/343

17.2 对抗鲁棒性/346

17.3 对抗样本生成/347

17.4 对抗训练/355

17.5 数据集/356

17.6 未来方向/358

17.7 阅读材料/359

17.8 短评:神经机器翻译是疯子吗?兼谈其“幻想”/ 360


第18 章多语言神经机器翻译/363

18.1 基本思想与形式化定义/364

18.2 多语言机器翻译vs. 双语机器翻译/365

18.3 多语言神经机器翻译模型/367

18.4 训练数据采样方法/ 375

18.5 大规模多语言神经机器翻译/376

18.6 多语言神经机器翻译向双语神经机器翻译迁移/ 384

18.7 未来方向/386

18.8 阅读材料/389

18.9 短评:多语言机器翻译之美/390


第19 章语音与视觉多模态神经机器翻译/393

19.1 文本模态之外的机器翻译 /394

19.2 端到端语音翻译/ 395

19.3 视觉引导的多模态神经机器翻译/ 407

19.4 阅读材料/ 417

19.5 短评:预训练技术争议与符号奠基问题/ 419


第20 章发展趋势与展望/427

20.1 展望/ 428

20.2 本书未覆盖内容/ 429

20.3 短评:科幻中的机器翻译与未来机器翻译/ 433

参考文献/439

索引/482


产品特色