猜你喜欢
神经网络与深度学习

神经网络与深度学习

书籍作者:閭遍敗楣 ISBN:9787111649687
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:7234
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书是深度学习领域的入门教材,系统地整理了深度学习的知识体系,并由浅入深地阐述了深度学习的原理、模型以及方法,使得读者能全面地掌握深度学习的相关知识,并提高以深度学习技术来解决实际问题的能力。

全书共15章,分为三个部分。第一部分为机器学习基础:第1章是绪论,介绍人工智能、机器学习、深度学习的概要,使读者全面了解相关知识;第2~3章介绍机器学习的基础知识。第二部分是基础模型:第4~6章分别讲述三种主要的神经网络模型:前馈神经网络、卷积神经网络和循环神经网络;第7章介绍神经网络的优化与正则化方法;第8章介绍神经网络中的注意力机制和外部记忆;第9章简要介绍一些无监督学习方法;第10章介绍一些模型独立的机器学习方法,包括集成学习、自训练、协同训练、多任务学习、迁移学习、终身学习、元学习等。第三部分是进阶模型:第11章介绍概率图模型的基本概念,为后面的章节进行铺垫;第12章介绍两种早期的深度学习模型:玻尔兹曼机和深度信念网络;第13章介绍深度生成模型,包括变分自编码器和生成对抗网络;第14章介绍深度强化学习;第15章介绍应用十分广泛的序列生成模型。

本书可作为高等院校人工智能、计算机、自动化、电子和通信等相关专业的研究生或本科生教材,也可供相关领域的研究人员和工程技术人员参考。

本书还配备了教学PPT、编程练习以及课后习题的讨论,参见网址:https://nndl.github.io/。


作者简介

邱锡鹏

复旦大学计算机科学技术学院教授、博士生导师,于复旦大学获得理学学士和博士学位。主要研究领域包括自然语言处理、机器学习、深度学习等,在相关领域的权威国际期刊、会议上发表学术论文60余篇,获得计算语言学国际会议ACL 2017杰出论文奖、全国计算语言学会议CCL 2019最佳论文奖,2015年入选首届中国科协青年人才托举工程,2018年获得中国中文信息学会“钱伟长中文信息处理科学技术奖青年创新一等奖”,入选由“清华—中国工程院知识智能联合研究中心和清华大学人工智能研究院”联合发布的2020年人工智能(AI)全球具影响力学者提名。该排名参考过去十年人工智能各子领域最有影响力的会议和期刊发表论文的引用情况,排名前10的学者当选该领域当年影响力学者奖,排名前100的其他学者获影响力学者提名奖。作为项目负责人开源发布了两个自然语言处理开源系统FudanNLP和FastNLP,获得了学术界和产业界的广泛使用。目前担任中国中文信息学会青年工作委员会执行委员、计算语言学专委会委员、语言与知识计算专委会委员,中国人工智能学会青年工作委员会常务委员、自然语言理解专委会委员。

编辑推荐
适读人群 :1.高校人工智能等相关专业方向的本科生和研究生;2.深度学习/机器学习/AI算法/自然语言处理工程师;3.从事机器学习和自然语言处理研究的专业人员;4.其他对深度学习和神经网络感兴趣的人员。

1)复旦大学邱锡鹏教授基于优秀科研和教学实践,历时5年时间静心写作、不断完善,深受好评的深度学习讲义正式版!

2)字节跳动AI实验室主任李航、南京大学周志华教授、复旦大学吴立德教授强力推荐。

3)系统整理深度学习的知识体系,从机器学习基础、神经网络模型以及概率图模型三个层面来串联深度学习所涉及的知识点,兼具系统性、条理性和全面性。

4)在网站上配套了教学PPT以及针对每章知识点的编程练习,理论和实践结合,加深读者对知识的理解,并提高问题求解能力。

5)内容安排由浅入深,语言表达通俗易懂,排版布局图文并茂,全彩印刷装帧精美。


前言

◆ 推荐序◆

很高兴为邱锡鹏教授的《神经网络与深度学习》一书写序.

近年来由于阿尔法围棋战胜人类顶级高手新闻的轰动效应,让人工智能一下子进入了寻常百姓家,成为家喻户晓的热词.阿尔法围棋能取得如此成功的关键技术之一,正是所谓的深度学习.而其实在阿尔法围棋出现之前,以深度学习为代表的人工智能技术已经在模式识别、计算机视觉、语音识别与生成、自然语言处理、机器翻译等方面取得了重要的进步.也因此,2018年有计算机领域诺贝尔奖之称的图灵奖颁给了对深度学习作出重要贡献的三位科学家:YoshuaBengio、GeoffeyHinton和YannLeCun.

邱锡鹏教授的《神经网络与深度学习》一书较全面地介绍了神经网络、机器学习和深度学习的基本概念、模型和方法,同时也涉及深度学习中许多最新进展.书后还提供了相关数学分支的简要介绍,以供读者需要时参考.

本书电子版已在GitHub上开放共享,得到广泛好评,相信此书的出版可以给有意了解或进入这一颇有前途领域的读者提供一本很好的参考书.基本的深度学习相当于函数逼近问题,即函数或曲面的拟合,所不同的是,这里用作基函数的是非线性的神经网络函数,而原来数学中用的则是多项式、三角多项式、B-spline、一般spline以及小波函数等的线性组合.

由于神经网络的非线性和复杂性(要用许多结构参数和连接权值来描述),它有更强的表达能力,即从给定的神经网络函数族中可能找到对特定数据集拟合得更好的神经网络.相信这正是深度学习方法能得到一系列很好结果的重要原因.直观上很清楚,当你有更多的选择时,你有可能作出更好的选择.当然,要从非常非常多的选择中找到那个更好的选择并不容易.

这里既涉及设计合适的神经网络类型,也涉及从该类型的神经网络中找出好的(即拟合误差小的)特定神经网络的方法.后者正是数学中最优化分支所研究的问题.从数学角度看,目前深度学习中所用的优化算法还是属于比较简单的梯度下降法.许多数学中已有的更复杂的算法,由于高维数问题都还没有得到应用.本书中对这两方面都有很好的介绍.相信随着研究的不断发展,今后一定会提出更多新的神经网络和新的优化算法.

所谓成也萧何败也萧何,神经网络的非线性和复杂性(即要用大量参数来描述,在深度网络场合其个数动辄上万、百万甚至更多)使得虽然通过大量的标注数据经过深度学习可以得到一个结果误差很小的神经网络,但要用它来进行解释却十分困难.其实这也是长期困扰神经网络方法的一个问题,使用深度神经网络的深度学习方法也概莫能外.

难于解释相当于知其然不知其所以然.这对有些应用而言是可以的,但对有些可能造成严重后果的应用而言则有很大问题.一般而言,人们除了希望知其然,也会希望能知其所以然.

近来也有学者发现,一个精度很高的神经网络,去改变它的几个(甚至一个)参数,就会使该网络的性能下降许多.换言之,深度学习方法的鲁棒性也有待研究.

总之,本书介绍的基于神经网络的深度学习方法是近年来经过大量实践并取得很好成果的一种很通用的方法,也是近年来人工智能领域中最活跃的分支之一.相信无论在方法本身的发展上,抑或在新领域应用的研发上,都会呈现出一派欣欣向荣的气象.

吴立德

于上海·复旦大学

2019年8月17日

◆ 前言◆

近年来,以机器学习、知识图谱为代表的人工智能技术逐渐变得普及.从车牌识别、人脸识别、语音识别、智能助手、推荐系统到自动驾驶,人们在日常生活中都可能有意无意地用到了人工智能技术.这些技术的背后都离不开人工智能领域研究者的长期努力.特别是最近这几年,得益于数据的增多、计算能力的增强、学习算法的成熟以及应用场景的丰富,越来越多的人开始关注这个“崭新”的研究领域:深度学习.深度学习以神经网络为主要模型,一开始用来解决机器学习中的表示学习问题.但是由于其强大的能力,深度学习越来越多地用来解决一些通用人工智能问题,比如推理、决策等.目前,深度学习技术在学术界和工业界取得了广泛的成功,受到高度重视,并掀起新一轮的人工智能热潮.

然而,我们也应充分意识到目前以深度学习为核心的各种人工智能技术和“人类智能”还不能相提并论.深度学习需要大量的标注数据,和人类的学习方式差异性很大.虽然深度学习取得了很大的成功,但是深度学习还不是一种可以解决一系列复杂问题的通用智能技术,而是可以解决单个问题的一系列技术.比如可以打败人类的AlphaGo只能下围棋,而不会做简单的算术运算.想要达到通用人工智能依然困难重重.

本书的写作目的是使得读者能够掌握神经网络与深度学习技术的基本原理,知其然还要知其所以然.全书共15章.第1章是绪论,概要介绍人工智能、机器学习和深度学习,使读者全面了解相关知识.第2、3章介绍机器学习的基础知识.第4~6章分别讲述三种主要的神经网络模型:前馈神经网络、卷积神经网络和循环神经网络.第7章介绍神经网络的优化与正则化方法.第8章介绍神经网络中的注意力机制和外部记忆.第9章简要介绍一些无监督学习方法.第10章介绍一些模型独立的机器学习方法:集成学习、自训练和协同训练、多任务学习、迁移学习、终身学习、元学习等,这些都是目前深度学习的难点和热点问题.第11章介绍概率图模型的基本概念,为后面的章节进行铺垫.第12章介绍两种早期的深度学习模型:玻尔兹曼机和深度信念网络.第13章介绍最近两年发展十分迅速的深度生成模型:变分自编码器和生成对抗网络.第14章介绍深度强化学习的知识.第15章介绍应用十分广泛的序列生成模型.

2015年复旦大学计算机学院开设了“神经网络与深度学习”课程.讲好深度学习课程并不是一件容易的事,当时还没有关于深度学习的系统介绍,而且课程涉及的知识点非常多并且比较杂乱,和实践结合也十分紧密.作为任课教师,我尝试梳理了深度学习的知识体系,并写了一本讲义放在网络上.虽然现在看起来当时对深度学习的理解仍然十分粗浅,且讲义存在很多错误,但依然受到了很多热心网友的鼓励.2016年年初,机械工业出版社华章公司的姚蕾编辑多次拜访并希望我能将这个讲义整理成书.我一方面被姚蕾编辑的诚意打动,另一方面也确实感到应该有一本面向在校学生和相关从业人员的关于深度学习的专门书籍,因此最终有了正式出版的意愿.但我依然低估了写书的难度,一方面是深度学习的发展十分迅速,而自己关于深度学习的认知也在不断变化,导致已写好的内容经常需要修改;另一方面是平时的科研工作十分繁忙,很难抽出大段的时间来静心写作,因此断断续续的写作一直拖延至今.

我理想中著书立说的境界是在某一个领域有自己的理论体系,将各式各样的方法都统一到自己的体系下,并可以容纳大多数技术,从新的角度来重新解释这些技术.本书显然还达不到这样的水平,但希望能结合自身的经验,对神经网络和深度学习的相关知识进行梳理、总结,通过写书这一途径,也促使自己能够更加深入地理解深度学习这一领域,提高自身的理论水平.

本书能够完成,首先感谢我的导师吴立德教授,他对深度学习的独到见解和深入浅出的讲授,使得我对深度学习有了更深层次的认识,也感谢复旦大学计算机学院的黄萱菁教授和薛向阳教授的支持和帮助.本书在写作时将书稿放在网络上,也得到很多网友的帮助,特别感谢王利锋、林同茂、张钧瑞、李浩、胡可鑫、韦鹏辉、徐国海、侯宇蓬、任强、王少敬、肖耀、李鹏等人指出了本书初稿的错误或提出了富有建设性的意见.此外,本书在写作过程中参考了互联网上大量的优秀资料,如维基百科、知乎、Quora等网站.

另外,我也特别感谢我的家人.本书的写作占用了大量的业余时间,没有家人的理解和支持,这本书不可能完成.

最后,因为个人能力有限,书中难免有不当和错误之处,还望读者海涵和指正,不胜感激.

邱锡鹏

于上海·复旦大学

2020年3月31日


目录

前言

常用符号表

第1章 绪论3

1.1人工智能...............................4

1.2机器学习...............................7

1.3表示学习...............................8

1.4深度学习...............................11

1.5神经网络...............................13

1.6本书的知识体系...........................17

1.7常用的深度学习框架.........................18

1.8总结和深入阅读...........................20

第2章 机器学习概述23

2.1基本概念...............................24

2.2机器学习的三个基本要素......................26

2.3机器学习的简单示例——线性回归.................33

2.4偏差-方差分解............................38

2.5机器学习算法的类型.........................41

2.6数据的特征表示...........................43

2.7评价指标...............................46

2.8理论和定理..............................49

2.9总结和深入阅读...........................51

第3章 线性模型

3.1线性判别函数和决策边界......................56

3.2Logistic回归.............................59

3.3Softmax回归.............................61

3.4感知器.................................64

3.5支持向量机..............................71

3.6损失函数对比.............................75

3.7总结和深入阅读...........................76

第二部分 基础模型

第4章 前馈神经网络81

4.1神经元.................................82

4.1.1Sigmoid型函数.......................83

4.1.2ReLU函数..........................86

4.1.3Swish函数..........................88

4.1.4GELU函数..........................89

4.1.5Maxout单元.........................89

4.2网络结构...............................90

4.3前馈神经网络.............................91

4.4反向传播算法.............................95

4.5自动梯度计算.............................98

4.6优化问题...............................103

4.7总结和深入阅读...........................104

第5章 卷积神经网络109

5.1卷积..................................110

5.2卷积神经网络.............................115

5.3参数学习...............................120

5.4几种典型的卷积神经网络......................121

5.5其他卷积方式.............................127

5.6总结和深入阅读...........................130

第6章 循环神经网络133

6.1给网络增加记忆能力.........................134

6.2简单循环网络.............................135

6.3应用到机器学习...........................138

6.4参数学习...............................140

6.5长程依赖问题.............................143

6.5.1改进方案...........................144

6.6基于门控的循环神经网络......................145

6.7深层循环神经网络..........................149

6.8扩展到图结构.............................151

6.9总结和深入阅读...........................153

第7章 网络优化与正则化157

7.1网络优化...............................157

7.2优化算法...............................160

7.3参数初始化..............................171

7.4数据预处理..............................176

7.5逐层归一化..............................178

7.6超参数优化..............................183

7.7网络正则化..............................186

7.8总结和深入阅读...........................192

第8章 注意力机制与外部记忆197

8.1认知神经学中的注意力.......................198

8.2注意力机制..............................199

8.3自注意力模型.............................203

8.4人脑中的记忆.............................205

8.5记忆增强神经网络..........................207

8.6基于神经动力学的联想记忆.....................211

8.6.1Hopfiel网络........................212

8.7总结和深入阅读...........................215

第9章 无监督学习219

9.1无监督特征学习...........................220

9.2概率密度估计.............................227

9.3总结和深入阅读...........................232

第10章 模型独立的学习方式235

10.1集成学习...............................235

10.1.1AdaBoost算法........................237

10.2自训练和协同训练..........................240

10.3多任务学习..............................242

10.4迁移学习...............................245

10.5终身学习...............................249

10.6元学习.................................252

10.7总结和深入阅读...........................255

第三部分 进阶模型

第11章 概率图模型261

11.1模型表示...............................262

11.2学习..................................271

11.3推断..................................279

11.4变分推断...............................283

11.5基于采样法的近似推断.......................285

11.6总结和深入阅读...........................292

第12章 深度信念网络297

12.1玻尔兹曼机..............................297

12.2受限玻尔兹曼机...........................304

12.3深度信念网络.............................309

12.4总结和深入阅读...........................313

第13章 深度生成模型317

13.1概率生成模型.............................318

13.2变分自编码器.............................319

13.3生成对抗网络.............................327

13.3.1显式密度模型和隐式密度模型...............327

13.3.2网络分解...........................327

13.3.3训练..............................329

13.3.4一个生成对抗网络的具体实现:DCGAN..........330

13.3.5模型分析...........................330

13.3.6改进模型...........................333

13.4总结和深入阅读...........................336

第14章 深度强化学习339

14.1强化学习问题.............................340

14.1.1典型例子...........................340

14.1.2强化学习定义........................340

14.1.3马尔可夫决策过程......................341

14.1.4强化学习的目标函数....................343

14.1.5值函数............................344

14.1.6深度强化学习........................345

14.2基于值函数的学习方法.......................346

14.2.1动态规划算法........................346

14.2.2蒙特卡罗方法........................349

14.2.3时序差分学习方法......................350

14.2.4深度Q网络..........................353

14.3基于策略函数的学习方法......................354

14.3.1REINFORCE算法......................356

14.3.2带基准线的REINFORCE算法...............356

14.4演员-评论员算法...........................358

14.5总结和深入阅读...........................360

第15章 序列生成模型365

15.1序列概率模型.............................366

15.1.1序列生成...........................367

15.2N元统计模型.............................368

15.3深度序列模型.............................370

15.3.1模型结构...........................370

15.3.2参数学习...........................373

15.4评价方法...............................373

15.4.1困惑度............................373

15.4.2BLEU算法..........................374

15.4.3ROUGE算法.........................375

15.5序列生成模型中的学习问题.....................375

15.5.1曝光偏差问题........................376

15.5.2训练目标不一致问题....................377

15.5.3计算效率问题........................377

15.6序列到序列模型...........................385

15.6.1基于循环神经网络的序列到序列模型...........386

15.6.2基于注意力的序列到序列模型...............387

15.6.3基于自注意力的序列到序列模型..............388

15.7总结和深入阅读...........................390

附录数学基础 393

附录A 线性代数 394

附录B 微积分 404

附录C 数学优化 413

附录D 概率论 420

附录E 信息论 433

索引 439

短评

深入浅出讲解深度学习的佳作,全彩印刷,值得这个价格。

2020-05-02

神经网络与深度学习的书评

比花书内容多一些,深度比不上prml等圣经级书籍,行文不太连贯,有博文拼凑之感,或者说只是一本讲义而非适合自学的参考书,没有一气呵成的感觉,应用部分也不多,对于初学者难度大了些,对于老手用处又不大。希望纸质书印制时可以优化一下,斟酌一下行文,同时增加一些习题,...

2019-06-12 10:37:45

标签
深度学习,人工智能,神经网络,模式识别,机器学习,ML,计算机科学,自然语言处理
产品特色