猜你喜欢
数学之美(第三版)

数学之美(第三版)

书籍作者:鍚村啗 ISBN:9787115537973
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:11172
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

八年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。


在纸本书的创作中,作者几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。


本书第一版荣获国家图书馆第八届文津图书奖。第二版增加了针对大数据和机器学习的内容。第三版增加了三章新内容,分别介绍当今非常热门的三个主题:区块链的数学基础,量子通信的原理,以及人工智能的数学极限。

作者简介

吴军,学者,投资人,人工智能、语音识别和互联网搜索专家。毕业于清华大学和美国约翰·霍普金斯大学,现任丰元资本创始合伙人、上海交通大学客座教授、约翰·霍普金斯大学工学院董事等职。


吴军博士曾作为资深研究员和副总裁分别任职于Google公司和腾讯公司。在Google公司,他和同事一同开创了搜索反作弊研究领域,成立了中、日、韩文产品部门,设计了Google中、日、韩文搜索算法,领导了Google自然语言处理和自动问答等研究型项目,拥有近20项美国发明专利。在腾讯公司,他负责了搜索、搜索广告和街景地图等项目。作为风险投资人,他成功地投资了150家硅谷和中国的高科技企业。吴军博士对科技产业有深入的研究,是当今硅谷地区解读IT产业的专家。


吴军博士著有《数学之美》《大学之路》《文明之光》《智能时代》《见识》《态度》和《全球科技通史》等多部畅销书,并多次获得包括文津奖、中国好书奖、中华优秀出版物在内的图书大奖。

编辑推荐
适读人群 :IT行业从业人员,对计算机算法感兴趣的学生,有数学基础的非IT人员

这是一本备受推崇的经典科普作品,被央视推荐为数学学科的敲门砖,是信息领域大学生的必读好书。


数学既是对于自然界事实的总结和归纳,又是抽象思考的结果。在《数学之美》里,吴军博士集中阐述了他对数学和信息处理这些专业学科的理解,把数学在IT领域,特别是语音识别、自然语言处理和信息搜索等方面的美丽之处予以了精彩表达,这些都是智能时代的热门技术话题。


本书还用了大量篇幅介绍各个领域的典故,是文科生也可以看懂的科普读物。成为一个领域的大师有其偶然性,但更有其必然性。其必然性就是大师们的思维方法。通过本书,可以了解他们的平凡与卓越,理解他们取得成功的原因,感受那些真正懂得数学之美的人们所拥有的美好人生。


本书先后荣获国家图书馆第八届文津图书奖、第五届中华优秀出版物奖图书提名奖、入选广电总局“2014年向全国青少年推荐百种优秀图书书目”、第一版曾荣获2012-2013年度全行业畅销书,《数学之美》多次被中央电视台、学习强国平台、新华书店推选为必读书。《数学之美》给广大读者,尤其是在校读大学甚至读高中的年轻人带去了美的数学启示,作者更希望中国做工程的年轻人,能够从《数学之美》中体会到在信息技术行业做事情的正确方法,以便在职业和生活上都获得成功。


第三版增加了三章新内容,分别介绍当今非常热门的三个主题:区块链的数学基础,量子通信的原理,以及人工智能的数学极限。

前言

第三版前言

数学一词在西方源于古希腊语μ?θημα,意思是通过学习获得的知识。从这个角度来说,早期的数学涵盖的范围比我们今天讲的数学要广得多,和人类的生活也更接近一些。

早期的数学远不如今天神秘,它是非常真实的。与任何事物一样,数学也在不断地演化,而这个发展过程使得数学变得高深起来。数学演化的过程,实际上是将我们生活中遇到的具体事物及其运动的规律不断抽象化的过程。经过几千年的抽象化,大家头脑里能想象的数学只剩下数字、符号、公式和定理了。这些东西和我们的生活似乎渐行渐远,甚至在表面上毫不相关了。今天,除了初等数学,大家一般对数学,尤其是纯粹数学(Pure Mathematics)的用途甚至产生了怀疑。很多大学生毕业后,在大学所学的数学可能一辈子都没有机会应用,几年后就忘得差不多了。这样,很多人也就产生了为什么要学习数学的疑问。更加不幸的是,数学专业的毕业生连就业也颇为困难,在中国和美国都是如此。在很多国人眼里,数学家都像陈景润那样戴着厚厚的镜片、言行举止多少有些木讷。因此,在一般人看来,无论是这些抽象的数字、符号、公式和定理,还是研究它们的数学家,似乎都和美没有什么联系。

然而,事实上数学的用途远远超乎人们的想象,甚至可以说在我们的生活中无处不在。且不说那些和我们生活联系相对较少的领域,比如原子能和航天,都需要用到大量的数学知识。就说我们天天用的产品和技术,背后都有支持它们的数学基础。作为一名工作了20多年的科学工作者,我在工作中经常惊叹数学语言应用于解决实际问题时的魔力。因此,我也很希望把这种神奇讲给大家听。

在古代,最重要的知识,除了对世界的认识和了解,就是人与人之间的互通和交流了,我们把它称为广义上的通信。本书的内容也将从这里开始。为了展示数学的美妙之处,我之所以选择了以通信这个领域为切入点,一来是因为数学在通信中应用非常普遍,二来通信和我们的生活息息相连。从工业社会起,通信就占据了人们生活的大量时间。当人类进入电的时代后,通信的扩展不仅拉近了人与人的距离,而且成为带动世界经济增长的火车头。如今,通信及其相关产业可能占到世界GDP很大的一部分。今天城市里的人们花时间最多的,无非是在电视机前、互联网上、电话上(不论是固定电话还是手机),这些都是这样或那样的通信方式。甚至原本必须人到现场的很多活动,比如购物,也被建立在现代通信基础之上的电子商务逐渐取代。而现代通信,追溯到100多年前的莫尔斯电报码和贝尔的电话,再回到今天的电视、手机和互联网,都遵循着信息论的规律,而整个信息论的基础就是数学。如果往更远处看,我们人类的自然语言和文字的起源背后都受着数学规律的支配。

“信”字作为“通信”一词的50%,表明了信息的存储、传输、处理和理解的重要性。今天每个人都要使用的搜索,以及我们都觉得很神奇的语音识别、机器翻译和自然语言处理也被包括在其中。也许大家想不到,解决这些问题最好的工具就是数学。人们不仅能够十分清晰地用一些通用的数学模型来描述这些领域里看似不同的实际问题,而且能给出非常漂亮的解决办法。每当人们应用数学工具解决了一个个和信息处理相关的问题时,总会感叹数学之美。虽然人类的语言有成百上千种,但处理它们的数学模型却是相同或相似的,这种一致性也是数学之美的表现。在这本书中,我们将介绍一些数学工具,看看人们是如何利用这些数学工具来处理信息,开发出生活中每天都会用到的产品。

数学总是会给人一种深奥和复杂的感觉,但它的本质却常常是简单而直接的。英国哲学家弗朗西斯?培根在《论美德》这篇文章中讲:“美德就如同华贵的宝石,在朴素的衬托下最显华丽。”(Virtue is like a rich stone, best plain set.)数学的美妙,也恰恰在于一个好的方法,通常是最简单明了的方法。因此,我会将“简单即是美”的思想贯穿全书。

相比第二版,这一版增加了三章新内容,分别介绍当今非常热门的三个主题:区块链的数学基础,量子通信的原理,以及人工智能的数学极限。除此之外,与时俱进,对部分原有章节做了相应的更正和必要的补充。

最后,要说明一下本书为何用了不少篇幅来介绍很多我所熟知的自然语言处理和通信领域的世界级专家。这些世界级专家,他们来自不同的国家或民族,不过都有着一个共同的特点,那就是他们的数学基础都特别好,同时运用数学解决了很多实际问题。通过介绍他们日常的工作和生活,希望能让读者对真正的世界级学者有更多的了解和理解。了解他们的平凡与卓越,理解他们取得成功的原因,感受那些真正懂得数学之美的人们所拥有的美好人生。

吴军

2020年3月于硅谷

目录

I 第二版序言

III 第一版序言

VI 第三版前言


1 第1章 文字和语言 vs 数字和信息

文字和语言与数学,从产生起原本就有相通性,虽然它们的发展一度分道扬镳,但是最终还是能走到一起。

1 信息

2 文字和数字

3 文字和语言背后的数学

15 第2章 自然语言处理——从规则到统计

人类对机器理解自然语言的认识走了一条大弯路。早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。直到20多年后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。

1 机器智能

2 从规则到统计

27 第3章 统计语言模型

统计语言模型是自然语言处理的基础,并且被广泛应用于机器翻译、语音识别、印刷体,或手写体识别、拼写纠错、汉字输入和文献查询。

1 用数学的方法描述语言规律

2 延伸阅读:统计语言模型的工程诀窍

41 第4章 谈谈分词

中文分词是中文信息处理的基础,它同样走过了一段弯路,目前依靠统计语言模型已经基本解决了这个问题。

1 中文分词方法的演变

2 延伸阅读:如何衡量分词的结果

50 第5章 隐马尔可夫模型

隐马尔可夫模型最初应用于通信领域,继而推广到语音和语言处理中,成为连接自然语言处理和通信的桥梁。同时,隐马尔可夫模型也是机器学习的主要工具之一。

1 通信模型

2 隐马尔可夫模型

3 延伸阅读:隐马尔可夫模型的训练

60 第6章 信息的度量和作用

信息是可以量化度量的。信息熵不仅是对信息的量化度量,也是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义。

1 信息熵

2 信息的作用

3 互信息

4 延伸阅读:相对熵

72 第7章 贾里尼克和现代语言处理

作为现代自然语言处理的奠基者,贾里尼克教授成功地将数学原理应用于自然语言处理领域中,他的一生富于传奇色彩。

1 早年生活

2 从水门事件到莫妮卡·莱温斯基

3 一位老人的奇迹

82 第8章 简单之美——布尔代数和搜索引擎

布尔代数虽然非常简单,却是计算机科学的基础,它不仅把逻辑和数学合二为一,而且给了我们一个全新的视角看待世界,开创了数字化时代。

1 布尔代数

2 索引

89 第9章 图论和网络爬虫

互联网搜索引擎在建立索引前需要用一个程序自动地将所有的网页下载到服务器上,这个程序称为网络爬虫,它的编写是基于离散数学中图论的原理。

1 图论

2 网络爬虫

3 延伸阅读:图论的两点补充说明

98 第10章 PageRank——Google的民主表决式网页排名技术

网页排名技术PageRank是早期Google的杀手锏,它的出现使得网页搜索的质量上了一个大的台阶。它背后的原理是图论和线性代数的矩阵运算。

1 PageRank算法的原理

2 延伸阅读:PageRank的计算方法

104 第11章 如何确定网页和查询的相关性

确定网页和查询的相关性是网页搜索的根本问题,其中确定查询中每个关键词的重要性有多高是关键。TF-IDF是目前通用的关键词重要性的度量,其背后的原理是信息论。

1 搜索关键词权重的科学度量TF-IDF

2 延伸阅读:TF-IDF 的信息论依据

111 第12章 有限状态机和动态规划——地图与本地搜索的核心技术

地图与本地搜索中要用到有限状态机和动态规划技术。这两项技术是机器智能和机器学习的工具,它们的应用非常广泛,还包括语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析等。

1 地址分析和有限状态机

2 全球导航和动态规划

3 延伸阅读:有限状态传感器

121 第13章 Google AK-47的设计者——阿米特·辛格博士

在所有轻武器中最有名的是AK-47冲锋枪,因为它从不卡壳,不易损坏,可在任何环境下使用,可靠性好,杀伤力大并且操作简单。Google的产品就是按照上述原则设计的。

127 第14章 余弦定理和新闻的分类

计算机虽然读不懂新闻,却可以准确地对新闻进行分类。其数学工具是看似毫不相干的余弦定理。

1 新闻的特征向量

2 向量距离的度量

3 延伸阅读:计算向量余弦的技巧

136 第15章 矩阵运算和文本处理中的两个分类问题

无论是词汇的聚类还是文本的分类,都可以通过线性代数中矩阵的奇异值分解来进行。这样一来,自然语言处理的问题就变成了一个数学问题。

1 文本和词汇的矩阵

2 延伸阅读:奇异值分解的方法和应用场景

142 第16章 信息指纹及其应用

世间万物都有一个唯一标识的特征,信息也是如此。每一条信息都有它特定的指纹,通过这个指纹可以区别不同的信息。

1 信息指纹

2 信息指纹的用途

3 延伸阅读:信息指纹的重复性和相似哈希

153 第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理

密码学的根本是信息论和数学。没有信息论指导的密码是非常容易被破解的。只有在信息论被广泛应用于密码学后,密码才真正变得安全。

1 密码学的自发时代

2 信息论时代的密码学

162 第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题

闪光的不一定是金子,搜索引擎中排名靠前的网页也未必是有用的网页。消除这些作弊网页的原理和通信中过滤噪声的原理相同。这说明信息处理和通信的很多原理是相通的。

1 搜索引擎的反作弊

2 搜索结果的权威性

171 第19章 谈谈数学模型的重要性

正确的数学模型在科学和工程中至关重要,而发现正确模型的途径常常是曲折的。正确的模型在形式上通常是简单的。

179 第20章 不要把鸡蛋放到一个篮子里——谈谈最大熵模型

最大熵模型是一个完美的数学模型。它可以将各种信息整合到一个统一的模型中,在信息处理和机器学习中有着广泛的应用。它在形式上非常简单、优美,而在实现时需要有精深的数学基础和高超的技巧。

1 最大熵原理和最大熵模型

2 延伸阅读:最大熵模型的训练

186 第21章 拼音输入法的数学原理

汉字的输入过程本身就是人和计算机之间的通信。好的输入法会自觉或不自觉地遵循通信的数学模型。当然要做出最有效的输入法,应当自觉使用信息论做指导。

1 输入法与编码

2 输入一个汉字需要敲多少个键——谈谈香农第一定理

3 拼音转汉字的算法

4 延伸阅读:个性化的语言模型

197 第22章 自然语言处理的教父马库斯和他的优秀弟子们

将自然语言处理从基于规则的研究方法转到基于统计的研究方法上,宾夕法尼亚大学的教授米奇·马库斯功不可没。他创立了今天在学术界广泛使用的LCD语料库,同时培养了一大批精英人物。

1 教父马库斯

2 从宾夕法尼亚大学走出的精英们

204 第23章 布隆过滤器

日常生活中,经常要判断一个元素是否在一个集合中。布隆过滤器是计算机工程中解决这个问题最好的数学

工具。

1 布隆过滤器的原理

2 延伸阅读:布隆过滤器的误识别问题

209 第24章 马尔可夫链的扩展——贝叶斯网络

贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。而从认识论的层面看:贝叶斯网络克服了马尔可夫链那种机械的线性约束,它可以把任何有关联的事件统一到它的框架下面。它在生物统计、图像处理、决策支持系统和博弈论中都有广泛的使用。

1 贝叶斯网络

2 贝叶斯网络在词分类中的应用

3 延伸阅读:贝叶斯网络的训练

217 第25章 条件随机场、文法分析及其他

条件随机场是计算联合概率分布的有效模型,而句子的文法分析似乎是英文课上英语老师教的东西,这两者有什么联系呢?

1 文法分析——计算机算法的演变

2 条件随机场

3 条件随机场在其他领域的应用

227 第26章 维特比和他的维特比算法

维特比算法是现代数字通信中使用最频繁的算法,也是很多自然语言处理采用的解码算法。可以毫不夸张地

讲,维特比是对我们今天的生活影响力最大的科学家之一,因为基于CDMA的3G移动通信标准主要就是他和厄文·雅各布创办的高通公司制定的。

1 维特比算法

2 CDMA技术——3G移动通信的基础

238 第27章 上帝的算法——期望最大化算法

只要有一些训练数据,再定义一个最大化函数,采用EM算法,利用计算机经过若干次迭代,就可以得到所需要的模型。这实在是太美妙了,这也许是造物主刻意安排的,所以我把它称作上帝的算法。

1 文本的自收敛分类

2 延伸阅读:期望最大化和收敛的必然性

244 第28章 逻辑回归和搜索广告

逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,它不仅在搜索广告中起着重要的作用,而且被广泛应用于信息处理和生物统计中。

1 搜索广告的发展

2 逻辑回归模型

249 第29章 各个击破算法和Google云计算的基础

Google颇为神秘的云计算中最重要的MapReduce工具,其原理就是计算机算法中常用的“各个击破”算法,它的原理原来这么简单——将复杂的大问题分解成很多小问题分别求解,然后再把小问题的解合并成原始问题的解。由此可见,在生活中大量用到的、真正有用的方法常常都是简单朴实的。

1 分治算法的原理

2 从分治算法到MapReduce

254 第30章 Google大脑和人工神经网络

Google大脑并不是一个什么都能思考的大脑,而是一个很能计算的人工神经网络。因此,与其说Google大脑很聪明,不如说它很能算。不过,换个角度来说,随着计算能力的不断提高,计算量大但简单的数学方法有时能够解决很复杂的问题。

1 人工神经网络

2 训练人工神经网络

3 人工神经网络与贝叶斯网络的关系

4 延伸阅读:Google大脑

274 第31章 区块链的数学基础——椭圆曲线加密原理

希尔伯特讲,“我们直到能够把一门自然科学的数学内核剥出并完全地揭示出来,才能够掌握它。”以比特币为代表的加密货币的基础是数学的算法,只有搞清楚加密货币的数学内核,我们才能了解它的本质。

1 不对称、不透明之美

2 椭圆曲线加密的原理

282 第32章 大数据的威力——谈谈数据的重要性

如果说在过去的40年里,主导全球IT产业发展的是摩尔定律,那么在今后的20年里,主导IT行业继续发展的动力则将来自于数据。

1 数据的重要性

2 数据的统计和信息技术

3 为什么需要大数据

304 第33章 随机性带来的好处——量子密钥分发的数学原理

人们总是喜欢确定性而不喜欢随机性。但是从对确定性规律的把握上升到对随机性规律的把握,恰恰是近代数学进步的标志。量子通信就是建立在把握了有关随机性规律的基础之上。

1 用(激光)量子的偏振方向传递信息

2 利用随机性保证信息安全

312 第34章 数学的极限——希尔伯特第十问题和机器智能的极限

世界上只有一小部分问题是数学问题,而数学问题中又只有极小的一部分问题有解。在这些问题中,今天已经找到相应算法的少之又少。因此,数学不是万能的,我们需要了解数学的边界在哪里。

1 图灵划定计算机可计算问题的边界

2 希尔伯特划定有解数学问题的边界

3 延伸阅读:关于图灵机

323 附录 计算复杂度

327 第三版后记

333 索引

短评

是一本很不错值得读的一杯书 很引人深思

2020-04-28

不错挺好看的

2020-04-28

数学之美(第三版)的书评

《数学之美》是一本备受推崇的书,今天在搭乘高铁回广州的时候翻看了一下。我觉得这本书的名字改为《数学应用之美》甚至《信息论应用之美》更为合适。对于希望体验数学之美的同学,我推荐 S. Lang 的 《做数学之美妙》,见 http://book.douban.com/subject/1327048/ 。 这本书...

2012-08-20 18:36:56

大学三年,聊天时有时会听到一些奇怪的言论,比如:“现在学的这些东西有什么用,大学怎么都教这些过时的东西。”诚然大陆学校有时会教授一些过时的东西,譬如听说有的学校还教授vb和fortran这样的语言,但我知道这话常常针对数学、通信原理、数电、模电这类的基础理论的,背后...

2012-06-04 20:03:44

很多朋友问我,为什么我会想起来写这个系列?虽然谷歌黑板报的本意是希望我从一个Google 科学家的角度介绍一下Google 的技术,但是我更希望让做工程的年轻人看到在信息技术行业正确的做事情方法。无论是在美国还是在中国,我经常看到大部分软件工程师在一个未知领域都是从...

2012-05-22 15:49:48

没有剧透,仅抛砖引玉。 —————————— 盛传大学有一棵树叫高树,许多童鞋在上面吊死了。后来发现一棵长在数学系的树,叫分析树,它足够高,很多人趴在上面往下看,结果吓死了。 在大街上随机采访一些读过大学的年轻人,问微积分是什么,十有八九回答不上来,这个结论...

2012-05-30 11:45:01

去年我曾经给吴军的《浪潮之巅》写序,今年很高兴得知他的《数学之美》也即将出版了! 和《浪潮之巅》一样,《数学之美》也是当年作为 Google 资深研究员的吴军在谷歌黑板报上应邀撰写的一系列文章。说实在的,刚开始,黑板报的版主还有点担心这个系列会不会让读者...

2012-05-23 15:09:26

利用周一到周三的出差时间,在火车上将《数学之美》这本书看完了。这是我第一次这么高效率的看完一本非小说书籍,因为上周开始在读《如何高效阅读》,想磨磨刀,把耽误的砍柴功给补回来,手头实在太多的书债欠在那了。所谓买书如山倒,读书如抽丝,长此以往,这债是还不了了。...

2015-08-14 00:52:13

这两年多学习函数式编程,先学haskell,后学scala,越来越感觉到数学的妙用和自身数学基础的薄弱。 在用函数式编程方法开发时,一个明显的感受是大部分时间在“想”而不是像以前直接在敲代码,很可能一个问题想不通怎么解决,而“想通”以后,解决问题可能只要几行代码,而不...

2012-12-21 14:11:58

前一阵子因兴趣研究CMUSphinx这套库的应用不得要领,就去查看了下一些语音识别的基本原理的文章,偶然碰到了数学之美。其实浪潮之巅也是因此开始看的、结果先一步看完了,毕竟一本历史书,一本介绍数学和语言处理的,难度不同 说实话,因为初中高中荒废了太多时间,我的英文和...

2012-07-20 18:17:33

大学时候,某个教授告诉我们,学好数学才能真正学好计算机。当时我笑了,心想:数学和计算机能有多大的关系呢?于是果断的抛弃了数学,潜心学算法和程序设计。 若干年后,我读了博士,面对一个又一个计算机学科中的问题,深感到数学功底不够。我可以用算法知识去解决...

2013-05-02 08:54:20

近期阅读,吴军博士的文字《数学之美》 每每体会,记录一下。 http://bbs.bianzhirensheng.com/thread-1294201-1-1.html 1、自然语言处理研究的"鸟飞派"认为看看鸟怎么飞,就能模仿鸟造出飞机,而不需要了解空气动力学。事实是,怀特兄弟靠的是空气动力学而不是仿生学。 ...

2014-02-02 20:50:12

标签
数学文化,数学,科普,信息,计算机,数据分析,书单
产品特色