书籍作者:(美)David Marr(大卫?马尔) | ISBN:9787121423703 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:4803 |
创建日期:2022-10-12 | 发布日期:2022-10-12 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
《视觉:对人类如何表示和处理视觉信息的计算研究》研究了人类对视觉信息的表示和处理,并对视觉计算处理过程提出了全面的计算理论。全书立足于计算机科学的进展,是跨学科交叉研究的经典教科书,并对多个学科的研究都有深刻启发作用。特别值得一提的是,在近年深度学习的热潮之中,了解掌握本书介绍的视觉计算理论对于在人工智能和计算机视觉领域内开展进一步探索是至关重要的。
作者:David Courtnay Marr是计算神经科学领域的创始人之一,曾任麻省理工学院心理学教授。Shimon Ullman是位于以色列雷霍沃特的魏茨曼科学研究所的计算机科学Samy和Ruth Cohn讲席教授。Tomaso Poggio是麻省理工学院脑和认知科学系的Eugene McDermott讲席教授。Ullman和Poggio都曾在麻省理工学院与David Marr共事。
译者:吴佳俊,斯坦福大学计算机科学系助理教授,研究方向是计算机视觉、机器学习和计算认知科学。 加入斯坦福大学之前,曾是谷歌研究院的访问研究员,并分别在清华大学和麻省理工学院获得了学士和博士学位。 他的研究曾获ACM博士学位论文荣誉提名奖、AAAI/ACM SIGAI博士学位论文奖、麻省理工学院George M. Sprowls人工智能与决策博士学位论文奖,以及2020年三星人工智能年度研究人员奖。
√影响一代脑、认知、计算机视觉专家的经典著作
√详细阐述Marr提出的用于研究和理解视觉感知的一般框架
√厘清计算理论、算法、实现三个研究层次
√掌握本书介绍的视觉计算理论,对在人工智能和计算机视觉领域内开展进一步探索至关重要
√吴佳俊教授倾情翻译
深度学习和相关领域的进步向Marr对视觉和人工智能的看法提出了多重挑战。也许最核心的一点是挑战了Marr的基本方法,即为人类视觉和人工智能问题寻求他所谓的“计算理论”。在Marr的书中,他提出了如今已众所周知的划分,即将对信息处理系统的理解分为三个层次:计算理论层次、算法层次和硬件实现层次。粗略地说,Marr的重点是在计算理论层次,而当前的深度网络建模则侧重于算法和实现层次,摒弃了计算理论的概念。
例如,在处理从双眼视觉计算三维形状的问题时,Marr和Poggio描述了许多使该任务成为可能的一般原则。简而言之,计算任务依赖于在左右眼获得的两张图像中建立视觉特征之间的对应关系。为了获得可靠的对应关系,最合适的特征是多个层次上清晰的图像强度变化(边)。通过将问题简化为沿所谓的极线进行一维搜索,对相应特征的搜索就变得容易了。根据这样的分析,他们描述了基于这一任务的基本原理的计算理论,并继续描述了两种均以该理论为指导的不同算法(详见本书第3章)。 类似地,基于Horn从明暗中提取三维形状的工作,第3章还使用了图像形成的基本物理方程来描述这个视觉任务的基本理论,并使用了平滑约束来恢复表面朝向,并以此恢复表面的三维形状。
相比之下,在深度学习方法中,视觉问题是通过对任务进行端到端的训练来解决的。这些训练基于图像示例,并将其与所需的输出配对。作为计算理论支柱的基本原则在这里并不起直接作用。这些原则可能会被网络模型隐式地发现并使用,但它们不会被从外部提供或显式地使用。这种方法上的差异会对Marr的方法和方法论的其他核心问题产生影响。例如,Marr强调基于计算理论的模块化设计的用处,而深度学习方法则强调端到端训练的价值。由于Marr寻求解法背后独立于特定的实现算法的基本原则,他自然认为对人类感知和人脑的研究与计算机视觉和人工智能密切相关。这是因为在基本的层次上,类似的问题很可能以类似的原则为基础进行处理。本书中的大部分讨论都关乎这些相似性的本质。那么,Marr的方法和深度学习是两种相反的可能,其在算法层次上是否对比了计算理论与端到端学习?需要注意的一点是,这两种方法其实并不能被明确地区分开来。Marr在一篇不太为人所知的论文中讨论了这个问题。该论文发表于本书英文版成书之前,题为“Artificial Intelligence–A Personal View”。在这篇论文中,Marr区分了两种类型的理论,称之为“类型 1”与“类型 2”。类型1理论受一套清晰的基本原则支配,而完整的理论正遵循这些原则。相比之下,类型2理论被描述为“通过大量进程的同时运作所解决的问题,这些进程的交互是对这个问题最简单的描述”。Marr强调视觉和人工智能中的许多问题可能是类型1和类型2的混合,而不属于“纯”类型1,而有些问题则可能完全是类型2的。
对我们人类来说,有充分的理由去寻找理论中类型1的那些层面,并在可能的情 况下使它们显式化。这是因为这些有原则的理论提供了类型2的黑盒理论所缺乏的解释。但是,在解决视觉、人工智能和人类认知方面的问题时,这些原则是否真的必要,或者至少非常有用?可能有人会说并非如此:如果我们将进化视为长期试错学习的一部分,并最终导向了我们目前的视觉和认知系统,那么扩展的端到端学习处理过程,在没有指导原则或模块化设计且结合进化和个体学习的情形下,必须足以获取视觉和认知。然而,使用当今的深度学习来实现这种扩展的学习方法是否可行,仍是一个悬而未决的问题。有很多通过当前的网络模型和训练方法取得成功的视觉算法的例子。与此同时,这种学习仍然存在根本的困难。首先是超大规模的有监督数据集被广泛且越来越多地使用。其次是当前方案在远远超出训练示例所代表的分布的情况下的泛化能力很有限。这种限制可能与当前方法发现和使用的类型1原则的短缺有关。最后,目前的学习模型是否走在正确的轨道上,以在视觉、自然语言和一般认知方面达到“真 实”的、类似人类的理解,这一点仍不清楚,也难以确定。人类证明了学习此类处理过程是可能的,但我们可能需要额外的学习方法来实现这种学习,而这可能超出了当前的技术能力。
在Marr的方法的框架中,为了获得类似人类的理解和通用的人工智能,我们可能需要更能发现他的类型1通用原则的方法。对此类方法的发现可能来自理论和计算研究,并且正如Marr所建议的那样,我们还可以尝试采用人脑和认知系统已经使用的类型1原则。
第Ⅰ部分 引言和哲学基础
第1章 哲学原理和方法 7
1.1 背景知识 7
1.2 理解复杂的信息处理系统 16
表示和描述 16
处理 17
信息处理的三个层次 19
计算理论的重要性 21
J. J. Gibson 的方法 22
1.3 视觉的表示框架 24
第Ⅱ部分 视觉
第2章 图像的表示 33
2.1 早期视觉的物理背景 33
图像的表示 35
基本物理假设 35
图像表示的一般性质 40
2.2 过零点和原初草图 42
过零点 42
生物学的意义 48
原初草图 54
哲学私语 59
2.3 图像的空间排布 62
2.4 光源和透明度 68
其他光源效果 70
透明 70
结论 71
2.5 聚合过程和全初草图 71
主要论点 75
纹理辨别的计算方法及其心理物理学意义 76
第3章 从图像到表面 78
3.1 人类视觉处理的模块化组织 78
3.2 图像的处理、约束和可用表示 81
3.3 立体视觉 87
测量立体视差 87
从视差中计算距离和表面朝向 121
3.4 方向选择性 124
视觉运动引言 124
利用方向选择性来分离独立运动的表面 136
渐进 141
3.5 似动 141
为什么要研究似动 142
把问题一分为二 143
对应问题 146
从运动中恢复结构 158
光流 164
3.6 形状轮廓 166
一些例子 167
遮挡轮廓 168
表面朝向的不连续 173
表面轮廓 175
3.7 表面纹理 180
分离纹理元素 180
小结 184
3.8 明暗和光度立体视觉 184
梯度空间 185
表面光照、表面反射和图像强度 188
反射率图 189
从明暗中恢复形状 191
光度立体视觉 192
3.9 明度、亮度和色彩 194
Helson-Judd 方法 195
关于亮度和色彩的视网膜—皮层理论 196
同时对比的重要性的物理依据 200
对强度非线性变化的表层起源的假设 202
测量三色图像的意义 203
本方法小结 204
3.10 本章小结 205
第4章 可见表面的直接表示 208
4.1 引言 208
4.2 图像分割 209
4.3 对问题的重新建模 211
4.4 需要表示的信息 213
4.5 2.5 维草图的一般形式 215
4.6 表示的可能形式 216
4.7 可能的坐标系 220
4.8 插值、延续性和不连续性 221
4.9 插值问题的计算 224
不连续 224
插值方法 226
4.10 其他内部计算 228
第5章 用于识别的形状表示 230
5.1 引言 230
5.2 形状表示引起的问题 231
评判形状表示的有效性的标准 232
形状表示的设计选择 233
5.3 三维模型表示 235
自然坐标系 236
基于坐标轴的描述 236
三维模型表示的模块化组织 237
三维模型的坐标系 239
5.4 自然推广 241
5.5 推导和使用三维模型表示 244
三维模型描述的推导 244
以观察者为中心的坐标系和以物体为中心的坐标系的关系 247
三维模型的索引和目录 247
推导和识别的交互 250
5.6 心理学的考量 253
第6章 总结 256
第Ⅲ部分 尾声
第7章 对计算方法的辩护 261
7.1 引言 261
7.2 一段对话 261
原书第2版后记Marr的《视觉》和计算神经科学 284
中文版后记从Marr的《视觉》到人类智能问题 288
术语表 292
参考文献 298
好书,层次化思考问题,对话式讲述观点
2022-01-18 13:46:30
不错的书籍,权威,值得学习
2022-01-16 18:51:08
本书很好,看这本书很好看。
2022-01-21 18:14:19
内容视野很广,作为拓展读物不错的。
2022-01-21 23:38:16
最近在搞这方面的研究 所以赶紧把书买来了 买之前呢试读了一部分章节 感觉挺不错的 所以就买来了 希望能用到实际的工程里发挥作用
2022-01-25 13:12:28
物流速度快,书本包装精致
2022-01-25 08:50:05
很好很好,推荐推荐。
2022-01-24 23:35:49
一本神书 可惜了作者
2022-01-26 23:53:40
物流给力,正版新书!
2022-01-25 22:10:49
好书
2022-01-22 22:56:11