书籍作者:潘攀 | ISBN:9787121407499 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:4216 |
创建日期:2021-10-07 | 发布日期:2021-10-07 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
图像搜索和识别是计算机视觉领域一个非常重要且基础的题目。本书对构成图像搜索和识别系统的各个算法基础模块一一做了介绍,并在最后一章以拍立淘为例说明了各个模块是怎样一起工作的。针对每个算法模块,本书不仅深入浅出地解释了算法的工作原理,还对算法背后的演进机理和不同方法的特点进行了说明,在第2章至第8章最后均提供了经典算法的PyTorch 代码和相关参考资料。
本书既适合图像搜索和识别领域的初学者,也适合在某个单一任务方面有经验但是想扩充知识面的读者。
潘攀,花名启磐。
阿里巴巴集团资深算法专家,达摩院视觉理解&互动视觉负责人,负责电商领域的视觉技术研发。
拍立淘以图搜图的负责人和创始人之一,为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。
博士毕业于美国伊利诺伊大学芝加哥分校,研究领域包括深度学习和计算机视觉等。
曾先后在美国三菱研究院和北京富士通研发中心从事视觉技术研发工作。
已发表20余篇论文,拥有10余授权专利,并获得WebVision分类,COCO检测,DAVIS分割等国际计算机视觉竞赛冠军。
拍立淘是阿里巴巴推出的以图搜图产品,率先改变了消费者购物的方式,影响深远。
本书围绕该产品的技术、工程实践,多角度、立体化地揭示了背后的技术机理:
1、首度剖析基于深度学习的亿级图像检索技术平台,揭示精准推荐的技术奥秘
2、深度分析计算机视觉重要算法原理与应用场景,配以详尽的PyTorch代码
3、阐述构建大规划图像搜索平台思路、技巧与落地经验
作者潘攀是阿里巴巴集团资深算法专家,达摩院视觉理解&互动视觉负责人,负责电商领域的视觉技术研发;拍立淘以图搜图的负责人和创始人之一,为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。
《深度学习图像搜索与识别》总结了计算机视觉领域重大的落地产品实践,获得业界的一致好评与推崇,达摩院金榕院长、贾扬清等大咖纷纷力荐!
干货满满,诚意十足,先入为快!
推荐序2
基于图像内容的搜索,也就是Content Based Image Retrieval(CBIR)是一个有着悠久研究历史,需要跨越图像理解、机器学习和搜索引擎等技术的交叉研究方向。
首先很高兴看到这本围绕最新深度学习技术的图像搜索应用实践之作问世。经过6年之久的持续打磨,阿里巴巴的视觉算法团队在超大规模图像搜索方向取得了引人注目的成绩。
回顾阿里巴巴以图搜图技术的演进过程,在超大规模分类(Extreme Classification)、领域自适应的表征学习、端侧高效的检测和分割、高维向量空间索引,以及多模态表征融合等一系列课题上都取得了实质性的突破,并在实际的业务系统中发挥了重要作用。整本书围绕图像搜索技术,从底层的视觉感知、向量表征到高维向量空间索引都进行了体系性的介绍,相信本书无论对于初学图像搜索的学生,还是对于希望在图像搜索领域深耕的研发人员都将大有裨益,也期待更多优秀的成果应运而生。
本书基本按照构建一个图像搜索系统所必备的技术能力逐一展开系统性的介绍,详尽地介绍近年来具有代表性的工作并给出清晰的指引,其中涉及的核心模块有:
第一,原始图像集合的结构化理解,从单标签/多标签分类,到针对图像细粒度分类模型的建立,兼顾图像全局信息和局部细节的表征模型构建,书中对近年来具有代表性的工作做了详细的介绍。
第二,针对查询图与数据库图的有效距离度量的表征学习,系统性地介绍了基于分类识别和度量学习的特征学习方法,基本涵盖了目前业界有代表性的工作。
第三,高维向量空间索引是图像搜索引擎所必备的核心模块,本书围绕近邻和近似近邻方法,对近几年具有代表性的工作做了细致的阐述,并且给出了不同索引方法在系统建设层面的优缺点,供研发人员参考。
第四,构建一个高价值图像搜索系统所要解决的一个问题是,如何能够从图中捕捉和匹配用户兴趣点,这背后需要进一步深化对图像内容细节的理解。毋庸置疑,图像检测和分割技术是不可或缺的能力,是促进图像搜索系统实现交互智能的关键组成部分。本书系统介绍了近年来检测和分割技术方向的最新进展。
第五,在图文理解章节,介绍了多模态领域中图像搜索系统的一些学术和工业界有代表性的工作,起到抛砖引玉的作用。在视频为主流消费内容的时代,多模态领域的研究是一个重要的方向。有理由相信,未来会有大量工作围绕如何突破多模态融合、多模态映射、多模态对齐、多模态表征以及多模态学习这五个关键课题展开。
图像/视频搜索虽然是一个有很长研究历史的技术方向,但仍然有很多值得我们思考和挑战的问题,比如如何构建任意物体的实例搜索能力,如何解决搜索结果的可解释性(Scene Graph Understanding),如何解决多模态交互、多模态匹配和多模态排序,如何在系统层面解决索引表征模型的低成本构建和更新,这些都有待同人持续地研究并在实际应用领域开花结果。
徐盈辉,阿里巴巴集团研究员,达摩院机器智能技术视觉技术负责人
序
近些年,随着深度学习技术的发展,以及GPU和云计算等运算力的增强,计算机视觉技术逐渐进入实用阶段。无论是在电商、安防、娱乐,还是在医疗、自动驾驶等领域,计算机视觉技术都扮演着重要的角色。计算机视觉技术是一个很广的题目,涵盖图像搜索和识别、视频理解、三维视觉等领域。图像搜索和识别是计算机视觉里一个非常重要且基础的题目。在深度学习的推动下,图像搜索和识别的精度和效率都有了极大提升,使其不仅在学术圈非常火热,在工业界也引人注目。
在阿里巴巴广阔的商业和数据生态的发展中,图像搜索和识别的技术研发与商业化落地一直密不可分。比如拍立淘利用图像搜索和识别技术,帮助淘宝、天猫、AliExpress、Lazada等电商App的用户在移动端通过拍照就能找到相同或相似的商品,从而方便购物;比如在线下新零售领域,阿里巴巴研发了人的追踪和空间定位、货架商品SKU识别等技术,以推动商场、超市、酒店的人—货—场数字化,并在此基础上做进一步的商业分析。在安防领域,阿里巴巴研发了人和车辆的搜索和识别等技术,帮助识别城市交通事故、判断人流轨迹以及汇总交通数据样本等。
2014年初我加入阿里巴巴。两个月之后,阿里巴巴图像搜索和识别产品拍立淘启动,我非常有幸成为算法和项目负责人,见证了拍立淘从诞生到发展的过程。从拍立淘2014年首次上线开始,我们不断打磨产品/工程/算法,以给用户提供更精准和更高品质的搜索结果,至今,它已经成为每天的独立访客数超过两千万的应用。对于拍立淘,我们从第一天就使用深度学习技术来进行算法研发和系统设计。这些年,随着拍立淘业务的发展,自己和团队也在基于深度学习的图像搜索和识别领域不断学习、积累和创新。
相比2014年初,现在学习技术的条件好了很多。arxiv.org和各个学术会议上层出不穷的论文、深度学习的多种开源框架,以及开源社区上的各种代码,都极大地降低了技术学习和研发的成本。但也因为现在是一个知识大爆炸的时代,初学者会感觉无从下手。仅CVPR2019就收录了1294篇论文,如果每天看3篇,全部看完也需要大概一年多的时间。丰富的信息在提供便利的同时,给信息的筛选和迅速掌握带来了一些困难。
当电子工业出版社的刘皎编辑联系我写一本图像搜索和识别的书时,“回归基础”四个字首先浮现在我的脑海。本书对构成图像搜索和识别系统的各个算法基础模块做了介绍,并在最后一章以拍立淘为例说明了各个模块是怎样一起工作的。对于每个算法模块,本书不仅深入浅出地解释算法的工作原理,还对算法背后的演进机理和不同方法的特点进行了说明,在第2至第8章最后均提供了经典算法的PyTorch代码和相关参考资料。因此,本书既适合图像搜索和识别领域的初学者,也适合在某个单一任务方面有经验但是想扩充知识面的读者。
本书的写作过程耗时一年,在这期间拍立淘的技术和业务都取得了不错的增长。感谢公司对我写书的支持,感谢拍立淘算法团队在技术讨论中不断帮助我提升技术水平。感谢谢晨伟、赵黎明、赵康、张严浩、张迎亚、王彬、郑赟在本书写作和修改过程中的帮助。感谢我的父母、爱人和女儿一直以来的支持。
当下的计算机视觉技术无疑是AI浪潮中火热的题目,广受关注。视觉技术的渗透,既可能改造传统商业、带来新的商业机会,也可能创造全新的商业需求和市场。好的视觉技术不仅需要有好的方法指引,还需要在实际场景中形成数据闭环,并不断打磨。未来的计算机视觉技术一定是理论探索和数据实践的共同推进。希望本书能抛砖引玉,给学术界和工业界提供一些输入,从而共同推进计算机视觉技术的发展。学海无涯,个人的知识有限,书中如有疏漏,还请各位读者见谅和指正。
潘攀(启磐)
阿里巴巴集团资深算法专家
2020年6月于北京
1 概述 1
1.1 图像搜索与识别概述 1
1.2 图像搜索与识别技术的发展和应用 3
1.3 深度学习与图像搜索和识别 4
1.4 本书结构 6
2 深度卷积神经网络 8
2.1 概述 8
2.1.1 深度学习背景 8
2.1.2 深度卷积神经网络 9
2.2 CNN基础操作 11
2.2.1 卷积操作 11
2.2.2 池化操作 12
2.2.3 全连接层 13
2.2.4 激活层 14
2.2.5 批归一化层 14
2.2.6 小结 16
2.3 常见的CNN模型结构 16
2.3.1 网络结构超参数 17
2.3.2 单分支网络结构 19
2.3.3 多分支网络结构 24
2.3.4 小结 38
2.4 常见目标损失函数 38
2.5 本章总结 40
2.6 参考资料 40
3 图像分类 43
3.1 概述 43
3.2 单标记分类 44
3.2.1 常用数据集及评价指标 44
3.2.2 损失函数 45
3.2.3 提升分类精度的实用技巧 47
3.2.4 基于搜索的图像分类 50
3.3 细粒度图像分类 51
3.3.1 概述 51
3.3.2 基于部件对齐的细粒度分类方法 52
3.3.3 基于高阶特征池化的细粒度分类方法 55
3.3.4 小结 56
3.4 多标记图像分类 56
3.4.1 概述 56
3.4.2 baseline:一阶方法 58
3.4.3 标记关系建模 59
3.4.4 小结 60
3.5 代码实践 61
3.6 本章总结 63
3.7 参考资料 63
4 目标检测 66
4.1 概述 66
4.2 两阶段目标检测算法 68
4.2.1 候选框生成 69
4.2.2 特征抽取 71
4.2.3 训练策略 73
4.2.4 小结 76
4.3 单阶段目标检测算法 76
4.3.1 YOLO算法 76
4.3.2 SSD算法 78
4.3.3 RetinaNet算法 81
4.3.4 无锚点框检测算法 83
4.3.5 小结 87
4.4 代码实践 88
4.5 本章总结 91
4.6 参考资料 92
5 图像分割 95
5.1 概述 95
5.2 语义分割 96
5.2.1 概述 96
5.2.2 全卷积神经网络 97
5.2.3 空洞卷积 99
5.2.4 U-Net结构 100
5.2.5 条件随机场关系建模 101
5.2.6 Look Wider to See Better 103
5.2.7 Atrous Spatial Pyramid Pooling算法 104
5.2.8 Context Encoding for Semantic Segmentation 104
5.2.9 多卡同步批归一化 107
5.2.10 小结 107
5.3 实例分割 108
5.3.1 概述 108
5.3.2 FCIS 109
5.3.3 Mask R-CNN 111
5.3.4 Hybrid Task Cascade框架 113
5.3.5 小结 115
5.4 代码实践 115
5.5 本章总结 120
5.6 参考资料 120
6 特征学习 124
6.1 概述 124
6.2 基于分类识别的特征训练 126
6.2.1 Sigmoid函数 127
6.2.2 Softmax函数 128
6.2.3 Weighted Softmax函数 129
6.2.4 Large-Margin Softmax函数 130
6.2.5 ArcFace函数 132
6.2.6 小结 133
6.3 基于度量学习的特征训练 134
6.3.1 Contrastive损失函数 135
6.3.2 Triplet损失函数 137
6.3.3 三元组损失函数在行人再识别中的应用 139
6.3.4 Quadruplet损失函数 140
6.3.5 Listwise Learning 141
6.3.6 组合损失函数 142
6.3.7 小结 142
6.4 代码实践 143
6.5 本章总结 143
6.6 参考资料 144
7 向量检索 147
7.1 概述 147
7.2 局部敏感哈希算法 149
7.2.1 预处理 150
7.2.2 搜索 151
7.2.3 小结 152
7.3 乘积量化系列算法 152
7.3.1 PQ算法 153
7.3.2 IVFPQ算法 155
7.3.3 OPQ算法 156
7.3.4 小结 157
7.4 图搜索算法 157
7.4.1 NSW算法 158
7.4.2 Kgraph算法 161
7.4.3 HNSW算法 163
7.4.4 图搜索算法实验对比 165
7.4.5 小结 165
7.5 代码实践 166
7.6 本章总结 167
7.7 参考资料 168
8 图文理解 171
8.1 概述 171
8.2 图文识别 172
8.2.1 概述 172
8.2.2 数据集和评测标准 174
8.2.3 特征融合方法 176
8.2.4 小结 182
8.3 图文搜索 182
8.3.1 概述 182
8.3.2 数据集和评测标准 184
8.3.3 Dual Attention Networks 185
8.3.4 Bottom-Up Attention 187
8.3.5 图文搜索的损失函数 189
8.3.6 小结 190
8.4 代码实践 191
8.5 本章总结 194
8.6 参考资料 194
9 阿里巴巴图像搜索识别系统 197
9.1 概述 197
9.2 背景介绍 198
9.3 图像搜索架构 200
9.3.1 类目预测模块 200
9.3.2 目标检测和特征联合学习 201
9.3.3 图像索引和检索 205
9.4 实验和结果分析 207
9.5 本章总结 210
9.6 参考资料 211
因为介绍的内容很多,所以每个模块讲的都不细致,作为了解领域内知识的科普读物还可以,不适合作为深入研究的书
2021-04-25 15:49:10
物流很快,书籍是正版的,很满意
2021-04-18 09:17:46
质量挺好,物流也很快,赞!
2021-04-20 17:15:24
****出品,必属精品。刚发行就半价,很给力
2021-04-19 10:19:34