猜你喜欢
人工智能注意力机制:体系、模型与算法剖析    傅罡

人工智能注意力机制:体系、模型与算法剖析 傅罡

书籍作者:傅罡 ISBN:9787111744764
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:5361
创建日期:2024-06-27 发布日期:2024-06-27
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介
“注意”作为一切思维活动的起点,一直是哲学、心理学和认知神经科学的重点研究对象。随着计算机技术的发展,人类对注意力机制的模拟和应用成为计算机科学领域的热点研究方向——让计算机能够具有类似人类的注意力机制,使其能够有效地应用于对数据的理解和分析。Transformer模型诞生后,注意力机制在人工智能各大重要领域的研究和应用更是如火如荼,成果丰硕。
《人工智能注意力机制:体系、模型与算法剖析》从注意力机制这一重要角度入手,阐述注意力机制的产生背景和发展历程,通过详实的理论剖析,以深入浅出的方式着重介绍注意力机制在计算机视觉、自然语言处理,以及多模态机器学习三大人工智能方向中的应用思路、模型与算法。
《人工智能注意力机制:体系、模型与算法剖析》以人工智能相关专业研究人员,特别是计算机视觉与自然语言处理等领域的研发人员作为主要读者对象,一方面帮其梳理技术的发展脉络、开拓思路、构建完整的认知体系;另一方面为其剖析算法原理、深刻理解算法细节。本书提供配套源代码,下载方式见封底。
作者简介
傅罡,博士,毕业于清华大学,高级工程师。现就职于同方威视技术股份有限公司人工智能研发中心,长期负责人工智能算法研发和研发管理工作。2015年,进入清华大学同方威视校企联合博士后工作站进行博士后研究工作。2017年至今,作为技术负责人或骨干参与多个国家级和省部级重点研究项目。长期关注人工智能技术的进展,对自然语言处理、计算机视觉等领域的各类人工智能算法有着深刻的理解和独到的见解,并擅长用通俗易懂的语言进行阐述和表达。
编辑推荐
适读人群 :人工智能相关专业从业人员、院校师生
《人工智能注意力机制:体系、模型与算法剖析》融合了资深开发工程师多年一线工作经验,从注意力机制这一重要角度入手,阐述注意力机制的产生背景和发展历程,通过详实的理论剖析,以深入浅出的方式着重介绍注意力机制在计算机视觉与自然语言处理两大人工智能方向中的体系、模型与算法,并在最后将注意力机制在其他智能领域的应用加以拓展。内容循序渐进,图文细腻讲解,使读者身临其境,迅速、深入地掌握各种经验和技巧。
前言
“注意是我们心灵的唯一门户,意识中的一切,必然都要经过它才能进来。”
——俄国著名教育家、俄国教育学体系创立者乌申斯基

幼儿园阿姨总是拍着手对小朋友说“小朋友请看我这里……”,英语老师也常常敲着黑板要求学生“pay attention……”。无论是幼儿园阿姨还是英语老师,他们的目的是相同的——让他人“集中注意”。那么,所谓的“注意”到底是什么?
不同的学科会从不同的视角对注意做出不同的解释。从生理学视角,注意是我们的感觉器官对外界事物做出的有侧重的响应,并由此引发一系列的生理活动。例如,以视觉注意力为例,就在此时此刻,你正在读的这句话,没错,就是这句话,你的眼球就聚焦在这句话上,其他的文字仿佛“形同虚设”;从心理学视角,注意是心理活动对对象的指向和集中。我们对某事物“有所思”,正是因为我们将心智指向并聚焦在该事物上,即对该事物产生了注意;从认知学视角,注意是外界信息进入认知环节的唯一通路……但无论从哪个视角定义,注意的核心理念是统一的:注意是一切思维活动的起点——有注意,方有思考,通过注意,才能认知。
人工智能(Artificial Intelligence)作为计算机科学的一个重要分支,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术体系。能够让机器以人类智能相似的方式认知世界并做出恰当的反应,一直是人工智能技术追求的目标。既然注意作为一切认知的起点,对注意力机制的探索与模拟也是人工智能领域的一个重点研究方向。
本书从注意力机制这一重要角度入手,阐述注意力机制的产生背景和发展历程,通过详实的理论剖析,以深入浅出的方式着重介绍注意力机制在计算机视觉(Computer Vision)与自然语言处理(Natural Language Processing)两大人工智能方向中的体系、模型与算法,并在最后将注意力机制在其他智能领域的应用加以拓展。
全书一共分7章。第1章沿着时间线索,从相对宏观的角度,从哲学思辨到计算机科学,介绍注意力机制研究的“前世今生”。尤其是在计算机科学部分,介绍目前人工智能领域中各方向围绕注意力机制的研究现状。第2章介绍计算机视觉领域中的注意力机制。该章从注意力的分类谈起,讨论视觉显著性模型这一注意力在计算机视觉的最直接体现。然后从5类典型计算机视觉任务入手,介绍计算机视觉领域任务驱动注意力机制的应用并深度剖析若干算法实例。最后再举若干模型实例,介绍神经网络中“即插即用”的注意力模块。需要说明的是,本章内容不包括Transformer在计算机视觉领域“踢馆”的部分,我们将该部分作为第6章的内容。第3章介绍“前Transformer时代”自然语言处理领域中的注意力机制。这一章可以认为是自然语言处理领域的“Transformer前传”。第4章详细剖析Transformer这一具有里程碑意义的重要模型,尤其是对自注意力机制的原理进行深刻剖析。第5章从自然语言处理领域的预训练范式谈起,重点讨论Transformer“一统江湖”下自然语言处理领域的最新进展,分门别类地对诸多经典模型进行详细分析。第6章介绍“后Transformer时代”的计算机视觉领域。以算法实例的方式分析基于Transformer的各类计算机视觉模型。第7章针对多模态机器学习领域,对注意力机制的最新研究进展和应用展开详细讨论。
对注意力机制的讨论与研究涉及诸多交叉学科,可谓枝繁叶茂,源远流长。尤其是本书介绍的人工智能领域,发展更是日新月异,迅速异常。笔者自认才疏学浅,且时间与精力皆有限,故书中错谬、偏颇恐在所难免。若蒙读者不吝指教,笔者将不胜感激!
目录
第1章 人类注意力与计算机注意力——从认识自我到改造世界
1.1本源思考:哲学中的注意力
1.1.1早期哲学的朴素观点
1.1.2注意力视为一般认知现象
1.1.3注意力作为重要研究对象
1.2心路历程:心理学中的注意力
1.2.1实验心理学中的注意力
1.2.2认知心理学中的注意力
1.3深入脑海:认知神经科学中的注意力
1.3.1认知神经科学的研究基础和方法
1.3.2认知神经科学中的注意力研究
1.4改造世界:计算机科学中的注意力
1.4.1人工智能为什么要讨论注意力?
1.4.2注意力与计算机视觉
1.4.3注意力与自然语言处理
1.4.4注意力机制的多模态应用
参考文献
第2章 计算机视觉中的注意力
2.1注意力模型的分类
2.1.1客观与主观:自下而上的注意力与自上而下的注意力
2.1.2目的与手段:视觉显著性检测与视觉注意力机制
2.1.3掩膜与权重:硬性注意力与柔性注意力
2.1.4特征与位置:特征域注意力与空间域注意力
2.1.5自己与相互:自注意力与互注意力
2.2视觉显著性检测原理与模型剖析
2.2.1注视点预测
2.2.2显著物体检测
2.3注意力机制的计算机视觉应用与模型剖析
2.3.1目标搜索与识别
2.3.2细粒度分类
2.3.3神经网络中的通用注意力模块
参考文献
第3章 自然语言处理中的注意力——“前Transformer”的时代
3.1机器翻译与Seq2Seq模型
3.1.1机器翻译
人工智能注意力机制:体系、模型与算法剖析3.1.2Seq2Seq模型
3.2自然语言处理中注意力机制的起源
3.2.1Seq2Seq模型的问题
3.2.2注意力Seq2Seq模型
3.3经典算法剖析
3.3.1全局注意力与局部注意力机制
3.3.2层级注意力机制
3.3.3自注意力机制
3.4注意力机制的形式化表示
参考文献
第4章 “只要注意力”的Transformer
4.1Transformer的诞生
4.2Transformer的编码器解码器架构
4.2.1编码器结构
4.2.2解码器结构
4.3Transformer的输入与输出
4.3.1词嵌入
4.3.2位置编码
4.3.3Transformer的输出
4.4Transformer的注意力机制
4.4.1缩放点积注意力
4.4.2多头注意力
4.4.3编码器与解码器中的注意力模块
4.5一些其他问题
4.5.1BatchNorm与LayerNorm
4.5.2模型训练的Teacher Forcing模式
4.5.3序列预测的Beam Search方法
参考文献
第5章 自然语言处理中的预训练范式与Transformer的“一统江湖”
5.1语言建模
5.1.1从统计语言模型到神经网络语言模型
5.1.2单向语言模型与双向语言模型
5.1.3自回归语言模型与自编码语言模型
5.2自然语言处理中的预训练范式
5.2.1“预训练+微调”范式
5.2.2“预训练+提示”范式
5.3预训练模型概览
5.4基于Transformer的预训练模型
5.4.1GPT:Transformer的“右手”
5.4.2BERT:Transformer的“左手”
5.4.3TransformerXL与XLNet:从任意长输入到“更好的BERT”
5.4.4RoBERTa与ALBERT:“鲁棒版BERT”与“瘦身版BERT”
5.4.5MASS、BART与UniLM:序列到序列的模型
5.4.6ERNIE“双雄”:借助外部数据的增强模型
5.4.7XLM:跨语种预训练语言模型
5.4.8GPT2.0与GPT3.0:超级模型
参考文献
第6章 计算机视觉中的Transformer
6.1视觉Transformer模型概览
6.2卷积还是注意力?
6.3Transformer的计算机视觉应用与算法剖析
6.3.1图像分类与通用主干网络
6.3.2目标检测
6.3.3图像分割
6.3.4自监督预训练模型
参考文献
第7章 多模态机器学习中的注意力机制
7.1多模态技术发展史
7.2多模态机器学习面临的挑战
7.3视觉语言多模态模型
7.3.1视觉语言任务简介
7.3.2视觉语言模型中的注意力机制
7.4经典多模态模型剖析
7.4.1早期单任务视觉语言模型
7.4.2视觉语言预训练模型
7.4.3提示驱动CV模型
7.4.4新型生成模型
参考文献
产品特色