猜你喜欢
自然语言处理从入门到实战

自然语言处理从入门到实战

书籍作者:胡盼盼 ISBN:9787113266912
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:4367
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介
为了帮助广大爱好自然语言处理(NaturalLanguageProcessing,NLP)技术的读者朋友入门此领域,本书阐述了自然语言处理概况、领域应用、相关处理工具包、相关的机器学习及深度学习模型、文本预处理及文本表征等基础知识,以及具体的自然语言处理任务,包括文本分类、关系抽取、知识图谱、文本摘要、序列标注、机器翻译和聊天系统,同时介绍了自然语言处理技术在学术界以及工业界的发展、应用现状,并为读者们提供了部分面试参考题目。
本书适合有一定的编程及机器学习基础,想入门自然语言处理,以及想系统了解或准备求职自然语言处理初级岗位的读者阅读。
作者简介
胡盼盼自然语言处理工程师,斯特拉斯堡大学计算机语言学硕士,曾任法国科学院(CNRS,Centre National de la Recherche Scientifique)算法研究员,负责过医疗知识图谱、聊天机器人、智能律师系统、文本生成系统等企业级核心项目。
编辑推荐
本书特色
1内容安排实用实在、详略得当,符合初学者的认知规律
本书内容涵盖了从自然语言数据处理、基础任务(如分词、词性标注、命名实体识别等)到实战性任务(如文本分类、文本摘要、聊天系统等)所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。必须掌握的细节处不吝笔墨,辅以图表以及代码加深读者印象;对仅需要大致了解处简要介绍一些相关理论及前沿动态。这样的安排使得初学者能够掌握必备知识,了解并思考学术前沿及行业应用,符合初学者对自然语言处理知识的认知规律。
2行文简单直白,以实例引导理论,特别适合初学者阅读
本书行文简单直白,全程都有相应的实例作为引导,对于比较难的内容尽量以举例的形式帮助读者理解。在介绍这些知识时,并不是教条式的,填鸭式的讲解,而是尽量以平实化的语言讲解相关理论,犹如帮助一位老朋友,一步步地成为初级自然语言处理工程师。
3设置思考题以及项目代码,激发初学者的热情与兴趣
本书的每一章都设置有相应的思考题,并在附录中提供了相关参考答案;读者可以自测对章节内容的学习的掌握程度。此外,本书章节介绍的代码实例,相关的电子版本会随书赠予,使读者能够进行实践操作,更加深入地理解知识。这些实践内容是学习自然语言处理过程中必不可少的环节,通过思考题以及代码的操作练习,能够使读者朋友快速地入门自然语言处理。
前言
虽说自然语言处理(Natural Language Processing, NLP)技术的历史并不悠久,却有着自身成熟的理论体系,覆盖多门学科,比如数学、计算机科学、语言学、认知心理学等基础知识,同时它又是一门应用性极强的技术,在很多领域都具备落地性。这种理论加实际操作能力的要求对初学者形成了双重困难。通俗地阐述基本的、必备的理论知识,克服困难,使读者能够快速从容地上手实际项目,成为一名初级自然语言处理工程师,这是本书的目标。
本书浓缩编者多年的知识积累和实务工作经验奉献于读者朋友。书中采用大量的图示与代码案例分析,将枯燥复杂的理论知识用平实的语言娓娓道来,让读者在熟悉的场景中能够动态地理解专业知识。在具体内容安排上,抛开深奥的理论化条文,除了必备的基础理论、知识介绍外,不贪多求全,强调实务操作、快速上手——从如何对文本数据进行预处理、基础分析到实用的自然语言处理实践任务如文本摘要生成、聊天系统等,让读者循序渐进地入门系统的自然语言处理技术。随着本书的讲解,读者的自然语言处理学习之旅一定会成为一番难忘的快乐体验。
本书特色
1内容安排实用实在、详略得当,符合初学者的认知规律
本书内容涵盖了从自然语言数据处理、基础任务(如分词、词性标注、命名实体识别等)到实战性任务(如文本分类、文本摘要、聊天系统等)所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。必须掌握的细节处不吝笔墨,辅以图表以及代码加深读者印象;对仅需要大致了解处简要介绍一些相关理论及前沿动态。这样的安排使得初学者能够掌握必备知识,了解并思考学术前沿及行业应用,符合初学者对自然语言处理知识的认知规律。
2行文简单直白,以实例引导理论,特别适合初学者阅读
本书行文简单直白,全程都有相应的实例作为引导,对于比较难的内容尽量以举例的形式帮助读者理解。在介绍这些知识时,并不是教条式的,填鸭式的讲解,而是尽量以平实化的语言讲解相关理论,犹如帮助一位老朋友,一步步地成为初级自然语言处理工程师。
3设置思考题以及项目代码,激发初学者的热情与兴趣
本书的每一章都设置有相应的思考题,并在附录中提供了相关参考答案;读者可以自测对章节内容的学习的掌握程度。此外,本书章节介绍的代码实例,相关的电子版本会随书赠予,使读者能够进行实践操作,更加深入地理解知识。这些实践内容是学习自然语言处理过程中必不可少的环节,通过思考题以及代码的操作练习,能够使读者朋友快速地入门自然语言处理。



自然语言处理从入门到实战





本书内容及体系结构




第一部分自然语言处理核心技术


第1章自然语言处理初探
本章主要为读者朋友介绍,在这短短不到一百年的时间里,自然语言处理早期的发展历程,近些年突飞猛进的发展,以及自然语言处理的基本任务,在各行各业中的应用和基本的工具框架。

第2章自然语言处理与机器学习

本章主要介绍一些常见机器学习模型的原理、对比分析各类机器学习模型的优缺点以及机器学习工具库的使用。

第3章自然语言处理与神经网络

本章将为大家揭开深度学习的神秘面纱,主要介绍神经网络的基本结构以及一些常见的训练过程中的优化方案。




第二部分自然语言处理基本任务

第4章文本预处理

本章主要介绍文本预处理的基础项目以及相关工具、关键词提取的一些常用的方法以及数据不平衡的处理方法。

第5章文本的表示技术

本章将纵向梳理文本表示技术的发展脉络,分析各类表示方法的优缺点。

第6章序列标注
本章将为大家介绍一些常见的序列标注场景以及不同场景下的应用模型。

第7章关系抽取
本章主要讲解关系抽取的主要方法、前沿研究以及相关的应用框架。



第三部分自然语言处理高级任务


第8章知识图谱
本章主要介绍知识图谱的相关概念、技术、应用等。

第9章文本分类
本章主要介绍基本的文本分类方法以及相关工具的应用。

第10章文本摘要
本章主要介绍自动文本摘要中的两大类型,抽取式(extractive)摘要和生成式(abstractive)摘要,并且通过代码搭建演示两个简单版本的抽取式摘要生成器。

第11章机器翻译
本章主要介绍机器翻译的历史、相关技术原理、现状与不足等,通过本章的学习,读者将了解机器翻译的源起、统计机器翻译的原理、神经机器翻译的原理以及常见的改进版本的神经机器翻译模型。

第12章聊天系统

本章节主要介绍聊天系统的基本类型及应用、关键技术,并且用代码演示开发一款简单的闲聊系统。

第四部分自然语言处理求职
第13章自然语言处理技术的现在、未来及择业

最后一章为有志于入门或从事自然语言处理的读者提供更多的、与自然语言处理相关的常识性及实用性内容,比如学术界、工业界等方面的研究现状、未来发展热点、如何准备面试等。


本书读者对象
 有一定的编程及机器学习基础,想入门自然语言处理的读者
 因为兴趣,想系统性地了解自然语言处理的读者
 准备求职自然语言处理初级岗位的读者
虽说自然语言处理(Natural Language Processing, NLP)技术的历史并不悠久,却有着自身成熟的理论体系,覆盖多门学科,比如数学、计算机科学、语言学、认知心理学等基础知识,同时它又是一门应用性极强的技术,在很多领域都具备落地性。这种理论加实际操作能力的要求对初学者形成了双重困难。通俗地阐述基本的、必备的理论知识,克服困难,使读者能够快速从容地上手实际项目,成为一名初级自然语言处理工程师,这是本书的目标。
本书浓缩编者多年的知识积累和实务工作经验奉献于读者朋友。书中采用大量的图示与代码案例分析,将枯燥复杂的理论知识用平实的语言娓娓道来,让读者在熟悉的场景中能够动态地理解专业知识。在具体内容安排上,抛开深奥的理论化条文,除了必备的基础理论、知识介绍外,不贪多求全,强调实务操作、快速上手——从如何对文本数据进行预处理、基础分析到实用的自然语言处理实践任务如文本摘要生成、聊天系统等,让读者循序渐进地入门系统的自然语言处理技术。随着本书的讲解,读者的自然语言处理学习之旅一定会成为一番难忘的快乐体验。
本书特色
1内容安排实用实在、详略得当,符合初学者的认知规律
本书内容涵盖了从自然语言数据处理、基础任务(如分词、词性标注、命名实体识别等)到实战性任务(如文本分类、文本摘要、聊天系统等)所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。必须掌握的细节处不吝笔墨,辅以图表以及代码加深读者印象;对仅需要大致了解处简要介绍一些相关理论及前沿动态。这样的安排使得初学者能够掌握必备知识,了解并思考学术前沿及行业应用,符合初学者对自然语言处理知识的认知规律。
2行文简单直白,以实例引导理论,特别适合初学者阅读
本书行文简单直白,全程都有相应的实例作为引导,对于比较难的内容尽量以举例的形式帮助读者理解。在介绍这些知识时,并不是教条式的,填鸭式的讲解,而是尽量以平实化的语言讲解相关理论,犹如帮助一位老朋友,一步步地成为初级自然语言处理工程师。
3设置思考题以及项目代码,激发初学者的热情与兴趣
本书的每一章都设置有相应的思考题,并在附录中提供了相关参考答案;读者可以自测对章节内容的学习的掌握程度。此外,本书章节介绍的代码实例,相关的电子版本会随书赠予,使读者能够进行实践操作,更加深入地理解知识。这些实践内容是学习自然语言处理过程中必不可少的环节,通过思考题以及代码的操作练习,能够使读者朋友快速地入门自然语言处理。



自然语言处理从入门到实战





前言




本书内容及体系结构




第一部分自然语言处理核心技术


第1章自然语言处理初探
本章主要为读者朋友介绍,在这短短不到一百年的时间里,自然语言处理早期的发展历程,近些年突飞猛进的发展,以及自然语言处理的基本任务,在各行各业中的应用和基本的工具框架。

第2章自然语言处理与机器学习

本章主要介绍一些常见机器学习模型的原理、对比分析各类机器学习模型的优缺点以及机器学习工具库的使用。

第3章自然语言处理与神经网络

本章将为大家揭开深度学习的神秘面纱,主要介绍神经网络的基本结构以及一些常见的训练过程中的优化方案。




第二部分自然语言处理基本任务

第4章文本预处理

本章主要介绍文本预处理的基础项目以及相关工具、关键词提取的一些常用的方法以及数据不平衡的处理方法。

第5章文本的表示技术

本章将纵向梳理文本表示技术的发展脉络,分析各类表示方法的优缺点。

第6章序列标注
本章将为大家介绍一些常见的序列标注场景以及不同场景下的应用模型。

第7章关系抽取
本章主要讲解关系抽取的主要方法、前沿研究以及相关的应用框架。



第三部分自然语言处理高级任务


第8章知识图谱
本章主要介绍知识图谱的相关概念、技术、应用等。

第9章文本分类
本章主要介绍基本的文本分类方法以及相关工具的应用。

第10章文本摘要
本章主要介绍自动文本摘要中的两大类型,抽取式(extractive)摘要和生成式(abstractive)摘要,并且通过代码搭建演示两个简单版本的抽取式摘要生成器。

第11章机器翻译
本章主要介绍机器翻译的历史、相关技术原理、现状与不足等,通过本章的学习,读者将了解机器翻译的源起、统计机器翻译的原理、神经机器翻译的原理以及常见的改进版本的神经机器翻译模型。

第12章聊天系统

本章节主要介绍聊天系统的基本类型及应用、关键技术,并且用代码演示开发一款简单的闲聊系统。

第四部分自然语言处理求职
第13章自然语言处理技术的现在、未来及择业

最后一章为有志于入门或从事自然语言处理的读者提供更多的、与自然语言处理相关的常识性及实用性内容,比如学术界、工业界等方面的研究现状、未来发展热点、如何准备面试等。


本书读者对象
 有一定的编程及机器学习基础,想入门自然语言处理的读者
 因为兴趣,想系统性地了解自然语言处理的读者
 准备求职自然语言处理初级岗位的读者
目录
目录








第一部分了解自然语言处理


第1章自然语言处理初探
11自然语言处理概述
111自然语言处理早期发展史
112新世纪的里程碑事件
12自然语言处理的挑战
121词义消歧
122指代消解
123上下文理解
124语义与语用的不对等
13自然语言处理的应用领域
131医疗
132教育
133媒体
134金融
135法律
14自然语言处理的常见工具
141基础任务工具包
142科学计算及机器学习框架
143深度学习框架
本章小结
思考题
第二部分自然语言处理核心技术

第2章自然语言处理与机器学习
21逻辑回归
211逻辑回归基本原理
212逻辑回归在实践中的注意要点
213逻辑回归的优势与不足
22朴素贝叶斯
221朴素贝叶斯基本原理
222朴素贝叶斯的类型
223朴素贝叶斯的优势与不足
23Kmeans算法
231Kmeans算法基本原理
232Kmeans算法实践
233Kmeans算法的优势与不足
24决策树
241决策树的属性划分
242随机森林的基本原理
243随机森林在应用中的注意细节
25主成分分析
251梯度上升法解PCA
252协方差矩阵解PCA
253实战PCA
本章小结
思考题

第3章自然语言处理与神经网络
31神经网络初探
311神经元结构
312常见的激活函数
313误差反向传播算法
32常见的神经网络结构
321多层感知机
322循环神经网络的基本原理
323卷积神经网络的基本原理
324神经网络的优势与不足
33神经网络算法的改进与提升
331防止过拟合的方法
332训练速度与精度的提高方法
333注意力机制
本章小结
思考题
第三部分自然语言处理基本任务

第4章文本预处理
41文本预处理的基础项目
411文本规范化
412语义分析
413分词
414文本纠错
42关键词提取
421基于特征统计
422基于主题模型
423基于图模型
43数据不平衡的处理
431常见方法
432数据不平衡问题实战
本章小结
思考题

第5章文本的表示技术
51词袋模型
511基于频次的词袋模型
512基于TFIDF的词袋模型
513相关工具的使用
52Word2Vec词向量
521Word2Vec的基本原理
522Word2Vec模型细节及代码演示
523应用工具训练Word2Vec
53改进后的词表征
531GloVe模型
532FastText模型
533ELMo模型
54句向量
541基于词向量的平均
542沿用Word2Vec思想
543有监督方式
本章小结
思考题

第6章序列标注
61序列标注基础
611序列标注的应用场景
612基线方式
613序列标注任务的难点
62基于概率图的模型
621隐马尔科夫模型(HMM)
622最大熵马尔科夫模型(MEMM)
623条件随机场模型(CRF)
624天气预测实例
63基于深度学习的方式
631数据表征形式
632序列处理模型
本章小结
思考题

第7章关系抽取
71关系抽取基础
711关系抽取概述
712关系抽取的主要方法
713深度学习与关系抽取
714强化学习与关系抽取
72基于半监督的关系抽取模式:Snowball系统
721Patterns及Tuples的生成
722Patterns及Tuples的评估
723Snowball的实现细节
73关系抽取工具——DeepDive
731DeepDive概述
732DeepDive工作流程
733概率推断与因子图
本章小结
思考题
第四部分自然语言处理高级任务

第8章知识图谱
81知识图谱基本概念
811从语义网络到知识图谱
812知识的结构化、存储及查询
813几个开源的知识图谱
82知识图谱的关键构建技术
821本体匹配
822实体链接
823知识推理
83知识图谱应用
831反欺诈
832个性化推荐
833知识库问答
本章小结
思考题

第9章文本分类
91文本分类的常见方法
911机器学习
912模型融合
913深度学习
92文本分类的不同应用场景
921二分类
922多分类
923多标签多分类
93案例:搭建一款新闻主题分类器
931数据预处理
932训练与预测
933改进
本章小结
思考题

第10章文本摘要
101抽取式摘要
1011传统方法
1012基于深度学习的方法
1013抽取式摘要的训练数据问题
102生成式摘要
1021基础模型
1022前沿模型中的技巧
1023强化学习与生成式摘要
103案例:搭建网球新闻摘要生成器
1031基于词频统计的摘要生成器
1032基于图模型的摘要生成器
1033结果分析
本章小结
思考题

第11章机器翻译
111传统机器翻译
1111源起
1112基于规则
1113基于大规模语料
112统计机器翻译
1121相关流派
1122基于信源信道的统计机器翻译
1123案例:外星语的翻译实战
113神经机器翻译
1131基本原理
1132改进机制
1133前沿与挑战
本章小结
思考题

第12章聊天系统
121聊天系统的类型
1211闲聊式机器人
1212知识问答型机器人
1213任务型聊天机器人
122聊天系统的关键技术
1221检索技术
1222意图识别和词槽填充
1223对话管理
1224强化学习与多轮对话
123案例:闲聊机器人实战
1231技术概要
1232基本配置及数据预处理
1233闲聊机器人模型的搭建
1234模型训练、预测以及优化
本章小结
思考题
第五部分自然语言处理求职

第13章自然语言处理技术的现在、未来及择业
131自然语言处理组织及人才需求介绍
1311学术界
1312工业界
1313人才需求现状
132未来与自然语言处理
1321自然语言处理热点技术方向
1322自然语言处理的应用畅想
1323自然语言处理带来的行业冲击
133面试题
1331数据结构与算法
1332数学基础
1333机器学习与深度学习
1334自然语言处理专业
1335实际问题解决及技术领域见解
本章小结
思考题


附录A思考题参考答案

附录B面试题答案目录








第一部分了解自然语言处理


第1章自然语言处理初探
11自然语言处理概述
111自然语言处理早期发展史
112新世纪的里程碑事件
12自然语言处理的挑战
121词义消歧
122指代消解
123上下文理解
124语义与语用的不对等
13自然语言处理的应用领域
131医疗
132教育
133媒体
134金融
135法律
14自然语言处理的常见工具
141基础任务工具包
142科学计算及机器学习框架
143深度学习框架
本章小结
思考题
第二部分自然语言处理核心技术

第2章自然语言处理与机器学习
21逻辑回归
211逻辑回归基本原理
212逻辑回归在实践中的注意要点
213逻辑回归的优势与不足
22朴素贝叶斯
221朴素贝叶斯基本原理
222朴素贝叶斯的类型
223朴素贝叶斯的优势与不足
23Kmeans算法
231Kmeans算法基本原理
232Kmeans算法实践
233Kmeans算法的优势与不足
24决策树
241决策树的属性划分
242随机森林的基本原理
243随机森林在应用中的注意细节
25主成分分析
251梯度上升法解PCA
252协方差矩阵解PCA
253实战PCA
本章小结
思考题

第3章自然语言处理与神经网络
31神经网络初探
311神经元结构
312常见的激活函数
313误差反向传播算法
32常见的神经网络结构
321多层感知机
322循环神经网络的基本原理
323卷积神经网络的基本原理
324神经网络的优势与不足
33神经网络算法的改进与提升
331防止过拟合的方法
332训练速度与精度的提高方法
333注意力机制
本章小结
思考题
第三部分自然语言处理基本任务

第4章文本预处理
41文本预处理的基础项目
411文本规范化
412语义分析
413分词
414文本纠错
42关键词提取
421基于特征统计
422基于主题模型
423基于图模型
43数据不平衡的处理
431常见方法
432数据不平衡问题实战
本章小结
思考题

第5章文本的表示技术
51词袋模型
511基于频次的词袋模型
512基于TFIDF的词袋模型
513相关工具的使用
52Word2Vec词向量
521Word2Vec的基本原理
522Word2Vec模型细节及代码演示
523应用工具训练Word2Vec
53改进后的词表征
531GloVe模型
532FastText模型
533ELMo模型
54句向量
541基于词向量的平均
542沿用Word2Vec思想
543有监督方式
本章小结
思考题

第6章序列标注
61序列标注基础
611序列标注的应用场景
612基线方式
613序列标注任务的难点
62基于概率图的模型
621隐马尔科夫模型(HMM)
622最大熵马尔科夫模型(MEMM)
623条件随机场模型(CRF)
624天气预测实例
63基于深度学习的方式
631数据表征形式
632序列处理模型
本章小结
思考题

第7章关系抽取
71关系抽取基础
711关系抽取概述
712关系抽取的主要方法
713深度学习与关系抽取
714强化学习与关系抽取
72基于半监督的关系抽取模式:Snowball系统
721Patterns及Tuples的生成
722Patterns及Tuples的评估
723Snowball的实现细节
73关系抽取工具——DeepDive
731DeepDive概述
732DeepDive工作流程
733概率推断与因子图
本章小结
思考题
第四部分自然语言处理高级任务

第8章知识图谱
81知识图谱基本概念
811从语义网络到知识图谱
812知识的结构化、存储及查询
813几个开源的知识图谱
82知识图谱的关键构建技术
821本体匹配
822实体链接
823知识推理
83知识图谱应用
831反欺诈
832个性化推荐
833知识库问答
本章小结
思考题

第9章文本分类
91文本分类的常见方法
911机器学习
912模型融合
913深度学习
92文本分类的不同应用场景
921二分类
922多分类
923多标签多分类
93案例:搭建一款新闻主题分类器
931数据预处理
932训练与预测
933改进
本章小结
思考题

第10章文本摘要
101抽取式摘要
1011传统方法
1012基于深度学习的方法
1013抽取式摘要的训练数据问题
102生成式摘要
1021基础模型
1022前沿模型中的技巧
1023强化学习与生成式摘要
103案例:搭建网球新闻摘要生成器
1031基于词频统计的摘要生成器
1032基于图模型的摘要生成器
1033结果分析
本章小结
思考题

第11章机器翻译
111传统机器翻译
1111源起
1112基于规则
1113基于大规模语料
112统计机器翻译
1121相关流派
1122基于信源信道的统计机器翻译
1123案例:外星语的翻译实战
113神经机器翻译
1131基本原理
1132改进机制
1133前沿与挑战
本章小结
思考题

第12章聊天系统
121聊天系统的类型
1211闲聊式机器人
1212知识问答型机器人
1213任务型聊天机器人
122聊天系统的关键技术
1221检索技术
1222意图识别和词槽填充
1223对话管理
1224强化学习与多轮对话
123案例:闲聊机器人实战
1231技术概要
1232基本配置及数据预处理
1233闲聊机器人模型的搭建
1234模型训练、预测以及优化
本章小结
思考题
第五部分自然语言处理求职

第13章自然语言处理技术的现在、未来及择业
131自然语言处理组织及人才需求介绍
1311学术界
1312工业界
1313人才需求现状
132未来与自然语言处理
1321自然语言处理热点技术方向
1322自然语言处理的应用畅想
1323自然语言处理带来的行业冲击
133面试题
1331数据结构与算法
1332数学基础
1333机器学习与深度学习
1334自然语言处理专业
1335实际问题解决及技术领域见解
本章小结
思考题


附录A思考题参考答案

附录B面试题答案
短评

第一次印刷,里面错误挺不少的,但是不妨碍这是一本好书!

2020-06-28 22:20:08

还好还好哈很好很好哈哈

2020-07-25 15:31:33

目前看着还是可以的,没看完

2020-06-18 06:50:45

非常好的一本书,深入浅出,应用比喻、图表、实例等方式阐述知识点,直达公式和模型的本质和意义,赞赞赞!

2020-06-21 10:22:47

不错,挺好的

2020-07-19 09:43:29

整体还行,买了学习,结构合理

2020-07-09 23:48:34

垃圾写的垃圾 每章随意搜罗点东西拼凑成一本书 毫无价值

2020-07-04 18:18:44

很好的一本书,值得参考,理论上的研究

2020-06-26 11:10:55

觉得还可以吧,目前这类书太少了

2020-06-08 12:02:02

买书很方便,不错

2020-06-11 15:46:44

产品特色