智能文本处理实战
书籍作者:达观数据 |
ISBN:9787115630186 |
书籍语言:简体中文 |
连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 |
下载次数:5008 |
创建日期:2024-05-08 |
发布日期:2024-05-08 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
内容简介
让计算机自动处理文字一直以来都是我们工作中的重要诉求,而文字的表现形式是多样的,目前,单纯使用自然语言处理技术已无法满足复杂的实际工作场景的需求。本书详细介绍了达观数据多年来在智能文本处理领域的实战经验,从核心技术、相关产品、行业场景案例等多角度出发,帮助读者全面理解智能文本处理技术的意义和价值。全书分为三大部分:第一部分介绍智能文本处理的基础知识、意义和相关核心技术;第二部分介绍智能文本处理项目实施经验以及在不同场景和产品中的应用;第三部分总结达观智能文本处理技术与不同行业场景的结合,供各行业有智能文本处理需求的读者参考。
作者简介
达观数据专注于智能文本处理技术,是行业内专精特新“小巨人”企业,也曾荣获中国人工智能领域奖项“吴文俊人工智能奖”。达观数据开发的“曹植”大语言模型基于该企业长期积累的技术和经验,能够为大型企业和机构提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐、办公流程自动化等服务。目前,达观数据在行业内市场占有率排名靠前,案例数量众多,已帮助数百家企业提高生成效率、降低成本、提升业务合规性,助力企业实现数字化转型,提升竞争力和创新能力。
编辑推荐
适读人群 :本书面向人工智能行业从业者、企业信息化负责人等。
1.全面介绍智能文本处理相关技术场景。理论部分除传统NLP技术外,详细讲解多个关于文档智能处理的特色技术。
2.实践部分以包括达观数据在内多个专业企业的相关产品项目经验为基础,介绍了众多行业、场景中的技术产品落地工作,具有很高的参考价值。
3.本书汇集了达观数据在智能文本处理领域深耕多年的经验结晶,为广大人工智能领域的从业者提供丰富详实的理论与实践支持。
目录
第 一部 基础知识
第 1章 智能文本处理概览 2
1.1 什么是智能文本处理 2
1.1.1 智能文本处理概念 2
1.1.2 智能文本处理技术 5
1.1.3 智能文本处理的价值 7
1.2 NLP技术简介 8
1.2.1 基本概念 9
1.2.2 文本自动处理层次划分 11
1.2.3 研究现状及主要方法 15
1.3 书面文本处理和短文本处理 17
1.3.1 不同处理类型 17
1.3.2 书面文本应用举例 19
1.3.3 短文本应用举例 22
1.3.4 处理差异比较 26
1.4 机器学习与NLP 28
1.4.1 机器学习的基本概念与历史 28
1.4.2 常见的机器学习任务与方法 33
1.4.3 常见机器学习问题与NLP 34
1.4.4 实战:如何使用机器学习方法检测垃圾邮件 39
1.5 深度学习与NLP 44
1.5.1 深度学习和传统机器学习的差别 44
1.5.2 深度学习对NLP的推进 51
1.5.3 深度学习研究在NLP中的局限性 54
第 2章 NLP技术概览 59
2.1 语言模型 59
2.1.1 语言模型基本概念 59
2.1.2 N-gram语言模型 61
2.1.3 神经网络语言模型 63
2.1.4 大规模预训练语言模型 68
2.2 分词与词性标注 71
2.2.1 概述 71
2.2.2 分词技术详解 73
2.2.3 词性识别详解 76
2.3 NER 78
2.3.1 基本概念 78
2.3.2 基于规则的NER 81
2.3.3 基于序列标注的NER 83
2.3.4 数据增强方法 86
2.4 文本分类概述 88
2.4.1 文本分类任务的基本定义 88
2.4.2 基于机器学习的文本分类 89
2.4.3 基于深度学习的文本分类 92
2.4.4 文本分类算法评估 98
2.4.5 实践经验与技术进阶 100
2.5 指代消解 102
2.5.1 基本概念 102
2.5.2 指代消解技术发展 104
2.5.3 基于二元分类的机器学习方法 107
2.5.4 基于端到端的神经网络方法 108
2.5.5 基于自注意力机制的无监督方法 111
2.6 NLG 113
2.6.1 应用场景 113
2.6.2 文本摘要 114
2.6.3 机器翻译 118
2.6.4 图像生成文本 120
2.6.5 NLG评估方法 123
第3章 书面文本处理关键技术 124
3.1 文档格式解析技术 124
3.1.1 Word格式解析 124
3.1.2 PDF格式解析 126
3.1.3 其他格式解析 131
3.2 文档版面分析技术 132
3.2.1 版面分析简介及发展历程 133
3.2.2 基于启发式规则的版面分析技术 134
3.2.3 基于机器学习的版面分析技术 136
3.2.4 基于深度学习的版面分析技术 136
3.2.5 版面分析最佳实践 142
3.3 文档表格解析技术 145
3.3.1 表格解析技术背景介绍 145
3.3.2 表格类型划分 148
3.3.3 区域检测技术 148
3.3.4 表格结构识别 150
3.3.5 表格解析最佳实践分享 153
3.4 光学字符识别技术 155
3.4.1 OCR技术简介及发展历程 156
3.4.2 OCR核心技术 157
3.4.3 文档处理中的应用和实践 167
3.5 文档多模态技术 171
3.5.1 多模态介绍 171
3.5.2 多模态的主要任务 173
3.5.3 文档多模态的主要应用 178
第二部分 项目覆盖场景
第4章 产品技术实践落地 184
4.1 项目团队搭建 184
4.2 AI项目技术实现路径 187
4.2.1 归一化处理 188
4.2.2 字段分析处理 188
4.2.3 序列标注抽取 188
4.2.4 深度学习抽取 189
4.2.5 表格抽取 189
4.2.6 策略合并 189
4.2.7 人工规则 189
4.3 AI项目模型交付步骤 190
4.3.1 数据准备 190
4.3.2 模型训练与调试 193
4.4 项目实施管理 195
4.4.1 项目实施阶段分解 195
4.4.2 项目规划阶段 196
4.4.3 项目执行阶段 196
4.4.4 项目验收阶段 198
4.4.5 项目监控 199
第5章 聊天机器人场景 200
5.1 聊天机器人概述 200
5.1.1 聊天机器人基本概念 200
5.1.2 聊天机器人类型 201
5.2 核心技术详解 201
5.2.1 常见系统架构 201
5.2.2 对话引擎 204
5.3 应用场景 206
5.3.1 知识助手 206
5.3.2 智能客服 209
第6章 智能文档处理场景 211
6.1 智能文档处理场景概览 211
6.1.1 智能文档处理的内容 211
6.1.2 智能文档产品的类型 212
6.2 智能文档抽取产品 212
6.2.1 文档识别与解析 213
6.2.2 图像结构化抽取 215
6.2.3 文档结构化抽取 219
6.2.4 智能文档抽取场景介绍 222
6.3 智能文档审核产品 225
6.3.1 文档风险审核 225
6.3.2 智能文档比对 229
6.3.3 智能文档审核场景 232
6.4 智能文档写作产品 234
6.4.1 智能文档写作产品介绍 235
6.4.2 智能文档写作场景介绍 238
第7章 知识图谱场景 239
7.1 知识图谱概念 239
7.1.1 知识图谱介绍 239
7.1.2 知识图谱类型 242
7.1.3 系统架构实践 243
7.2 知识图谱核心技术 246
7.2.1 知识图谱表示 246
7.2.2 知识图谱存储与构建 248
7.2.3 知识融合和知识推理 251
7.3 知识图谱应用 253
7.3.1 知识图谱问答 253
7.3.2 故障分析 256
7.3.3 语义检索和智能决策 258
第8章 用户体验管理场景 260
8.1 为什么要做用户体验管理 260
8.1.1 为什么要做好用户体验管理 260
8.1.2 用户体验管理亟须革新调研方式 261
8.2 什么是用户体验管理 261
8.2.1 用户体验管理的概念 262
8.2.2 用户体验管理涉及的数据来源 263
8.2.3 用户体验管理涉及的关键技术 265
8.3 用户体验管理的典型应用场景 269
8.3.1 赋能产品企划设计 269
8.3.2 促进客户关系维系 273
8.3.3 助力品牌传播 274
8.4 用户体验管理产业实践——以某制造业客户为例 279
8.4.1 案例项目背景 279
8.4.2 用户体验管理解决方案 279
8.4.3 用户体验管理关键能力 285
8.4.4 业务价值 286
第9章 搜索推荐场景 288
9.1 文本处理技术在智能搜索中的应用 288
9.1.1 智能搜索概述 288
9.1.2 智能搜索系统架构 290
9.1.3 智能搜索中的文本挖掘算法 293
9.2 文本处理技术在智能推荐中的应用 296
9.2.1 智能推荐概述 296
9.2.2 智能推荐系统架构 298
9.2.3 智能推荐中的文本挖掘算法 301
第 10章 办公机器人场景 304
10.1 办公机器人介绍 304
10.1.1 什么是办公机器人 304
10.1.2 办公机器人的组成 305
10.2 智能文本处理技术与办公机器人的结合 306
10.2.1 智能文本处理拓展了办公机器人的能力边界 306
10.2.2 办公机器人中的智能文本处理技术 307
10.3 智能文本处理机器人应用场景示例 307
10.3.1 供应商准入管理场景 307
10.3.2 企业招聘场景 309
10.3.3 企业文档管理场景 311
10.3.4 证券业文档审核场景 313
10.3.5 文档写作场景 315
第 11章 AIGC与智能写作场景 317
11.1 智能写作任务 317
11.1.1 智能写作应用场景 317
11.1.2 智能写作技术发展脉络 317
11.2 基于RNN Seq2Seq的文本生成 318
11.3 文本生成前沿技术 319
11.3.1 UniLM 319
11.3.2 T5 321
11.3.3 BART 322
11.3.4 GPT 324
11.3.5 GPT-2 325
11.3.6 GPT-3 325
11.3.7 InstructGPT和ChatGPT 325
11.4 智能写作算法评估 327
11.4.1 基于词汇 328
11.4.2 基于语义 328
11.4.3 公开数据集 329
11.5 技术挑战与展望 329
第三部分 行业案例经验
第 12章 银行业与智能文本处理 332
12.1 银行业务场景介绍 332
12.2 银行业数字化转型 333
12.2.1 银行业数字化转型现状 333
12.2.2 银行业数字化转型思路 333
12.3 银行业落地项目案例介绍 334
12.3.1 智慧信贷案例介绍 334
12.3.2 国际业务中的智能审单案例介绍 339
12.3.3 智能审贷案例介绍 342
12.3.4 RPA+IDP在银行业中的应用案例介绍 344
第 13章 证券业与智能文本处理 347
13.1 证券业数字化转型现状 347
13.1.1 IT投入不足 347
13.1.2 人才支撑不足 349
13.1.3 业务与技术的融合不足 350
13.1.4 证券业数字化转型思路 350
13.2 证券业的文本处理应用场景 350
13.2.1 经纪业务:智能资讯 350
13.2.2 资产托管业务:智能文档处理 352
13.2.3 投资银行业务:智能底稿系统 353
13.2.4 投资银行业务:银行流水智能核查 356
13.2.5 投资银行业务:申报材料智能审核 358
13.2.6 投研业务:智能投研一体化管理平台 360
第 14章 保险业与智能文本处理 366
14.1 行业背景与现状 366
14.2 数字化建设思路 367
14.2.1 科技与保险深度融合 367
14.2.2 开展全域数字化建设 367
14.3 智能解决方案 369
14.3.1 智慧营销 369
14.3.2 医疗票据识别 372
14.3.3 智慧运营管理 375
14.3.4 客服语义分析 376
14.3.5 智能知识管理 377
第 15章 大型企业创新应用实战 383
15.1 大型企业科技创新前景与挑战 383
15.1.1 创新应用背景 383
15.1.2 数字化转型难点 384
15.1.3 如何做好人工智能项目 385
15.2 人工智能技术与业务融合场景 386
15.2.1 法务智能辅助审核 386
15.2.2 智能报关票据审核 391
15.2.3 商务智能询报价 393
15.3 行业落地案例分享 394
15.3.1 某头部安防企业智能文本审阅系统项目 394
15.3.2 某大型报关行智能数据处理系统 395
15.3.3 某大型工业品超市智能询报价系统 397
第 16章 智能制造与智能文本处理 399
16.1 智能制造中的质量与可靠性工程 399
16.1.1 智能制造 399
16.1.2 质量与可靠性工程 400
16.1.3 FMEA 401
16.2 FMEA知识图谱 404
16.2.1 FMEA知识图谱的定义与价值 404
16.2.2 FMEA知识图谱模式 405
16.2.3 构建FMEA知识图谱 406
16.3 FMEA知识图谱应用示范 407
16.3.1 FMEA应用功能介绍 407
16.3.2 具体应用案例分析 413
第 17章 建工行业与智能文本处理 417
17.1 数字化建设思路 417
17.1.1 从一线业务角度思考 417
17.1.2 从高层管理角度思考 418
17.2 智能解决方案 419
17.2.1 智慧建工项目管理 419
17.2.2 智慧工程图纸应用 423
17.2.3 智慧建工标准图谱 426
17.2.4 智慧建工城市背调 428
第 18章 互联网及传媒与智能文本处理 431
18.1 行业现状与背景 431
18.2 互联网及传媒行业数字化转型思路 431
18.2.1 充分挖掘信息,发挥数据价值 432
18.2.2 构建关系网络,信息处理更智能 432
18.2.3 立足用户需求,展现个性化内容 432
18.3 互联网及传媒行业应用场景 434
18.3.1 基于广电行业分析文本解析的应用价值 434
18.3.2 基于社交行业分析知识图谱的应用价值 437
18.3.3 基于资讯行业分析智能推荐的应用价值 440
18.3.4 基于电商行业分析智能.搜索的应用价值 441