大数据智能：数据驱动的自然语言处理技术

书籍作者：刘知远	ISBN：9787121375385
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：9863
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

本书是介绍大数据智能、人工智能技术的科普书籍，旨在让更多人了解和学习互联网时代的人工智能技术——自然语言处理技术，让大数据智能技术更好地为我们服务。全书包括大数据智能基础、技术和应用三部分，共14章。基础部分有3章：第1章以深度学习为例介绍大数据智能的计算框架；第2章以知识图谱为例介绍大数据智能的知识库；第3章介绍大数据的计算处理系统。技术部分有6章，分别介绍机器翻译、主题模型、情感分析与意见挖掘、智能问答与对话系统、个性化推荐、机器写作。应用部分有5章，分别介绍社交商业数据挖掘、智慧医疗、智慧司法、智慧金融、计算社会科学。本书后记部分为读者追踪大数据智能的学术资料提供了建议。

作者简介

刘知远清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理和知识图谱。2011年获得清华大学博士学位，在人工智能领域著名国际期刊和会议上发表相关论文60余篇，Google Scholar统计引用超过4,000次。曾获清华大学优秀博士论文、中国人工智能学会优秀博士论文、清华大学优秀博士后、中文信息学会青年创新奖，入选《麻省理工科技评论》“35岁以下科技创新35人”中国区榜单、中国科协青年人才托举工程、CCF青年学者提升计划。担任中文信息学会青年工作委员会副主任，中文信息学会社会媒体处理专委会秘书长，ACL、EMNLP、COLING等著名国际会议领域主席。

崔安颀薄言RSVP.ai联合创始人、AI负责人，从事智能对话的技术研发和商业化应用。2013年获得清华大学博士学位。曾访问美国卡耐基梅隆大学、新加坡国立大学，在加拿大滑铁卢大学担任博士后研究员。研究方向包括社交媒体情感分析、智能问答、数据挖掘等，发表相关著作20余篇，积累了丰富的科研和商业应用经验。参与研发薄言“轻语”企业助手平台、“薄言豆豆”智能机器人以及语义解析、机器问答、对话闲聊等算法引擎，将自然语言处理技术应用在智能家居、企业助手、智能客服等场景中。

张开旭清华大学计算机系博士，研究方向为自然语言处理，THULAC工具草创者，SIGHAN 2012中文分词评测冠军，百度搜索中文CRF模块代码重构者，微信搜索DSSM模块开发者，腾讯围棋AI“绝艺”研发者。现供职于腾讯，尝试用BERT“搞事情”。

韩文弢清华大学计算机系助理研究员。主要研究方向为大数据系统和类脑计算系统。2015年获得清华大学博士学位，在计算机系统相关国际期刊和会议上发表相关论文10余篇。曾获得西贝尔学者、NOI 2003金牌等荣誉和奖项。担任CCF NOI科学委员会委员。

赵　鑫中国人民大学信息学院副教授、博士生导师。主要研究方向为数据挖掘和自然语言处理。2014年获得北京大学博士学位，在数据挖掘及其相关领域的著名国际期刊和会议上发表相关论文70余篇，曾获得CIKM 2017z佳短文提名及AIRS 2017z佳论文奖，Google Scholar统计引用2,800余次。曾获微软亚洲学者、北京大学优秀博士论文奖、中国人民大学杰出学者等荣誉称号，入选第二届CCF青年人才发展计划。长期担任国内外著名期刊和会议的评审。

苏劲松厦门大学信息学院副教授、博士生导师。主要研究方向为自然语言处理和机器翻译。2011年获得中国科学院计算技术研究所博士学位，在人工智能、自然语言处理领域的著名国际期刊和会议上发表相关论文60余篇。担任CCF中文信息处理青年工作委员会常务委员，中文信息学会青年工作委员会委员，福建省人工智能学会理事，自然语言处理国际会议 NLPCC2018、EMNLP2019领域主席。

张永锋罗格斯大学助理教授，主要研究方向为信息检索、推荐系统、机器学习及互联网经济。

严　睿北京大学助理教授、研究员、博士生导师，曾任百度公司资深研究员，华中师范大学与中央财经大学客座教授与校外导师。主持研发了多个开放领域对话系统和服务类对话系统，发表高水平研究论文100余篇，担任多个学术会议（KDD、IJCAI、SIGIR、ACL、WWW、AAAI、CIKM、EMNLP等）的（资深）程序委员会委员及审稿人。

汤步洲哈尔滨工业大学（深圳）计算机科学与技术学院副教授、博士生导师。主要研究方向为自然语言处理、知识图谱、医学信息处理、医疗支持决策。2011年获得哈尔滨工业大学博士学位，毕业后先后赴美国范德堡大学和德州大学休斯敦医学科学中心以博士后研究员身份从事研究工作。在人工智能、医学信息学领域著名国际期刊和会议上发表相关论文80余篇，Google Scholar统计引用1,300余次。多次在相关领域国际公开评测中获得冠军。

涂存超清华大学计算机系博士后。主要研究方向为自然语言处理和法律智能。2018年获得清华大学博士学位。在人工智能及自然语言处理著名国际期刊和会议上发表相关论文10余篇。获得清华大学优秀博士毕业生、清华大学优秀博士论文奖、北京市优秀博士毕业生等荣誉，入选“博士后创新人才支持计划”。

丁　效哈尔滨工业大学助理研究员、硕士生导师。主要研究方向为人工智能、自然语言处理、社会计算和事理图谱。2016年获得哈尔滨工业大学博士学位，已在AAAI、IJCAI、ACL、EMNLP、NAACL、COLING等人工智能领域的著名国际期刊和会议上发表相关论文20余篇。承担国家自然科学基金青年项目等省部级以上项目四项，参与国家重大科技基础设施建设项目、“新一代人工智能”重大项目、国家自然科学基金重点项目等多个科研项目。荣获全国青年人工智能创新创业大会三等奖、第五届全国青年计算语言学研讨会优秀论文奖等荣誉。

编辑推荐

适读人群：本书适合作为高等院校计算机相关专业研究生的学习参考资料，也适合计算机技术爱好者，特别是希望对大数据技术有所了解，以及想要将大数据技术应用于本职工作的所有读者阅读。

覆盖NLP诸多核心技术与应用场景

每章都为初学者入门提供了详细参考资料

针对初学者，给出追踪前沿学术资料的方法与建议

前言

大数据时代与人工智能

在进入 21 世纪前，很多人预测 21 世纪将会是怎样的世纪。有人说 21 世纪将是生命科学的时代，也有人说 21 世纪将是知识经济的时代，不一而足。随着互联网的高速发展，大量的事实强有力地告诉我们，21 世纪必将是大数据的时代，是智能信息处理的黄金时代。

美国奥巴马政府于 2012 年发布大数据研发倡议以来，关于大数据的研究与思考在全球蔚然成风，已经有很多专著面世，既有侧重趋势分析的，如舍恩伯格和库克耶的《大数据时代》（盛杨燕和周涛教授译）、涂子沛的《大数据》和《数据之巅》，也有偏重技术讲解的，如莱斯科夫等人的《大数据》（王斌教授译）、张俊林的《大数据日知录》、杨巨龙的《大数据技术全解》，等等。相信随着大数据革命的不断深入推进，会有更多的专著出版。

前人已对大数据的内涵进行过很多探讨与总结，其中比较著名的是所谓的“3V”定义：大容量（volume）、高速度（velocity）和多形态（variety）。3V 的概念于 2001 年由麦塔集团（Meta Group）分析师道格·莱尼（Doug Laney）提出，后来被高德纳咨询公司（Gartner Group）正式用来描述大数据。此外，还有很多研究者提出更多的“V”来描述大数据，如真实性（veracity），等等。既然有如此众多的“珠玉”在前，我们推出本书，当然希望讲一点不同的东西，这点不同的东西就是智能。

人工智能一直是研究者们非常感兴趣的话题，并且由于众多科幻电影和小说作品的影响而广为人知。1946 年，第一台电子计算机问世之后不久，英国数学家艾伦·麦席森·图灵就发表了一篇名为《计算机器与智能》（Computing Machinery and Intelligence）的重要论文，探讨了创造具有智能的机器的可能性，并提出了著名的“图灵测试”，即如果一台机器与人类进行对话，能够不被分辨出其机器的身份，就可以认为这台机器具有了智能。自 1956 年在美国达特茅斯举行的研讨会上正式提出“人工智能”的研究提案以来，人们开始了长达半个多世纪的曲折探索。且不去纠结“什么是智能”这样哲学层面的命题［有兴趣的读者可以参阅罗素和诺维格的《人工智能——一种现代方法》（Artificial Intelligence: A Modern Approach），以及杰夫·霍金斯的《智能时代》（On Intelligence）］，我们先来谈谈人工智能与大数据的关系。要回答这个问题，我们先来看一个人是如何获得智能的。一个呱呱坠地、只会哭泣的婴儿，长成思维健全的成人，至少要经历十几年与周围世界交互和学习的过程。从降临到这个世界的那一刻起，婴儿无时无刻不在通过眼睛、耳朵、鼻子、皮肤接收着这个世界的数据信息：图像、声音、味道、触感，等等。你有没有发现，这些数据无论从规模、速度还是形态来看，无疑是典型的大数据。可以说，人类习得语言、思维等智能的过程，就是利用大数据学习的过程。智能不是无源之水，它并不是凭空从人脑中生长出来的。同样，人工智能希望让机器拥有智能，也需要以大数据作为学习的素材。可以说，大数据将是实现人工智能的重要支撑，而人工智能是大数据研究的重要目标之一。但是，在人工智能研究早期，人们并不是这样认为的。早在 1957 年，由于人工智能系统在简单实例上的优越性能，研究者们曾信心满怀地认为，计算机将在 10 年内成为国际象棋冠军，而通过简单的句法规则变换和单词替换就可以实现机器翻译。事实证明：人们远远低估了人类智能的复杂性。即使在国际象棋这样规则和目标极为简单清晰的任务上，直到 40 年后的 1997 年，由 IBM 推出的深蓝超级计算机才宣告打败人类世界顶级国际象棋大师卡斯帕罗夫。而在机器翻译这样更加复杂的任务上（人们甚至在优质翻译的标准上都无法达成共识，更无法清晰地告诉机器），计算机至今还无法与人类翻译的水平相提并论。当时的问题在于，人们低估了智能的深度和复杂度。智能是分不同层次的。对于简单的智能任务（如对有限句式的翻译等），我们简单制定几条规则就能完成。但是对于语言理解、逻辑推理等高级智能，简单方法就显得力不从心。生物界中，从简单的单细胞生物进化到人类的过程，也是智能不断进化的过程。最简单的单细胞生物草履虫，虽然没有神经系统，却已经能够根据外界信号和刺激进行反应，实现趋利避害——我们可以将其视作最简单的智能。而俄国高级神经活动生理学奠基人伊万·彼得罗维奇·巴甫洛夫的关于狗的条件反射实验，则向我们证明了相对更高级的智能水平：能根据铃声推断食物即将出现，也就是可以根据两种外界信号（铃声与食物）的关联关系实现简单的因果推理。人类智能则是智能的最高级形式，拥有语言理解、逻辑推理与想象等独特的能力。我们可以发现，低级智能只需小规模的简单数据或规则的支持，而高级智能则需要大规模的复杂数据的支持。

同样重要的，高级智能还需要独特计算架构的支持。很显然，人脑结构就与狗等动物有着本质的不同，因此，即使将一只狗像婴儿一样抚育，也不能指望它能完全学会和理解人类的语言，并像人一样思维。受到生物智能的启发，我们可以总结出如下图所示的基本结论：不同规模数据的处理，需要不同的计算框架，产生不同级别的智能。

关于人工智能是否要完全照搬人类智能的工作原理，目前仍然争论不休。有人举例：虽然人们受到飞鸟的启发发明了飞机，但其飞行原理（空气动力学）与飞鸟有本质不同；同样，生物界都在用双脚或四腿行走、奔跑，人们却发明了轮子和汽车实现快速移动。然而不可否认，大自然无疑是我们最好的老师。人工智能固然不必完全复制人类智能，但是知己知彼，方能百战不殆。生物智能带来的启示已经在信息处理技术发展中得到了印证。谷歌研究员、美国工程院院士 Jeff Dean 曾对大数据做出过类似结论：“对处理数据规模 X 的合理设计可能在 10X 或 100X 规模下就会变得不合理。（Right design at X may be very wrong at 10X or 100X.）”也就是说，大数据处理也需要专门设计新颖的计算架构。

而与人工智能密切相关的机器学习、自然语言处理、图像处理、语音处理等领域，近年来都在大规模数据的支持下取得了惊人的进展。我们可以确信，大数据是人工智能发展的必由之路。

人工智能的下一个里程碑

当下，以深度学习为代表的计算框架在很多具体任务上取得了重大的成果，甚至有媒体和公众已经开始因人工智能取代人类的可能性而恐慌。然而，理性地看，深度学习的处理能力和效率与人类大脑相比仍有巨大差距。因此，大数据智能并非孕育人工智能的终极之道。随着技术的进步和研究的深入，现有解决方案必然触及天花板，进入瓶颈期。

人脑拥有现有计算框架不可比拟的优势。例如，虽然人脑中的信号传输速度要远低于计算机中的信息传递速度，但是人脑在很多智能任务上的处理效率远高于计算机，例如在众多声音中快速识别出叫自己名字的声音，通过线条漫画认出名人，复杂数学问题的推导求解，快速阅读理解一篇文章，等等。可见，在计算速度受限的情况下，人脑一定拥有某种独特的计算框架，才能完成这些令人叹为观止的智能任务。

那么人工智能的下一个里程碑是什么呢？我们猜想，可能是神经科学及其相关学科。一直以来，神经科学都在探索各种观测大脑活动的工具和方法，并做出了大量的实证和建模工作。随着光控基因技术（optogenetics）和药理基因技术（pharmacogenetics）等新技术的发展，人们拥有了在时间和空间上更加精确地监测和控制大脑活动的能力，从而有望彻底发现人脑的神经机制。一旦人脑的神经机制被发现，有理由相信，人们可以迅速通过仿真等方式，在计算机中实现类似甚至更高效的计算框架，从而推动实现人工智能的最终目标。此外，量子计算、生物计算、新型芯片材料等领域的发展，都为我们展现出无限可能的未来。

当社会大数据、计算能力和计算框架三方面发展到一定阶段，融合产生了大数据智能。相信随着更大规模数据、更强计算能力和更合理计算框架的推出，人工智能也会不断向前发展。然而，正如前几年社会各界对物联网、云计算的追捧，最近社会上对大数据和人工智能概念的炒作愈演愈烈，产生了很多不切实际的幻想和泡沫。对于这个领域重新得到青睐，我们当然感到欣慰，但是，也不妨多一些谨慎和冷静。鉴古知今，回顾人工智能的曲折发展史（《人工智能——一种现代方法》一书中有详细介绍），我们看到，在过度的期望破灭之后，随之而来的就是严冬。在大数据智能万众瞩目的今天，我们不妨心中常存对于凛冬将至的警惕。

事物总是在不断自我否定中螺旋式前进的，人工智能的探求之路也是如此。我们相信大数据是获得智能的必由之路，但现在的做法不见得就一定正确。多年之后，我们也许会用截然不同的办法处理大数据。然而这些都不重要，重要的是一颗执着的心和坚持不懈的信念。就像深度学习领域的巨人 Geoffrey Hinton、Yann LeCun 等，曾坐了十几年的冷板凳，研究成果屡屡被拒，到了 2019 年才荣膺计算机领域最高奖“图灵奖”。对真正的学者而言，研究领域是冷门还是热门也许不重要，反而会成为对从业者的试金石——只有在寒冬中坚持下来的种子，才能等到春天绽放。

关于本书

本书前身《大数据智能——互联网时代的机器学习和自然语言处理技术》出版于2016 年，作为一本技术科普书，在社会上得到了一些正面的反响。于是，我们邀请更多作者加入，在原有的 8 章内容基础上新增了 6 章内容。此外，对原有章节内容进行了适当更新，使内容更加全面。

本书并不想在已经熊熊燃烧的大数据火堆上再添一把柴。本书希望从人工智能这个新的角度，总结大数据智能取得的成果、局限性及未来可能的发展前景。本书共分 14 章，从大数据智能基础、技术和应用三个方面展开介绍。本书基础部分有 3 章。第 1 章以深度学习为例介绍大数据智能的计算框架；第 2 章以知识图谱为例介绍大数据智能的知识库；第 3 章介绍大数据的计算处理系统。在大数据智能的技术和应用部分，我们选择文本大数据作为主要场景进行介绍，主要原因在于，语言是人类智能的集中体现，语言理解也是人工智能的终极目标，图灵测试的设置是以语言作为媒介的。技术部分有 6 章，分别介绍主题模型、机器翻译、情感分析与意见挖掘、智能问答与对话系统、个性化推荐系统、机器写作等数据智能关键技术。应用部分有 5 章，分别介绍社交商业数据挖掘、智慧医疗、智慧司法、智能金融、计算社会学等典型应用场景。

大数据智能仍然是一个高速发展的领域。为了让读者能够了解这个领域的前沿进展，本书专门设置后记，为初学者追踪大数据智能的最新学术资料提供了建议。大数据智能方向众多，每位学者术业有专攻，很难独力完成所有章节内容。因此，我们邀请了多位作者撰写他们所擅长方向的章节。他们都在相关领域开展了多年研究工作，发表过高水平的论文。

2019 年 11 月于北京

大数据智能：数据驱动的自然语言处理技术

内容简介

作者简介

编辑推荐

前言

目录

产品特色