书籍作者:龚超 | ISBN:9787122434975 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:7988 |
创建日期:2024-04-28 | 发布日期:2024-04-28 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
“人工智能超入门丛书”面向人工智能各技术方向零基础的读者,内容涉及数据思维、机器学习、视觉感知、情感分析、搜索算法、强化学习、知识图谱、专家系统等方向,辅以程序代码解决问题,帮助读者快速入门。
《数据素养:人工智能如何有据可依》是“人工智能超入门丛书”中的分册,主要讲解数据的重要性,重点解读处理数据的各种方法,培养读者的数据素养和数据思维。具体内容包括数据规律、数据收集、数据清洗、数据可视化,以及特征构建、图像处理、文本分析等,同时在本书最后一章,分析了各个学科中如何运用数据思维处理问题。
本书内容通俗易懂,可以作为人工智能及计算机相关工作岗位技术人员的入门读物,对数据及人工智能方向感兴趣的人群也可以阅读。
龚超,工学博士,清华大学日本研究中心主任助理,深圳清华大学研究院下一代互联网研发中心核心成员,海口经济学院雅和人居工程学院客座教授。中国高科技产业化研究会理事、中国自动化学会普及工作委员会委员、中国人工智能学会中小学工作委员会委员、教育部教育信息化教学应用实践共同体项目特聘专家。研究方向为人工智能优化算法,人工智能在数字化转型中的应用等。著有10本人工智能相关图书,多家500强企业数字化转型领域高级顾问,在国内外期刊上发表文章共计60余篇。
郑子杰,北京大学学士、博士,信号与信息处理专业。北京市十一学校数学教师,人工智能课程负责人,帮助学校开发人工智能相关的课程体系。在学校期间与学校信息技术教师共同开发的人工智能普及课程 "人工智能技术与应用",在2021年4月被认定为北京市第一批普通高中特色课程。在各类学术期刊和会议上发表论文40余篇。
汪辉,磊垚创投管理合伙人,未来基因(北京)人工智能研究院特聘专家,上市公司独立董事,投资并服务数百家新三板/北交所企业。研究方向知识图谱技术、人工智能在知识产权保护中的应用等。
1.本书为技术型硬核科普书,培养全民数据素养;
2.全书语言文字简洁易懂,对初学者友好;
3.本书作者是清华大学人工智能方向老师,有非常强的专业能力;
4.本书理论与实践结合,但尽量避免了烦琐公式。
5.本书代码简单,上手非常容易。
新一代人工智能的崛起深刻影响着国际竞争格局,人工智能已经成为推动国家与人类社会发展的重大引擎。2017年,国务院发布《新一代人工智能发展规划》,其中明确指出:支持开展形式多样的人工智能科普活动,鼓励广大科技工作者投身人工智能知识的普及与推广,全面提高全社会对人工智能的整体认知和应用水平。实施全民智能教育项目,在中小学阶段设置人工智能相关课程,逐步推广编程教育,鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广。
为了贯彻落实《新一代人工智能发展规划》,国家有关部委相继颁布出台了一系列政策。截至2022年2月,全国共有440所高校设置了人工智能本科专业,387所高等职业(专科)院校设置了人工智能技术服务专业,一些高校甚至已经在积极探索人工智能跨学科的建设。在高中阶段,“人工智能初步”已经成为信息技术课程的选择性必修内容之一。在2022年实现“从0到1”突破的义务教育阶段信息科技课程标准中,明确要求在7~9年级需要学习“人工智能与智慧社会”相关内容。实际上,1~6年级阶段的不少内容也与人工智能关系密切,是学习人工智能的基础。
人工智能是一门具有高度交叉属性的学科,笔者认为其交叉性至少体现在三个方面:行业交叉、学科交叉、学派交叉。在大数据、算法、算力三驾马车的推动下,新一代人工智能已经逐步开始赋能各个行业。人工智能也在助力各学科的研究,近几年,《自然》等顶级刊物不断刊发人工智能赋能学科的文章,如人工智能推动数学、化学、生物、考古、设计、音乐以及美术等。人工智能内部的学派也在不断交叉融合,像知名的AlphaGo,就是集三大主流学派优势,并且现在这种不同学派间取长补短的研究开展得如火如荼。总之,未来的学习、工作与生活中,人工智能赋能的身影将无处不在,因此掌握一定的人工智能知识与技能将大有裨益。
根据笔者长期从事人工智能教学、研究经验来看,一些人对人工智能还存在一定的误区。比如将编程与人工智能直接画上了等号,又或是认为人工智能就只有深度学习等。实际上,人工智能的知识体系十分庞大,涵盖的内容相当广泛,不但有逻辑推理、知识工程、搜索算法等相关内容,还涉及机器学习、深度学习以及强化学习等算法模型。当然,了解人工智能的起源与发展、人工智能的道德伦理,对正确认识人工智能和树立正确的价值观也是十分必要的。
通过对人工智能及其相关知识的系统学习,可以培养数学思维(mathematical thinking)、逻辑思维(reasoning thinking)、计算思维(computational thinking)、艺术思维(artistic thinking)、创新思维(innovative thinking)与数据思维(data thinking),即MRCAID。然而遗憾的是,目前市场上既能较综合介绍人工智能相关知识,又能辅以程序代码解决问题,同时还能迅速入门的图书并不多见。因此笔者策划了本系列图书,以期实现体系内容较全、配合程序操练及上手简单方便等特点。
本书以数据素养为主线,按照如下内容进行组织:第1章介绍什么是数据素养、数据的类型以及人工智能与数据的关系;第2章介绍认识数据规律中涉及的随机等相关概念,为认识数据、理解数据以及利用数据奠定基础;第3章介绍如何获取数据以及清洗数据的相关知识与技能,这也是利用机器学习等算法分析问题的前提;第4章围绕数据的一些特征以及数据的可视化相关内容展开探讨,进一步加深对数据的理解;第5章系统阐述了数据的特征这一概念以及如何善用特征发现问题、分析问题;第6章介绍了图像、文本等非结构化数据的处理技能,为人工智能相关算法处理图像、文本铺平道路;第7章结合数据分析、数据可视化以及简单的人工智能算法,给出了几个数据赋能课堂的案例。本书的附录部分,介绍了抽样分布与参数估计、假设检验及Python实验室Jupyter Lab的使用。
本书的出版要感谢曾提供热情指导与帮助的院士、教授、中小学教师等专家学者,也要感谢与笔者一起并肩参与写作的其他作者,同时还要感谢化学工业出版社编辑老师们的热情支持与一丝不苟的工作态度。
在本书的出版过程中,未来基因 ( 北京 ) 人工智能研究院、腾讯教育、阿里云、科大讯飞等机构给予了大力支持,在此一并表示感谢。
由于笔者水平有限,书中内容不可避免会存在疏漏,欢迎广大读者批评指正并提出宝贵意见。
龚超
2023年4月于清华大学
第1章 数据概述 001
1.1 数字化社会与数据思维 002
1.1.1 数字的社会早已到来 002
1.1.2 人人都该提升数据素养 004
1.1.3 化无形为有形,化抽象为具体 006
1.2 数据的含义与类型划分 007
1.2.1 数据的狭义含义 007
1.2.2 数据的广义含义 009
1.2.3 数据类型的划分 010
1.3 人工智能与数据 011
1.3.1 新时代的金矿——数据 011
1.3.2 将数据转化为洞见 012
1.3.3 警惕选择偏见与数据偏见 013
第2章 随机世界中的数据规律 016
2.1 随机现象 017
2.1.1 生活中的随机现象 017
2.1.2 随机试验 019
2.2 随机变量与数据中的随机 024
2.2.1 随机变量及其分布 024
2.2.2 数据中的随机性 028
2.3 数据的形态与中心极限定理 030
2.3.1 正态分布 030
2.3.2 中心极限定理 033
第3章 数据收集与整理 036
3.1 如何获取数据 037
3.1.1 获取一手数据 037
3.1.2 获取二手数据 048
3.2 “二维”视角看数据 054
3.2.1 二维表 054
3.2.2 二维表的基本操作 059
3.3 如何清洗数据 063
3.3.1 数据的格式化与结构化 064
3.3.2 缺失值与异常值 066
第4章 数据的描述与可视化 070
4.1 数据的集中、离中趋势 071
4.1.1 数据的集中趋势 071
4.1.2 数据的离中趋势 075
4.2 数据的变换 077
4.2.1 数据的无量纲化 077
4.2.2 连续型变量的变换 080
4.2.3 类别特征的变换 083
4.3 数据的可视化 084
4.3.1 科学绘图 084
4.3.2 可视化的重要性 096
4.3.3 数据形态看数据 104
第5章 特征的构建与关联 112
5.1 特征的创建与选取 113
5.1.1 特征的创建 113
5.1.2 与时俱进选取指标 115
5.2 特征的扩充与降维分析 117
5.2.1 特征的扩充 117
5.2.2 降维分析 121
5.3 特征间的关系 126
5.3.1 相关≠因果 126
5.3.2 相关系数 128
5.3.3 从相关到回归 132
第6章 非结构化数据的结构化 141
6.1 用“二维表”的结构理解数据 142
6.2 图像即矩阵 145
6.2.1 用矩阵视角打开图像 145
6.2.2 图像特征的处理 150
6.3 文本的向量之路 156
6.3.1 文本的分词、清洗与整理 156
6.3.2 从句子到向量的词袋模型 167
6.3.3 Word2Vec让词语变向量 171
第7章 无数据,不课堂 176
7.1 数据与算法,打开另一扇窗 177
7.1.1 语文——水浒传 177
7.1.2 物理——伏安法测电阻 178
7.1.3 生物——鸢尾花分类 180
7.2 可视化,让内容更加图强 183
7.2.1 数学——二次函数性质分析 183
7.2.2 英语——I have a dream 185
7.2.3 化学——绘制元素周期表 186
7.2.4 历史——中国历史人口数据可视化 189
7.2.5 地理——卫星影像图 193
附录 196
附录一 抽样分布与参数估计 197
附录二 假设检验 208
附录三 腾讯扣叮Python实验室:Jupyter Lab使用说明 214