书籍作者:邹庆士 | ISBN:9787302575337 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:1904 |
创建日期:2021-10-07 | 发布日期:2021-10-07 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书主要介绍大数据分析与应用,包括数据驱动程序设计、数据前处理、统计机器学习基础、无监督式学习、监督式学习、其他学习方式(集成学习、深度学习、强化学习)等6章内容。
本书特色:文字说明、程序代码与执行结果等交叉呈现,有助于阅读理解;提供来自不同领域的资料处理与分析范例;同时掌握数据分析两大主流工具—— R 与 Python;凸显第四代与第三代程序语言的不同之处。
本书读者对象:计算机、人工智能、大数据等相关专业的本科生、研究生,对大数据分析与应用感兴趣的社会读者,以及大数据分析与应用行业的工程技术人员。
邹庆士,明志科技大学机械工程系特聘教授兼人工智能暨数据科学研究中心主任。主要从事人工智能与统计机器学习、博弈理论应用、演化式多目标最佳化、弹性制造与工业控制等领域的教学、科研工作。1988年在台湾中原大学工学院取得学士学位,1990年在台湾中原大学机械工程研究所取得硕士学位,1994年在台湾科技大学取得运筹学博士学位,毕业后在台湾中华大学企业管理学系暨经营管理研究所、台湾世新大学信息管理学系暨研究所、台北商业大学信息与决策科学研究所任教,长期讲授“数据科学导论”“统计机器学习与决策”“人工智能”等课程。近年来提供大数据分析培训与咨询服务,主持气象、交通、互联网、电子商务、金融科技、智慧养殖、绿能发电、环境辐射、化工制程等跨领域大数据分析建模产学合作案例,协助从业者学习实际应用统计机器学习技术,并与两岸多所大专院校合作开授R/Python语言数据科学讲座,分享跨领域数据解析的实践经验,致力于培育理论与实践兼具的跨域人才。
本书酝酿已久,走笔至此,不敢说是完美,但总算告一段落了!大数据分析是一个宽阔迷人的交叉学科领域,至少包括计算机科学、统计学与运筹学,让我到现在还不知道如何走出来。任何跨领域的新兴学科,其实很少有人是专家,而我只是众多对大数据充满兴趣的研究者中的一员。
知识探索的过程有时就像充满惊奇变化的自助旅行一样,抓住重要的基本方向,例如大数据分析背后的数学模型与计算机模型,先理论后实践,不断地相互交叉验证,其他就顺势而为,且战且走,享受意外的收获了。关于数据科学工具的采用,我们经历了R 语言因统计机器学习而走红,Python 语言因深度学习而兴起的过程,甚至要思考何时拥抱运算效率更好的Julia 语言。就数据领域而言,气象、交通、社群网络、电子商务、金融科技、物理化学、制造技术、农渔养殖、绿能发电、环境辐射、生物医学等,大数据研究永无止境。
道是本,术是末,因为物有本末,事有终始,知所先后,则近道矣,所以我们“重道轻术”了。但道是灵,术是体,术是道的具体实现,是看得见、摸得着的规律,也算是道的一部分,所以我们得“从术悟道”了。无论如何,笔者建议大数据分析的学习过程避免昨非今是、有我无你的文人相轻式学习。重视与慎选优质灵活工具,不断地动手探索尝试,并从失败中积累经验,努力思索跨领域的源头,方能迈向术道兼修的至高境界。
本书特色:
? 文字说明、程序代码与执行结果等交叉呈现,有助于阅读理解。
? 提供来自不同领域的数据处理与分析范例。
? 同时掌握数据分析两大主流工具——R 与Python。
? 凸显第四代与第三代程序语言的不同之处。
? 深入浅出地介绍统计机器学习理论与实践。
大数据分析人才需要具备的特质是“谦卑与学习、固本但跨域”,笔者希望通过本书分享这几年积累的学习方向:一数据、二工具、三模型。一心向着数据理解的根本要务前进,精通至少两种弹性的分析工具(R与Python),掌握概率统计、机器学习与运筹学等三大类模型,大步迈向数据驱动的智能决策新纪元。
本书的完成首先要感谢家人们的支持与协助,让我无后顾之忧,专心写作与编程。工作单位台北商业大学信息与决策科学研究所提供良好的研究环境,让我这几年在大数据领域钻研。稿件整理与校阅工作多是在半年休假研究期间完成的,新加坡国立大学商学院分析与作业学系,以及南京理工大学经济管理学院,为我提供了很好的写作与住宿环境。最后,笔者才疏学浅,校稿期间一再发现许多误谬、疏漏、错置与不严谨之处,虽已努力改进,一定还有未竟之处,敬请广大读者给予建议与斧正。
邹庆士
2021 年1 月于台北市
目 录
第1章 数据驱动程序设计 1
1.1 套件管理 1
1.1.1 基本套件 5
1.1.2 建议套件 6
1.1.3 贡献套件 9
1.2 环境与辅助说明 11
1.3 R语言数据对象 17
1.3.1 向量 18
1.3.2 矩阵 22
1.3.3 数组 25
1.3.4 列表 28
1.3.5 数据集 31
1.3.6 因子 38
1.3.7 R语言原生数据对象取值 42
1.3.8 R语言衍生数据对象 49
1.4 Python语言数据对象 54
1.4.1 Python语言原生数据对象处理 54
1.4.2 Python语言衍生数据对象取值 62
1.4.3 Python语言类别变量编码 68
1.5 向量化与隐式循环 71
1.6 编程范式与面向对象概念 77
1.6.1 R语言S3类别 80
1.6.2 Python语言面向对象 84
1.7 控制流程与自定义函数 89
1.7.1 控制流程 89
1.7.2 自定义函数 92
1.8 数据导入与导出 99
1.8.1 R语言数据导入及导出 99
1.8.2 Python语言数据导入及导出 101
1.9 程序调试与效率监测 105
第2章 数据前处理 112
2.1 数据管理 112
2.1.1 R语言数据组织与排序 113
2.1.2 Python语言数据排序 119
2.1.3 R语言数据变形 123
2.1.4 Python语言数据变形 127
2.1.5 R语言数据清理 128
2.1.6 Python语言数据清理 151
2.2 数据摘要与汇总 154
2.2.1 摘要统计量 155
2.2.2 R语言群组与摘要 163
2.2.3 Python语言群组与摘要 172
2.3 特征工程 183
2.3.1 特征转换与移除 183
2.3.2 特征提取的主成分分析 198
2.3.3 特征选择 211
2.3.4 结语 216
2.4 大数据处理概念 217
2.4.1 文本数据处理 218
2.4.2 Hadoop分布式文件系统 232
2.4.3 Spark集群计算框架 233
第3章 统计机器学习基础 237
3.1 随机误差模型 238
3.1.1 统计机器学习类型 243
3.1.2 过度拟合 244
3.2 模型性能评量 247
3.2.1 回归模型性能指标 247
3.2.2 分类模型性能指标 250
3.2.3 模型性能可视化 259
3.3 模型选择与评定 263
3.3.1 重抽样与数据分割方法 263
3.3.2 单类模型参数调校 273
3.3.3 比较不同类的模型 287
3.4 相似性与距离 290
3.5 相关与独立 293
3.5.1 数值变量与顺序尺度类别变量 293
3.5.2 名目尺度类别变量 298
3.5.3 类别变量可视化关联检验 307
第4章 无监督式学习 315
4.1 数据可视化 316
4.2 关联形态挖掘 324
4.2.1 关联形态评估准则 324
4.2.2 在线音乐城关联规则分析 325
4.2.3 结语 333
4.3 聚类分析 334
4.3.1 k均值聚类法 335
4.3.2 阶层式聚类 346
4.3.3 密度聚类 351
4.3.4 聚类结果评估 355
4.3.5 结语 356
第5章 监督式学习 357
5.1 线性回归与分类 358
5.1.1 多元线性回归 358
5.1.2 偏最小二乘法回归 379
5.1.3 岭回归、套索回归与弹性网罩惩罚模型 385
5.1.4 线性判别分析 392
5.1.5 逻辑回归分类与广义线性模型 398
5.2 非线性分类与回归 401
5.2.1 朴素贝叶斯分类 401
5.2.2 k近邻法分类 413
5.2.3 支持向量机分类 422
5.2.4 分类与回归树 445
第6章 其他学习方式 479
6.1 集成学习 479
6.1.1 拔靴集成法 480
6.1.2 多模激发法 480
6.1.3 随机森林 489
6.1.4 结语 490
6.2 深度学习 490
6.2.1 人工神经网络简介 491
6.2.2 多层感知机 493
6.2.3 卷积神经网络 502
6.2.4 递归神经网络 507
6.2.5 自动编码器 510
6.2.6 受限玻尔兹曼机 511
6.2.7 深度信念网络 513
6.2.8 深度学习参数调校 513
6.3 强化学习 516
参考文献 521
索引 523