猜你喜欢
R数据科学实战(第2版)

R数据科学实战(第2版)

书籍作者:尼娜·祖梅尔 ISBN:9787302595441
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8870
创建日期:2023-03-25 发布日期:2023-03-25
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
下载地址
内容简介

有依据的决策对于成功至关重要。将正确的数据分析技术应用到精心筹备的业务数据中有助于做出准确预测、确定趋势,以及提前发现问题。R数据分析平台提供了许多高效率的工具,可用来处理日常的数据分析和机器学习任务。
《R数据科学实战》(第2版)是一本基于任务的教程,引导读者使用R语言参与几十个实用的数据分析实践。本书重点介绍读者在工作中将面临的最重要任务,对于商业分析师和数据科学家来说都非常实用。因为数据只有在可理解的情况下才有用,所以读者也可以在表格中找到组织和展示数据的妙招,以及快速生动的可视化效果。

作者简介

尼娜·祖梅尔(Nina Zumel)曾在一家独立的、非营利性研究机构SRI International担任科学家。她曾在一家价格优化公司担任首席科学家,并创办了一家合同研究公司。Nina现在是Win-VectorLLC的首席顾问。读者可以通过[email protected]联系她。

编辑推荐

在《R数据科学实战》(第2版)这本书中,作者用了一些篇幅描述了什么是数据科学、数据科学家是如何解决问题的,以及对他们工作的描述。其中,包括对经典监督学习方法(如线性回归和逻辑回归)的详细描述。我们喜欢本书的调研式风格,以及使用的大量的竞赛获奖方法和程序包的示例(如随机森林和xgboost)。本书涵盖了非常有用的、可共享的经验和实践建议。我们注意到,在本书中甚至包括了我们自己使用过的一-些技巧,例如使用随机森林变量重要性进行初始变量的筛选。

《R数据科学实战(第2版)》电子书免费下载

pdf下载 txt下载 epub下载 mobi下载 azw3下载

前言

《R数据科学实战(第2版)》是我们在自学时所希望拥有的书,它所汇集的主题和技能被称为数据科学。《R数据科学实战(第2版)》也是我们想分发给客户和同行的书。它的目的是解释统计学、计算机科学和机器学习等学科中对数据科学至关重要的内容。

数据科学利用了来自经验科学、统计学、报表技术、分析技术、可视化技术、商业智能、专家系统、机器学习、数据库、数据仓库、数据挖掘和大数据技术的各种工具。正是因为我们有太多的工具,所以需要一个涵盖所有工具的指导原则。数据科学本身与这些工具和技术的区别就在于数据科学的中心目标是将有效的决策模型部署到生产环境中。

我们的目标是从务实的、面向实践的角度来展示数据科学。我们通过聚焦在完全成功的真实数据上的示例来实现这一目标,《R数据科学实战(第2版)》展示了超过10个重要的数据集。我们认为这种方法能举例说明我们真正想要达到的教学目标,并能演示实际项目中所需要的各种准备步骤。

在《R数据科学实战(第2版)》中,我们讨论了实用的统计学和机器学习的概念,包括具体的代码示例,并探索了与非专业人员的合作和沟通方式。如果你觉得这些话题中没有新颖的主题,那么我们希望《R数据科学实战(第2版)》内容能为你最近没有想到的其他一两个话题提供一些启示。


目录

第Ⅰ部分 数据科学引论
第1章 数据科学处理过程
1.1 数据科学项目中的角色
1.2 数据科学项目的阶段
1.2.1 制定目标
1.2.2 收集和管理数据
1.2.3 建立模型
1.2.4 评价和评判模型
1.2.5 展现结果和编制文档
1.2.6 部署模型
1.3 设定预期
1.4 小结
第2章 从R和数据入门
2.1 R入门
2.1.1 安装R、工具和示例
2.1.2 R编程
2.2 处理文件中的数据
2.2.1 使用来自文件或URL的结构良好的数据
2.2.2 使用R处理非结构化的数据
2.3 使用关系数据库
2.4 小结
第3章 探索数据
3.1 使用概要统计方法发现问题
3.2 使用图形和可视化方法发现问题
3.2.1 采用可视化的方法检查单变量的分布
3.2.2 采用可视化的方法检查两个变量之间的关系
3.3 小结
第4章 管理数据
4.1 清洗数据
4.1.1 特定领域的数据清洗
4.1.2 处理缺失值
4.1.3 自动处理缺失值变量的vtreat程序包
4.2 数据转换
4.2.1 归一化处理
4.2.2 中心化和定标
4.2.3 针对偏态分布和广泛分布的对数转换
4.3 用于建模和验证的抽样处理
4.3.1 用于测试和训练的分组数据集
4.3.2 创建一个样本分组列
4.3.3 记录分组
4.3.4 数据来源
4.4 小结
第5章 数据工程与数据整理
5.1 数据选取
5.1.1 设置行子集和列子集
……
第Ⅱ部分 建模方法
第6章 选择和评价模型
第7章 线性和逻辑回归
第8章 高级数据准备
第9章 无监督方法
第10章 高级方法探索
第Ⅲ部分 结果交付
第11章 文档编制和部署
第12章 有效的结果展现
附录A 使用R和其他工具
附录B 重要的统计学概念
附录C 参考文献

短评

又快又好!日常生活用品首选!

2022-04-07 18:00:59