猜你喜欢
数据科学实战速查表(第1辑)

数据科学实战速查表(第1辑)

书籍作者:欧高炎 ISBN:9787030586896
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:8814
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介
数据科学是一门新兴的交叉学科。数据科学人才需要同时具备理论性、实践性和应用性等多方面的素质。数据科学的知识点涵盖了编程语言、数学基础、数据清洗、数据可视化、数据分析和分布式计算等。为了帮助数据科学从业人员快速地查阅这些知识和工具的使用,提高实践效率,《数据科学实战速查表(第1辑)》对数据科学的相关知识进行了归纳整理,形成数十份速查表。
  《数据科学实战速查表(第1辑)》既可以作为数据科学与大数据技术专业教师和学生的学习资料,也可作为数据分析师、数据工程师和算法工程师等数据科学从业者项目实践的参考工具。对大数据感兴趣的读者也可通过该书对数据科学的知识框架、实践工具有初步的认识。
作者简介
欧高炎,北京大学北京国际数学研究中心博士后,博雅大数据学院院长,大数据教育联盟秘书长。中国计算机学会数据库专委会委员。大数据教育云平台“数据酷客”创始人。
  
  晏晓东,北京大学理学硕士,曾任北京大数据研究院数据分析师,现从事搜索及推荐算法相关工作。
  
  高扬,芬兰阿尔托大学机器学习与数据挖掘专业硕士,博雅大数据学院数据分析师。负责研发大数据教育云平台“数据酷客”多门在线课程,如数据清洗、数据可视化等。
前言
数据科学是一门新兴的交叉学科。数据科学人才需要同时具备理论性、实践性和应用性等多方面的素质。数据科学的知识点涵盖了编程语言、数学基础、数据清洗、数据可视化、数据分析和分布式计算等,如此广泛的知识面,再加上当前中文数据科学资源的严重匮乏,给数据科学的初学者带来了很大的挑战。
  为了应对这一挑战,博雅大数据学院组织编写了本书,旨在以简明、生动和系统的方式,帮助数据科学初学者高效便捷地查阅数据科学的知识点和实践工具的使用方法,从而提高实践能力。
  本书将数据科学的知识模块划分成编程语言、数据分析、数学统计理论、数据可视化、机器学习、图像处理和分布式计算七大模块,在每一个模块,对核心的理论知识进行了介绍,重点介绍了该模块的典型实践工具的使用方法。在数据科学领域,Python拥有较为完整的生态圈,而且入门门槛较低,因此本书主要介绍基于Python语言的数据科学实践工具。速查表既有重要的公式推导,也包含常用的代码示例。我们力图通过简练的语言、精美的图表,展现数据科学相关技术和工具的核心技能点,帮助读者快速检索知识,提升学习和工作效率。
  本书既可以作为数据科学与大数据技术专业教师和学生的学习资料,也可作为数椐分析师、数据工程师和算法工程师等数据科学从业者项目实践的参考工具。对大数据感兴趣的读者也可通过本书对数据科学的知识框架和实践工具有初步的认识,为进一步的深入学习打下良好的基础。
  本书是集体创作的成果。参与本书写作的还有博雅大数据学院实习生陈朋路、王鲸和张嘉田,博雅大数据学院的邵江龙、郑州、闫晗和袁星星等对本书进行了细致的校对工作,中国民航大学周茂袁老师、北京信息科技大学刘亚辉老师、华北理工大学龚佃选老师、中国民航大学硕士研究生刘涛对本书初稿进行了审校。在本书正式出版之前,我们通过数据酷客发布了本系列速查表的初稿,得到了众多数据酷客用户的宝贵修改建议,在此作者一并表示感谢。
目录
第一章 编程语言
第一节 Python语言
第二节 R
第三节 SQL
第四节 Git
第五节 Shell

第二章 数据分析
第一节 NumPy
第二节 ScipyBasics
第三节 Pandas
第四节 数据清洗
第五节 StatsModels

第三章 数学统计理论
第一节 概率
第二节 统计
第三节 矩阵微分
第四节 线性代数
第五节 图模型
第六节 凸优化

第四章 数据可视化
第一节 Matplotlib
第二节 Seabom
第三节 Basemap

第五章 机器学习
第一节 特征工程
第二节 机器学习建模
第三节 Scikit-learn
第四节 PyTorch

第六章 图像处理
第一节 基本概念
第二节 像素的空间关系
第三节 图像增强
第四节 图像变换
第五节 图像恢复
第六节 图像分割
第七节 图像编码

第七章 分布式计算
第一节 Hadoop
第二节 Spark
产品特色