Python数据科学应用从入门到精通

书籍作者：张甜	ISBN：9787302646853
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：6981
创建日期：2024-05-09	发布日期：2024-05-09
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

随着数据存储、数据处理等大数据技术的快速发展，数据科学在各行各业得到广泛的应用。数据清洗、特征工程、数据可视化、数据挖掘与建模等已成为高校师生和职场人士迎接数字化浪潮、与时俱进提升专业技能的必修课程。本书将“Python课程学习”与“数据科学应用”有机结合，为数字化人才的培养助力。

全书共分13章，内容包括：第1章数据科学应用概述；第2章Python的入门基础知识；第3章数据清洗；第4~6章特征工程介绍，包括特征选择、特征处理和特征提取；第7章数据可视化应用；第8~13章介绍6种数据挖掘与建模的方法，分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。

《Python数据科学应用从入门到精通》既适合作为经济学、管理学、统计学、金融学、社会学、医学、电子商务等相关专业的学生学习Python数据科学应用的专业教材或参考书，也适合作为企事业单位数字化人才培养的教科书与工具书。此外，还可以作为职场人士提升数据处理与分析挖掘能力，提高工作效能和绩效水平的自学Python数据科学应用的工具书。

作者简介

张甜，山东大学金融学博士，现就职于山东管理学院，教授统计学、计量经济学等课程，硕、博士期间分别师从山东大学陈强教授、曹廷求教授，在《财贸经济》《经济评论》等重要期刊发文多篇，参与“地方金融运行动态监测及系统性风险预警研究”等多项重大项目，著有《Python数据科学应用从入门到精通》《Stata统计分析从入门到精通》《SPSS统计分析入门与应用精解（视频教学版）》等10余本畅销数据分析教材。

杨维忠，山东大学西方经济学硕士，CPA，目前就职于某全国性股份制商业银行总行，担任总行数据分析与机器学习内训师。精通Python、Stata、SPSS、Eviews、Excel等多种统计分析软件，具有深厚的学术研究功底、丰富的实践操作经历和授课经验，尤其擅长将各种统计分析方法与机器学习算法应用到工作中，著有多本畅销数据分析教材，深受读者欢迎。

编辑推荐

《Python数据科学应用从入门到精通》是张甜博士和数据分析领域专家杨维忠合力打造的精心之作，现在已成为编辑推荐。本书全面介绍了Python数据分析的基本概念和技能，包括数据清洗、数据可视化、统计分析、机器学习等。重要的是，本书注重实践应用，提供了大量的实例和案例，帮助读者更好地理解和掌握所学知识。无论是经济学、管理学、统计学、金融学、社会学、医学还是电子商务等专业学生，都可以将其作为学习Python数据分析的专业教材和参考书。而对于企业和事业单位来说，本书也是数字化人才培养的教科书和工具书。同时，职场人士也可以利用本书自学，掌握Python数据分析，提升数据挖掘、分析和可视化建模能力，从而提高工作效率和改善绩效水平。

前言

Python作为一门简单、易学、易读、易维护、用途广泛、速度快、免费、开源的主流编程语言，广泛应用于Web开发、大数据处理、人工智能、云计算、爬虫、游戏开发、自动化运维开发等各个领域。它是众多高等院校学生的必修基础课程，也是堪与Office办公软件比肩的职场人士必备技能。然而，不少学生或职场人士常常面临一个困境：在数字化转型的大背景和大趋势下，他们认识到学习Python等分析工具的重要性，但在真正学习Python的各种语言规则时，往往体验不到知识的乐趣，只是匆匆翻看几章后就将书束之高阁。造成这种情况的根因在于没有将学习与自身的研究或工作需求结合，没有以解决问题为目标和导向进行学习。对于很多读者来说，学以致用的最佳途径是使用Python进行数据科学应用。在数字化转型浪潮下，数据科学应用已经不再局限于概念普及和理念推广的层面，而是真真切切地广泛应用于各类企事业单位的各个领域。从客户分层管理到目标客户选择，从客户满意度分析到客户流失预警，从信用风险防控到精准推荐……数据科学应用对于企业全要素生产率的边际提升起到了至关重要的作用。基于上述原因，笔者致力于编写这本Python数据科学应用从入门到精通的教学和参考书，将Python与数据科学应用相结合，通过“深入浅出讲解数据科学原理-贴近实际精选操作案例-详细演示Python操作及代码含义-准确完整解读分析结果”的一站式服务，为读者编写一本“能看得懂、学得进去、真用得上”的数据科学应用书籍。我将这本书献给新时代的莘莘学子和职场奋斗者。

本书共分为13章。第1章为数据科学应用概述，介绍数据清洗、特征工程、数据可视化、数据挖掘与建模的概念、重要性、主要内容、应用场景、注意事项等，并解释为何选择Python作为实现工具。第2章为Python入门基础，内容包括Python概述，Anaconda平台的下载与安装，Python的注释，基本输出与输入函数，Python的保留字与标识符，Python的变量和数据类型，Python的数据运算符，Python序列的概念及通用操作，Python列表，Python元组，Python字典，Python集合，Python字符串等。第3章为数据清洗，介绍Python函数与模块、Numpy模块数组、Pandas模块序列、Pandas模块数据框、Python的流程控制语句，以及常见类型数据在Python中的读取、合并、写入，数据检索，数据行列处理，数据缺失值、重复值和异常值处理，制作数据透视表，进行描述性分析和交叉表分析等。第4章为特征选择，介绍特征选择的概念、原则与方法，以及过滤法、嵌入法和包裹法等特征选择方法在Python中的实现。第5章为特征处理，介绍常用的特征处理方式，包括特征归一化、特征标准化、样本归一化等，同时介绍了等宽分箱、等频分箱、决策树分箱、卡方分箱等分箱方法，并讲解了WOE和IV及其在Python中的实现。第6章为特征提取，介绍无监督降维技术主成分分析（PCA）和有监督降维技术线性判别分析（LDA）。第7章为数据可视化，介绍常用的数据可视化涉及图形的绘制，包括四象限图、热力图、直方图、条形图、核密度图、正态QQ图、散点图、线图（含时间序列趋势图）、双纵轴线图、回归拟合图、箱图、小提琴图、联合分布图、雷达图、饼图等。第8章为数据挖掘与建模1—线性回归，主要介绍线性回归算法的基本原理及其在Python中的实现。第9章为数据挖掘与建模2—Logistic回归，主要介绍二元Logistic回归的基本原理，并结合具体实例讲解算法在Python中的实现与应用。第10章为数据挖掘与建模3—决策树，讲解决策树算法的概念与原理、特征变量选择及其临界值确定方法、决策树的剪枝、包含剪枝决策树的损失函数、变量重要性，以及算法解决分类问题和回归问题的Python实现与应用。第11章为数据挖掘与建模4—随机森林，讲解模型融合的基本思想、集成学习的概念与分类、装袋法的概念与原理、随机森林算法的概念与原理、随机森林算法特征变量重要性度量、部分依赖图与个体条件期望图，以及算法解决分类问题和回归问题的Python实现与应用。第12章为数据挖掘与建模5—神经网络，讲解神经网络算法的基本思想、感知机、多层感知机、神经元激活函数、误差反向传播算法、万能近似定理及多隐藏层优势、BP算法过拟合问题的解决，以及算法解决分类问题和回归问题的Python实现与应用。第13章为数据挖掘与建模6—RFM分析，讲解RFM分析的基本思想、RFM分类组合与客户类型对应情况、不同类型客户的特点及市场营销策略，并结合具体实例讲解该分析方法在Python中的实现与应用。

本书的特色在于：一是采用了“入门-进阶-应用”的循序渐进方式来讲解Python与数据科学应用。前两章分别介绍了数据科学应用概述和Python入门基础，使读者能够基本掌握Python与数据科学应用的基础。随后的章节中详细讲解了各类数据科学应用中用到的Python代码，并为每行代码提供了恰当的注释，以帮助读者真正理解代码的含义，并能够灵活应用于自身的科研或应用研究。二是采用了“复杂算法模型简单化、抽象理论概念具象化”的方法来讲解数据科学。通过图像化和案例化的方式，剖析了各种数据科学应用的基本原理和适用条件，使读者能够看得明白、学得进去，避免在复杂的数学公式推导面前耗尽了所有的学习热情，最终望洋兴叹，苦技能虽好却不能为己所用矣。同时，本书也做到了不失专业深度，使读者能够掌握各种数据科学应用方法的精髓，根据自身需要选取方法、优化代码和进行科学调参。三是实现了Python与数据科学应用的深度融合。以学以致用为桥梁实现了Python与数据科学应用之间的高效联动协同，使读者通过学习本书能够同时掌握Python语言和数据科学应用这两大专业利器，达到“一箭双雕”的学习效果，有效提升科研与应用水平。

本书提供了丰富的资源，除了可以在正文中扫描二维码观看教学视频外，还可以扫描下方二维码下载源代码、数据文件、PPT、思维导图和习题答案。

本书在编写过程中也借鉴了前人的研究成果。此外，本书作者张甜博士于2020年1月师从山东大学陈强教授，在陈教授的指导下系统学习了机器学习课程。

由于作者水平有限，书中难免存在疏漏之处，诚恳地欢迎各位同行专家和广大读者批评指正，并提出宝贵的意见。

作者

2023年7月

Python数据科学应用从入门到精通

内容简介

作者简介

编辑推荐

前言

目录

产品特色