书籍作者:鲍里斯·帕斯哈弗 | ISBN:9787302612711 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:7613 |
创建日期:2023-05-05 | 发布日期:2023-05-05 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
主要内容
●对数据集进行组织、 分组、合并、分割以及连接
●发现基于文本和时间的数据的趋势
●对数据进行排序、过滤、枢轴化、优化,并得出结论
●应用聚合操作
Boris Paskhaver是一名软件工程师、敏捷顾问和在线教育家。已有来自190个国家的30万名学生学习了他的编程课程。
使用Python进行数据分析并不难。如果你会使用电子表格,就能学会Pandas!虽然它的网格样式布局可能会让你想起Excel,但Pandas要灵活和强大得多。Python库可以快速对数百万行数据执行操作,并且可以轻松地与Python数据生态系统中的其他工具进行交互。这是提升你的数据游戏的完美方式。
《Pandas数据分析实战》介绍了使用令人惊叹的 Pandas 库在 Python 中进行数据分析。你将学习如何对重复操作进行自动化,并让你对在Excel中很难实现,甚至不可能实现的数据分析有更深的理解。本书每章都可以独立成篇。通过下载真实的数据集,可以让你的学习更加贴近现实工作。
本书读者对象
《Pandas数据分析实战》全面介绍了用于数据分析的Pandas库。Pandas可以帮助你轻松地执行多种数据操作:排序、连接、旋转、清理、删除重复数据、聚合等。本书循序渐进地介绍了Pandas的各种功能,每种功能从较小的构建块开始,再到较大的数据结构。
《Pandas数据分析实战》适合具有电子表格软件(如Microsoft Excel、Google Sheets和Apple Numbers)以及类似的数据分析工具(如R和SAS)使用经验的中级数据分析师。对于想了解更多数据分析知识的Python开发人员来说,也是一本非常合适的参考书。
本书的内容结构
《Pandas数据分析实战》由14章组成,分为两部分。
第Ⅰ部分,Pandas核心基础,循序渐进地介绍了Pandas库的基本原理。
第1章使用Pandas分析了一个示例数据集,以全面概述Pandas的功能。
第2章介绍了Series对象,这是一种Pandas的核心数据结构,用于存储有序数据的集合。
第3章深入地探讨Series对象,探索了各种Series操作,包括值排序、删除重复项、提取最小值和最大值等。
第4章介绍了二维数据表DataFrame。本章将前几章的概念应用到新的数据结构中,并引入了额外的操作。
第5章展示了如何使用各种逻辑条件从DataFrame中过滤行的子集:相等、不等、比较、包含、排除等。
第Ⅱ部分,应用Pandas,重点介绍更高级的Pandas功能,以及如何利用这些功能解决现实世界数据集的问题。
第6章介绍了如何在Pandas中处理不完美的文本数据,讨论如何解决删除空格、查找和替换字符、字母大小写,以及从单个列中提取多个值等问题。
第7章讨论MultiIndex,它允许将多个列值组合成一行数据的单个标识符。
第8章描述了如何在数据透视表中聚合数据,将标题从行轴移到列轴,并将数据由宽格式转换为窄格式。
第9章探讨如何将行分组到桶中,并通过GroupBy对象对结果集合进行聚合。
第10章介绍使用各种连接将多个数据集合并为一个。
第11章演示了如何在Pandas中处理日期和时间。本章涵盖了排序日期、计算持续时间,以及确定日期是在一个月还是一个季度的开始等主题。
第12章展示了如何将其他文件类型导入Pandas,包括Excel和JSON,还讲解了如何从Pandas导出数据。
第13章侧重于配置库的设置。本章深入研究了如何修改显示的行数、更改浮点数的精度、将值舍入低于阈值等。
第14章探讨了如何使用Matplotlib库进行数据可视化,以及如何使用Pandas数据创建折线图、条形图、饼图等。
每章都建立在前一章的基础上。对于Pandas新手,我建议按照线性顺序阅读每个章节。同时,为了确保本书能够成为一本参考指南,我将每章都写成一个独立的教程,并带有自己的数据集。在每章的开头,都会从头开始编写代码,因此你也可以从自己喜欢的任何章节开始阅读本书。
大多数章节都以代码挑战结束,让你可以将概念应用于实践。我强烈建议你尝试一下这些代码挑战。
Pandas建立在Python编程语言的基础上,建议你在学习本书之前了解Python语言的基本知识。对于在Python方面经验有限的人,附录B提供了对该语言的详尽介绍。
关于代码
本书包含了很多源代码的例子。它们都是用等宽字体来格式化的,以区别于普通的文本。
本书示例的源代码可在GitHub存储库https://github.com/paskhaver/pandas-in-action中找到。不熟悉Git和GitHub的人,请在存储库页面上查找Download Zip按钮。有Git和GitHub经验的人可以从命令行来复制。另外,扫描本书封底的二维码也可下载本书示例的源代码。
存储库还包括文本形式的完整数据集。我学习Pandas时,最大的挫折之一就是使用的教程喜欢依赖随机生成的数据,没有一致性,没有背景,没有故事,没有乐趣。在本书中,我们将使用许多现实中的真实数据集,涵盖从篮球运动员的薪水到神奇宝贝的类型,再到餐厅健康检查的内容。数据无处不在,Pandas是当今分析数据的最佳工具之一。我希望你喜欢数据集并时刻保持关注。
liveBook论坛
购买《Pandas数据分析实战》可以免费访问由 Manning Publications 运营的私人网络论坛,可以在该论坛上对本书发表评论、提出技术问题,以及从作者和其他用户那里获得帮助。论坛地址为https://livebook.manning.com/#!/book/pandas-in-action/discussion。你还可以在https://livebook.manning.com/ #!/discussion上了解有关Manning论坛和行为规则的更多信息。
Manning对读者的承诺是提供一个场所,让读者之间,以及读者与作者之间能够进行有意义的对话。这不是作者对任何具体参与形式的次数的承诺,作者对论坛的贡献仍然是自愿的(和无偿的)。建议读者提出一些有挑战性的问题,以激发作者的兴趣!只要这本书还在印刷,就可以从出版社的网站上访问论坛和以前讨论的归档信息。
其他在线资源
● 官方Pandas文档可在https://pandas.pydata.org/docs获得。
● 在业余时间,我在Udemy上发布了技术视频课程。读者可以在https://www.udemy.com/ user/borispaskhaver上找到这些课程,其中包括20小时的Pandas课程和60小时的Python课程。
● 可随时通过Twitter(https://twitter.com/borispaskhaver)或LinkedIn(https://www.linkedin.com/ in/boris-paskhaver)与我联系。
大多数数据分析的书都是啰啰嗦嗦将近100页介绍putyon以及解释器。这本书是直接上干货,讲pandas!简明扼要。值得一读。
2022-10-14 00:37:36