猜你喜欢
利用Python进行数据分析

利用Python进行数据分析

书籍作者:Wes McKinney ISBN:9787111436737
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:1430
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

  《利用Python进行数据分析》讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。同时,它也是利用Python进行科学计算的实用指南(专门针对数据密集型应用)。
  《利用Python进行数据分析》重点介绍了用于高效解决各种数据分析问题的Python语言和库。《利用Python进行数据分析》没有阐述如何利用Python实现具体的分析方法。

作者简介
Wes McKinney,资深数据分析专家,对各种Python库(包括NumPy、pandas、matplotlib以及IPython等)等都有深入研究,并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章,被各大技术社区争相转载。开发了用于数据分析的著名开源Python库——pandas,广获用户好评。在创建Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management的定量分析师。
前言
针对科学计算领域的Python开源库生态系统在过去10年中得到了飞速发展。2011年底,我深深地感觉到,由于缺乏集中的学习资源,刚刚接触数据分析和统计应用的Python程序员举步维艰。针对数据分析的关键项目(尤其是NumPy、matplotlib和pandas)已经很成熟了,也就是说,写一本专门介绍它们的图书貌似不会很快过时。因此,我下定决心要开始这样的一个写作项目。我在2007年刚开始用Python进行数据分析工作时就希望能够得到这样一本书。希望你也能觉得本书有用,同时也希望你能将书中介绍的那些工具高效地运用到实际工作中去。
  本书的约定
  本书使用了以下排版约定:
  斜体(Italic)
  用于新术语、URL、电子邮件地址、文件名与文件扩展名。
  等宽字体(Constant width)
  用于表明程序清单,以及在段落中引用的程序中的元素,如变量、函数名、数据库、数据类型、环境变量、语句、关键字等。
  等宽粗体(Constant width bold)
  用于表明命令,或者需要读者逐字输入的文本内容。
  等宽斜体(Constant width italic)
  用于表示需要使用用户提供的值或者由上下文决定的值来替代的文本内容。
  注意:代表一个技巧、建议或一般性说明。
  警告:代表一个警告或注意事项。
  示例代码的使用
  本书提供代码的目的是帮你快速完成工作。一般情况下,你可以在你的程序或文档中使用本书中的代码,而不必取得我们的许可,除非你想复制书中很大一部分代码。例如,你在编写程序时,用到了本书中的几个代码片段,这不必取得我们的许可。

目录
前言

第1章 准备工作
本书主要内容
为什么要使用Python进行数据分析
重要的Python库
安装和设置
社区和研讨会
使用本书
致谢

第2章 引言
来自bit.ly的1.usa.gov数据
MovieLens 1M数据集
1880-2010年间全美婴儿姓名
小结及展望

第3章 IPython:一种交互式计算和开发环境
IPython基础
内省
使用命令历史
与操作系统交互
软件开发工具
IPython HTML Notebook
利用IPython提高代码开发效率的几点提示
高级IPython功能
致谢

第4章 NumPy基础:数组和矢量计算
NumPy的ndarray:一种多维数组对象
通用函数:快速的元素级数组函数
利用数组进行数据处理
用于数组的文件输入输出
线性代数
随机数生成
范例:随机漫步

第5章 pandas入门
pandas的数据结构介绍
基本功能
汇总和计算描述统计
处理缺失数据
层次化索引
其他有关pandas的话题

第6章 数据加载、存储与文件格式
读写文本格式的数据
二进制数据格式
使用HTML和Web API
使用数据库

第7章 数据规整化:清理、转换、合并、重塑
合并数据集
重塑和轴向旋转
数据转换
字符串操作
示例:USDA食品数据库

第8章 绘图和可视化
matplotlib API入门
pandas中的绘图函数
绘制地图:图形化显示海地地震危机数据
Python图形化工具生态系统

第9章 数据聚合与分组运算
GroupBy技术
数据聚合
分组级运算和转换
透视表和交叉表
示例:2012联邦选举委员会数据库

第10章 时间序列
日期和时间数据类型及工具
时间序列基础
日期的范围、频率以及移动
时区处理
时期及其算术运算
重采样及频率转换
时间序列绘图
移动窗口函数
性能和内存使用方面的注意事项

第11章 金融和经济数据应用
数据规整化方面的话题
分组变换和分析
更多示例应用

第12章 NumPy高级应用
ndarray对象的内部机理
高级数组操作
广播
ufunc高级应用
结构化和记录式数组
更多有关排序的话题
NumPy的matrix类
高级数组输入输出
性能建议
附录A Python语言精要
利用Python进行数据分析的书评

还没到时候,不过是大趋势

这本书是Pandas的模块作者写的书。 总的来说Python提供了很多方便,但是这种方便还是需要付出一定的学习成本的。使用Pandas可以把Python基本当作R用 用NumPy和SymPy还有SciPy把Python当作Matlab用。但是目前所有.........

2013-11-11 12:00

Python初学的感觉

最近这一年来,一直在纠结于各种编程语言,从硕士的matlab到R,然后是perl, shell, awk和sed。最后碰到一个做生物实验的访问学者,和我说他都用python分析数据,好吧,看来python我是得必须学了。 这本书主要讲.........

2013-12-21 14:25

值得已入门者快速翻阅的入门书

每一个数据分析师或是数据科学家都使用各自不同的技术栈。即使同样使用Python做为主力数据分析语言,每个人会用到的工具组合也不尽相同。 但不管怎么说,对于希望使用python来进行数据分析工作的人来说,学习iPy.........

2015-07-20 17:57

基于数组和矩阵的高层抽象数据结构的python实现和用法

pandas主要基于numpy.ndarray构造了更高级的Series和DataFrame数据结构。这本书主要就是说明基于这两种数据结构的API用法。这些API主要是对原本numpy操作的补充。行列Index在DataFrame的加强对于各种数据逻辑操作.........

2014-10-07 17:12

Python大数据处理经典书

这本书主要是用 pandas 连接 SciPy 和 NumPy,用pandas做数据处理是Pycon2012上一个很热门的话题。另一个功能强大的东西是Sage,它将很多开源的软件集成到统一的 Python 接口。 谢谢! ......

2013-09-05 10:45

Python大数据分析 Python for Data Analysis 读书笔记 ...

What is this book about? 本书主要讨论在Python下如何处理、管理、清除数据,一并介绍了在Python下如何进行科学计算技术。书中还介绍了Python语言和python标准库通过python提供的标准库可以有效的解决您在用.........

2013-09-03 23:25

标签
数据分析,python,Python,编程,数据挖掘,数据分析/挖掘,计算机,机器学习
产品特色