Python数据科学
书籍作者:常国珍 |
ISBN:9787111603092 |
书籍语言:简体中文 |
连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 |
下载次数:9997 |
创建日期:2021-02-14 |
发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
内容简介
本书共19章,第1章介绍数据科学中涉及的基本领域;第2~3章介绍与数据工作紧密相关的Python语言基础;第4章讲解描述性统计分析在宏观业务领域的分析;第5章讲解数据规整、清洗的重要技能;第6章介绍数据科学领域实用的四大统计检验;第7章讲解当被解释变量为连续变量时,如何使用线性回归作预测;第8章讲解使用逻辑回归作评分卡模型;第9章讲解另外一个可解释模型——决策树。第10~12章分别讲解了BP神经网络、朴素贝叶斯、近邻域、支持向量机的原理和在决策类模型中的运用;第13~14章作为一个整体讲解商业分析场景下的信息压缩;第15章以产品推荐作为案例,讲解发现事件与事件伴生关系的关联分析和序列分析算法;第16章使用欺诈识别案例讲解当被解释变量分布极 端不平衡时的处理方法;第17章继续使用欺诈识别案例讲解集成学习算法;第18章讲解了使用效应分解和ARIMA方法实现宏观业务指标预测;第19章用案例展现了分类和聚类模型的CRISP-DM和SEMMA流程。
作者简介
作者简介
常国珍
数据科学专家和金融技术专家。北京大学会计学博士,中国大数据产业生态联盟专家委员会委员。
2005年进入数据科学领域,先后在亚信、德勤等企业从事电信、金融行业数据挖掘工作,现就职于中银消费金融有限公司数据管理部。专注于消费金融领域的数据治理、客户智能与风险智能。
赵仁乾
数据科学家,在电信大数据和机器学习领域有丰富的实践经验。
现就职于北京电信规划设计院任高级经济师,负责通信、ICT项目工程与业务咨询,专注电信市场数据分析,重点研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析、大数据及人工智能运营规划等。
张秋剑
大数据专家和金融行业技术专家,上海师范大学计算机科学技术硕士。
现任星环科技金融事业部总监,大数据技术架构行业顾问专家,云析学院发起人,AICUG社区联合发起人,曾在IEEE等期刊发表多篇论文。目前主要为银行、证券和保险等行业客户提供大数据平台及人工智能平台的整体规划和项目建设等工作。
编辑推荐
适读人群 :1.大数据营销分析人员营销是大数据落地项目多的领域,也是数据科学家活跃的重镇。数商将是衡量营销分析人员重要的指标。可以说将来每一位营销分析人员,必须是数据科
(1)作者在IT行业有超过20年的研发经验,在金融和数据科学领域有超过12年的实践经验,是金融界的数据科学家,在R/Python/SAS等技术领域有深厚的积累。
(2)本书从3个维度展开,技术维度:全面讲解数据分析、数据挖掘和机器学习的核心技术;业务维度,围绕具体的业务生命周期展开技术知识点的讲解;实践维度,列举的全部是商业案例,通过案例为数据科学从业者提供工作模板。
前言
前言本书是一本集数据分析、数据挖掘、机器学习为一体,面向商业实战的养成式学习手册。为有志从事数据科学工作的读者提供系统化的学习路径,使读者掌握数据科学的理念、思路与分析步骤。
本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,而且都辅以图形进行形象地展现。本书将不同算法看作功能各异的工具,比如用于煮饭的闷锅、用于炒菜的炒锅,每种工具的操作方式都应该遵循相应的说明书,因此对于每种算法我们强调其假设、适用条件与商业数据分析主题的匹配。我们在实践教学中发现,业务经验丰富和有较好商业模式理解能力的学员,在掌握数据科学的技能方面具有明显的优势。这主要是因为这类学员有较强的思辨能力和分析能力,学习的目的性和质量意识较强,不只是简单地模仿和套用数学公式,所以本书也注重对读者思辩能力和分析能力的培养。
本书相当于Python的数据科学工具箱,专门提供了不同数据运用主题的操作框架。不同于一般泛泛而讲的运用案例,落地性强,便于读者实际运用。
本书不是一本教科书或案例集,而是一本提供数据挖掘路线图与解决方案的实战手册。2014年我们编写了一套使用SAS进行商业数据分析的书,得到了读者的认可。2016年我们同时启动了R和Python数据科学方面的写作工作。我们在Python上投入了数倍于R的精力,但是R的书如期问世,而本书却推迟了近一年,原因是Python目前还无法满足精细数据分析的要求。
在数据分析领域,如果说SAS是冲锋枪,那R就是手枪,Python就是匕首。打过CS的同学都知道,使用冲锋枪不需要枪法有多好,只要资金充足,新手都能得心应手。而使用手枪的必定是枪法很准的老手。出门使用匕首杀敌的,必定是神级选手。但是切记,不是使用匕首就是神级,只有使用匕首杀敌并活下来的才是。Python虽然语法优美,开发效率和执行效率均高,但是它是开发工程师的语言,不是面向分析师的,因此分析师要想需要造很多轮子。Python虽然目前方兴未艾,但是在数据科学领域的路还很漫长,投资于未来是艰苦而收益颇丰的。作为用好Python,一部由工作在一线的“文科”背景作者编写的数据科学图书,本书力图降低Python的学习难度,尝试提供不同分析主题的数据科学工作模板,满足亿万“文科生”的数字化转型需求。
读者对象(1)大数据营销分析人员营销是大数据落地项目最多的领域,也是数据科学活跃的重镇,数据分析能力将是衡量营销分析人员最重要的指标。可以说未来的每一位营销分析人员,都必须是数据科学工作者。
(2)顾客关系管理人员和数据产品经理随着工业40时代的到来,标准化制造将逐步被定制化制造取代。因此对客户价值、客户满意度与客户忠诚度的分析将会愈加重要,这些都需要使用到本书中介绍的数据科学工具。
(3)风险管控人员本书可以作为风险预测模型的工具箱使用。
(4)IT转型人员在我们开设的数据科学课程中,将近1/3的学员从事IT工作,学员们表示本书内容对其转型提供了很大的帮助。
(5)大中院校学生本书的内容面向实战,适合作为本硕阶段的参考书。
如何阅读本书本书有三种阅读方式。
第一种方式:阅读完第1章之后,直接阅读第19章,以案例为导向,遇到不懂的知识点再翻阅之前的内容。这个方式适合在岗的初级数据工作者。
第二种方式:按照客户生命不同周期的数据分析主题,分别从本书中找到获客营销、信用评级、客户画像、精准营销、客户分群、交叉销售、流失预警等内容并逐一学习。这个方式适合市场营销方向的工作者和学生使用。
第三种方式:按照章节逐一阅读,按照知识点由易到难递进式学习。这个方式学习周期长,适合有教师带领学习时使用。
勘误和支持除封面署名的作者外,参加本书编审和校对工作的还有:吴璐、曾珂、钱小菲。由于作者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。另外有一些工作的点滴所获,也希望与读者第一时间分享,我们会不定时发布在作者的知乎页面https://wwwzhihucom/people/CoolFarmer/。 。书中的全部源文件除可以从华章网站参见华章网站wwwhzbookcom——编辑注。 下载外,还可以从知乎主页下载,我们也会将相应的功能更新及时发布出来。如果你有更多的宝贵意见,也欢迎发送邮件至guozhenchang@qqcom,期待能够得到你们的真挚反馈。
致谢常国珍在此感谢硕、博期间的两位恩师——北大社会学系周云教授和北大光华管理学院姜国华教授,前者引领我进入社会科学的大门,后者指导我以价值投资的理念对待工作和生活,解决安身立命之本。同时感谢我家人的关心和理解,尤其感谢我的妻子杨巧巧女士,正是她的付出,才能让我安心写作。
赵仁乾在此感谢北京电信规划设计院的领导与同事,他们给予了我项目机会和经验传承,让我能够更快成长。感谢我的父母、妻子和孩子,正是在他们的关心和理解下,我才能专心于本书的写作。
张秋剑在此感谢星环的孙元浩、张月鹏先生给予我的机遇;感谢沃趣的陈栋、李建辉先生给予我的信任;感谢优网的马建功、孟慧智先生给予我的栽培;感谢上海师范大学的王笑梅、李建国老师给予我的教诲。感谢我的家人给予我的坚定支持,以及所有不能一一道谢的朋友们。
感谢机械工业出版社华章公司的编辑杨福川、张锡鹏为本书的出版付出的艰辛劳作。感谢上海市房屋土地资源信息中心的吴璐、第一车贷的曾珂为本书的修改提供的宝贵建议。
谨以此书献给和我们一样在摸索中继续前行的朋友们!
常国珍 赵仁乾 张秋剑
目录
目录
前言
第1章数据科学家的武器库
1.1数据科学的基本概念
1.2数理统计技术
1.2.1描述性统计分析
1.2.2统计推断与统计建模
1.3数据挖掘的技术与方法
1.4描述性数据挖掘算法示例
1.4.1聚类分析——客户细分
1.4.2关联规则分析
1.5预测性数据挖掘算法示例
1.5.1决策树
1.5.2KNN算法
1.5.3Logistic回归
1.5.4神经网络
1.5.5支持向量机
1.5.6集成学习
1.5.7预测类模型讲解
1.5.8预测类模型评估概述
第2章Python概述
2.1Python概述
2.1.1Python简介
2.1.2Python与数据科学
2.1.3Python2与Python3
2.2Anaconda Python的安装、使用
2.2.1下载与安装
2.2.2使用Jupyter Notebook
2.2.3使用Spyder
2.2.4使用conda或pip管理
第三方库
第3章数据科学的Python编程基础
3.1Python的基本数据类型
3.1.1字符串(str)
3.1.2浮点数和整数(float、int)
3.1.3布尔值(Bool:True/False)
3.1.4其他
3.2Python的基本数据结构
3.2.1列表(list)
3.2.2元组(tuple)
3.2.3集合(set)
3.2.4字典(dict)
3.3Python的程序控制
3.3.1三种基本的编程结构简介
3.3.2顺承结构
3.3.3分支结构
3.3.4循环结构
3.4Python的函数与模块
3.4.1Python的函数
3.4.2Python的模块
3.5Pandas读取结构化数据
3.5.1读取数据
3.5.2写出数据
第4章描述性统计分析与绘图
4.1描述性统计进行数据探索
4.1.1变量度量类型与分布类型
4.1.2分类变量的统计量
4.1.3连续变量的分布与集中趋势
4.1.4连续变量的离散程度
4.1.5数据分布的对称与高矮
4.2制作报表与统计制图
4.3制图的步骤
第5章数据整合和数据清洗
5.1数据整合
5.1.1行列操作
5.1.2条件查询
5.1.3横向连接
5.1.4纵向合并
5.1.5排序
5.1.6分组汇总
5.1.7拆分、堆叠列
5.1.8赋值与条件赋值
5.2数据清洗
5.2.1重复值处理
5.2.2缺失值处理
5.2.3噪声值处理
5.3RFM方法在客户行为分析上的运用
5.3.1行为特征提取的RFM方法论
5.3.2使用RFM方法计算变量
5.3.3数据整理与汇报
第6章数据科学的统计推断基础
6.1基本的统计学概念
6.1.1总体与样本
6.1.2统计量
6.1.3点估计、区间估计和中心极限定理
6.2假设检验与单样本t检验
6.2.1假设检验
6.2.2单样本t检验
6.3双样本t检验
6.4方差分析(分类变量和连续变量关系检验)
6.4.1单因素方差分析
6.4.2多因素方差分析
6.5相关分析(两连续变量关系检验)
6.5.1相关系数
6.5.2散点矩阵图
6.6卡方检验(二分类变量关系检验)
6.6.1列联表
6.6.2卡方检验
第7章客户价值预测:线性回归模型与诊断
7.1线性回归
7.1.1简单线性回归
7.1.2多元线性回归
7.1.3多元线性回归的变量筛选
7.2线性回归诊断
7.2.1残差分析
7.2.2强影响点分析
7.2.3多重共线性分析
7.2.4小结线性回归诊断
7.3正则化方法
7.3.1岭回归
7.3.2LASSO回归
第8章Logistic回归构建初始信用评级
8.1Logistic回归的相关关系分析
8.2Logistic回归模型及实现
8.2.1Logistic回归与发生比
8.2.2Logistic回归的基本原理
8.2.3在Python中实现Logistic回归
8.3Logistic回归的极大似然估计
8.3.1极大似然估计的概念
8.3.2Logistics回归的极大似然估计
8.4模型评估
8.4.1模型评估方法
8.4.2ROC曲线的概念
8.4.3在Python中实现ROC曲线
第9章使用决策树进行初始信用评级
9.1决策树概述
9.2决策树算法
9.2.1ID3建树算法原理
9.2.2C4.5建树算法原理
9.2.3CART建树算法原理
9.2.4决策树的剪枝
9.3在Python中实现决策树
9.3.1建模
9.3.2模型评估
9.3.3决策树的可视化
9.3.4参数搜索调优
第10章神经网络
10.1神经元模型
10.2单层感知器
10.3BP神经网络
10.4多层感知器的scikitlearn代码实现
第11章分类器入门:最近邻域与朴素贝叶斯
11.1KNN算法
11.1.1KNN算法原理
11.1.2在Python中实现KNN算法
11.2朴素贝叶斯分类
11.2.1贝叶斯公式
11.2.2朴素贝叶斯分类原理
11.2.3朴素贝叶斯的参数估计
11.2.4在Python中实现朴素贝叶斯
第12章高级分类器:支持向量机
12.1线性可分与线性不可分
12.2线性可分支持向量机
12.2.1函数间隔和几何间隔
12.2.2学习策略
12.2.3对偶方法求解
12.2.4线性可分支持向量机例题
12.3线性支持向量机与软间隔最大化
12.4非线性支持向量机与核函数
12.4.1核函数
12.4.2非线性支持向量机的学习
12.4.3示例与Python实现
12.5使用支持向量机的案例
第13章连续变量的特征选择与转换
13.1方法概述
13.2主成分分析
13.2.1主成分分析简介
13.2.2主成分分析原理
13.2.3主成分分析的运用
13.2.4在Python中实现主成分分析
13.3基于主成分的冗余变量筛选
13.4因子分析
13.4.1因子分析模型
13.4.2因子分析算法
13.4.3在Python中实现因子分析
第14章客户分群与聚类
14.1聚类算法概述
14.2聚类算法基本概念
14.2.1变量标准化与分布形态转换
14.2.2变量的维度分析
14.3聚类模型的评估
14.4层次聚类
14.4.1层次聚类原理
14.4.2层次聚类在Python中的实现
14.5基于划分的聚类
14.5.1kmeans聚类原理
14.5.2kmeans聚类
短评
实战性非常强,真正做到了从入门到精通, 配合视频教程来学,非常好。五星推荐!!
2018-07-24
听了老师的课程,讲的非常清晰,书跟课程配套。
2018-07-24
本书从数据挖掘、数据分析、机器学习等维度讲解了如何用Python进行数据科学实践。
2018-07-27
内容很全面,讲得也非常详细。在国内还是第一次发现这么用心的书,推荐阅读。
2018-07-24
课程和书同步的,上课免费拿了一本~课程讲的很详细,书就略过了一些琐碎的知识点了。非常全面,感觉是今年在数据方面特别好的内容了。非常推荐
2018-07-24
标签
Python,机器学习,数据科学,好书,Python,实用,数据分析,佳作,权威,数据科学