猜你喜欢

讲给大家的中国历史（套装共7册）中信出版社杨照
我生有涯愿无尽梁漱溟
玩偶普鲁斯
男主他突然有了智商[快穿] 西子咔
TOP5％领导者的高效管理秘诀越川慎司
回话有招+高情商聊天术（全2册）中国式沟通智慧说话技巧书籍口才训练提高语言技术和沟通人际交往跃山研究中心
日本权力结构之谜卡瑞尔·范·沃尔夫伦
硬核科技：驱动未来的25项前沿技术伯纳德·马尔
镜花荟萃：梅林珍藏的中国玻璃画罗诺德
画漫画很简单吉尔贝·布沙尔
一本小学语文阅读训练100篇五年级 2023年同步训练阶梯阅读三段式答案全解全析第10次修订一本语文阅读题研究院
望北楼丁甲
家居色彩设计：170个室内配色创意与应用方案（看懂色彩的奥秘，搭配美丽家居世界）姜晓龙
音响师自学指南和青广
聊斋画境蒲松龄
A History of Wiltshire EVAN-MOOR
沈从文讲文物沈从文
海贼之我是艾斯的妹妹敬你一杯
和爸妈一起学创新+和爸妈一起学创业（套装共2册）涂子沛
人人都能梦的解析高铭
鏅哄閫氳瘝鍏稿涔犵瑪娴烽噺涓嫳鏂囪瘝姹囧簱鏍囧噯鑻辩編鐪熶汉鍙戦煶灏忓鑷抽珮涓叏绉戦煶棰戞暀瀛﹀涔犳儏鍐佃繙绋嬫帉鎻¤瘝鍏告壂璇荤炕璇 [骞宠] 鎵绗
庆余年之情深似云(言冰云) 且月qy
游戏机图鉴埃文·阿莫斯
2023最新民事诉讼法及司法解释汇编【第六版】法律出版社法规中心
我是蜘蛛又怎样？. 7-8 马场翁原作
态度与动机：工作中的人际沟通分析（TA）（原书第2版） [英] 朱莉·海（Julie Hay）著，张思雪田宝译
中国分省交通地图：海南省（2018）人民交通出版社股份有限公司
S-100：通用海洋测绘数据模型（4.0.0版）国际海道测量组织
精通Python爬虫框架Scrapy 迪米特里奥斯考奇斯-劳卡斯
提升产业基础能力和产业链现代化水平研究（国务院发展研究中心丛书2021）国务院发展研究中心产业经济研究部课题组
顺丰传孟凡华
机器学习实战：基于Scikit-Learn、Keras和TensorFlow（原书第2版） [法] 奥雷利安·杰龙
越专注，越安宁：瑜伽与冥想牟木
元宇宙底层逻辑吴刚
追风筝的人+摆渡人（套装共2册）卡勒德·胡赛尼
后悔录（茅盾文学奖得主东西代表）东西
旋涡 [日] 伊藤润二
重新定义健康产业罗军
智能问答段楠
迷神记施定柔
硅谷超级家长课：教出硅谷三女杰的TRICK教养法埃丝特·沃西基
不一样的元气早餐太阳猫工作室
永磁电机设计与应用（原书第3版）杰克·F.吉拉斯（Jacek
炮灰度化记（快穿）鲸落
罗大里的戏剧乐园贾尼·罗大里
洞见写作洞见君
意林原创版合订本十年臻选总第10卷（第55期-第60期）蔡燕
AI视觉艺术 Midjourney创作从入门到应用靳中维
平面广告创意设计闵小耘
【全新故事】动物妙想国套装全10册（儿童动物科普绘本3-6岁趣味动物故事想象力睡前故事图书籍） [3-6岁] 海豚科学馆

统计分析：从小数据到大数据

书籍作者：丁亚军	ISBN：9787121377532
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：5239
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

面对小数据和大数据，数据分析师应该如何收集数据信息？传统的业务框架如何与统计学相关联？测量学扮演着什么角色？建模过程有哪些预分析技术和修正技术？建模工作完成后，如何解析？如何归因？如何预测？等等，这些数据分析能力构成了本书的分析框架。

本书分为8章，小数据与大数据分析模式的动态切换贯穿全书，展示了数据分析案例的模块化分析思路。第1～3章为数据预分析部分，强调业务问题与统计问题的衔接；第4～6章为统计建模阶段，其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议，进而构造出一套具有灵活调校的数据分析模式。第7～8章解决的问题是，如何将晦涩难懂的统计解释转换成业务解释。

由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。

作者简介

丁亚军

自由职业者，兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。

研究方向：统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。

编辑推荐

本书是一名统计分析老兵多年潜心学习，深入理解统计分析的内涵和精髓，并结合自己丰富的培训经验，以及大量的一线工程实践经验编写而成，从统计调查小数据到电商实战大数据，厘清数据分析的技术脉络、算法的进化，CDA数据分析理事赵坚毅倾情作序。

目录

目录

第1 部分　数据分析准备

第1 章　从业务到统计

1.1　业务需求从哪来 / 002

1.1.1　学习业务的最快途径：阅读运营报告 / 002

1.1.2　当务之急：研究痛点 / 004

1.1.3　数据分析之锚：未来战略方向 / 005

1.1.4　对数据分析“小白”的有益建议 / 005

1.2　从小数据到大数据：数据体量与信息分布 / 008

1.2.1　实验室：理论验证 / 009

1.2.2　问卷：理论验证+ 探索 / 011

1.2.3　数据库：业务验证+ 探索 / 012

1.2.4　数据信息与统计模型 / 013

1.2.5　算法应用：是否跨界 / 015

1.2.6　算法特征：角色 / 016

1.3　数据分析流程的启示 / 019

1.3.1　假设：验证与归因 / 021

1.3.2　小概率：黑天鹅的不确定 / 025

1.3.3　抽样技术：经济是根本 / 026

1.3.4　选择模型：方法论 / 028

1.3.5　显著性判断：可证伪 / 029

第2 章　变量角色与描述

2.1　如何描述变量 / 032

2.1.1　分类变量与连续变量的分界线 / 032

2.1.2　分类变量及可视化 / 033

2.1.3　连续变量及可视化 / 037

2.2　因变量的测量 / 040

2.2.1　测量级别问题 / 040

2.2.2　是否存在测量误差 / 045

2.2.3　谁会成为“主角” / 047

2.2.4　y 的量化场景 / 050

2.3　自变量的选择 / 053

2.3.1　验证性：x 的选择 / 054

2.3.2　探索性：x 的选择 / 054

第3 章　数据预分析

3.1　填补缺失 / 056

3.1.1　描述缺失数据：行、列、单元格 / 056

3.1.2　缺失类型：随机性 / 060

3.1.3　小数据填补方案：精确性探讨 / 061

3.1.4　大数据填补方案：速度问题探讨 / 068

3.2　处理异常值 / 069

3.2.1　单变量与双变量异常 / 069

3.2.2　无监督异常：聚类分析 / 070

3.2.3　监督异常：回归残差分析 / 073

3.2.4　小数据与大数据如何看待异常值 / 076

3.3　消除共线性 / 080

3.3.1　共线性及其危害 / 081

3.3.2　小数据的方案：岭回归 / 082

3.3.3　大数据方案：项目合并与逐步回归 / 084

3.4　内生性问题 / 088

3.4.1　内生性及其危害 / 088

3.4.2　问题核心：特征选择 / 089

3.4.3　三驾马车之一：数据库的应对策略 / 094

3.5　变量变换技术 / 102

3.5.1　正态分布变换：对数变换 / 102

3.5.2　从0 到1：老板最喜欢的符号% / 104

3.5.3　强异常值：秩的应用 / 105

3.5.4　量纲：标准化变换 / 106

3.6　编码技术 / 107

3.6.1　为什么需要分箱化 / 107

3.6.2　分箱技术要义：数据拐点 / 111

3.7　避免过拟合 / 113

3.7.1　导致过拟合：行列问题 / 113

3.7.2　小数据为什么不谈过拟合 / 114

3.7.3　避免过拟合：方法学 / 115

第２部分　构建模型与修正技术

第4 章　线性回归与统计家族

4.1　差异性问题：方差分析 / 121

4.1.1　差异的来源：主效应 / 121

4.1.2　差异的来源：交互效应 / 128

4.1.3　交互性解释：交互效应图制作 / 129

4.2　结构性问题：回归分析 / 131

4.2.1　回归分析流程 / 131

4.2.2　相关的风向标作用：文氏图 / 135

4.2.3　偏相关的归因：中介和调节 / 137

4.2.4　回归系数解释：偏回归图 / 142

4.2.5　如何相信R2 / 149

4.2.6　以残差看假设 / 152

4.2.7　残差信息的有和无 / 158

4.2.8　小数据需求归纳：重结构轻预测 / 158

4.3　算法进化REG：小数据专家的努力 / 159

4.3.1　算法1.0：精确度+ 结构 / 160

4.3.2　算法2.0：精确度+ 结构与预测 / 163

4.3.3　算法3.0：速度+ 预测 / 164

4.3.4　算法4.0：加速度 / 167

第5 章　Logistic 回归与统计家族

5.1　预测性问题：Logistic 回归 / 168

5.1.1　卡方的风向标作用 / 169

5.1.2　不一样的R2：预测分类表 / 170

5.1.3　回归系数解释：or 值与rr 值 / 171

5.1.4　修正技术：是x 而不是y / 174

5.1.5　大数据需求归纳：轻结构重预测 / 177

5.2　算法进化Logistic：大数据与智能 / 178

5.2.1　算法1.0：稳定性+ 结构 / 178

5.2.2　算法2.0：稳定性+ 结构与预测 / 179

5.2.3　算法3.0：速度+ 预测 / 179

5.2.4　算法4.0：加速度 / 179

5.3　算法3.0 的榜样：神经网络 / 180

5.3.1　神经网络算法 / 180

5.3.2　DM 算法预分析 / 183

5.3.3　基于神经网络的常规应用 / 185

第6 章　降维技术

6.1　主成分回归与压缩技术 / 192

6.1.1　四驾马车：实验室、问卷、数据库、云 / 192

6.1.2　主成分算法：降维 / 192

6.1.3　主成分与因子：谁应该有名字？ / 194

6.1.4　主成分回归：“回归+ 回归”模式 / 196

6.2　对应分析：一个市场调查案例 / 197

6.2.1　案例背景介绍 / 197

6.2.2　模型预分析 / 199

6.2.3　构建模型：“广义”双标图 / 203

6.2.4　结论及营销 / 214

第３部分　模型应用与评估

第7 章　回归类模型应用

7.1　结构性问题：偏回归系数 / 216

7.1.1　单结构：偏的意义 / 216

7.1.2　整体结构：条件规则 / 217

7.2　预测性问题：估计值 / 217

7.2.1　老样本预测：内衍与市场细分 / 218

7.2.2　新样本预测：外推与潜在行为 / 219

7.3　模型优劣与模型评价 / 219

7.3.1　R2 变形记 / 219

7.3.2　图示R2：R2 图与ROC 曲线 / 221

7.4　模型优劣与业务评价 / 221

7.4.1　小数据的标准：R2 / 221

7.4.2　大数据的标准：老板 / 222

第8 章　数据分析报告

8.1　可视化图形制作 / 223

8.1.1　条形图与折线图 / 223

8.1.2　频数与分布 / 223

8.1.3　多变箱体图 / 224

8.1.4　散点图与气泡图 / 225

8.2　图形制作与格式 / 227

8.2.1　图形制作：绘图、颜色 / 227

8.2.2　图形模板制作与调用 / 229

8.3　表格制作与格式 / 230

8.3.1　表格制作：制表、格式 / 230

8.3.2　表格模板制作与调用 / 232

8.3.3　OMS 控制面板 / 234

附录A　数据集__

产品特色