猜你喜欢

浮生六记（外三种）沈复
AI成“神”之日：人工智能的终极演变松本徹三
中文版Origin 2023科技绘图与数据分析从入门到精通（实战案例版）天工在线
工作细胞（套装2册）病毒和寄生虫终结者+细菌歼灭战，尹烨、虾米妈咪推荐的IP绘本，给孩子的彩色Q [7-10岁] 牧村久实
最优化方法张鹏著张鹏
奔跑吧，董秘：市公司董秘的成长之路唐宋_元明清
万物生辉国风颜彩浪漫手绘教程曾凡丽
增长飞轮2：跨境电商亚马逊爆款打造50讲老魏
5000天后的世界凯文·凯利
政治哲学的巅峰对垒熊逸
太阳的礼物（太阳的孩子）杨映川
危险废物环境风险评估与分类管控胡华龙
诛魔秦书吏
中国分省交通地图：广西壮族自治区（2018版）人民交通出版社股份有限公司
温暖人心的故事乖，摸摸头+皮囊（京东套装全2册）大冰
一级建造师2016教材一建教材2016 建设工程项目管理复习题集《2016一级建造师建设工程项目管理复习题集》编委会
平面设计三剑客：Photoshop+Illustrator+CorelDRAW（PS+AI+CDR）（套装共3册）唯美世界
卡洛·斯卡帕超越物质帕翠西亚·皮奇尼尼
不焦虑父母俱乐部郝景芳
航空发动机涡轮设计黄维娜
华夏万卷行楷字帖硬笔入门钢笔字帖行楷技法描写版行楷学生成人练字行楷练习套装吴玉生
瑞丽家居设计（2022年第08期）周小捷
专注，是人生最好的选择达蒙·扎哈拉迪斯
慕尼黑罗伯特·哈里斯
哑舍陆（京东专享明信片*2，印签+随书附赠手账本+海报）
常识一本/重点小学入学考试准备谷清平
公司战略与风险管理（2022注会教材）中国注册会计师协会
在黑暗中等 [日] 乙一
中华人民共和国民法典（16开精装大字本）2020年6月新版团购电话：4001066666转6 中国法制出版社
尘埃落定阿来
生物设计法则：解剖学×色彩×形态×比例 3dtotal 出版社
论语智慧启迪中华书局编辑部
打造全球竞争力：中国企业500强20年风雨岁月（2002-2021）李建明
【自营包邮限时木苏里亲绘印特签】不见上仙三百年木苏里古风仙侠新作质感赠品随书亲笔金句印特签新增1.2万字番外中信出版社木苏里
数字经济浪潮——未来的新趋势与可能性李拯
“数”说二十大报告思维导图版军采目录本书编写组
全两册变通+中国式沟通艺术正版说话沟通技巧书高情商口才训练人际交往艺术伯言
[陈情令]穿成王灵娇怎么破长腿路
元尊14·陨落之渊天蚕土豆
用户体验与系统创新设计王晨升
《以史为鉴：中华文明的演进与选择》金冲及
麻雀兰迪欧·汤·西顿
浮世绘流派史大村西崖
论语故事下村湖人
美国医疗系统——融合商业、健康与服务（原著第三版）安妮·奥斯汀
慢吞吞的水母巴士李洙贤
上校的大衣罗尔德·达尔
来龙趣卖马伯庸精选作品集（礼盒版全7册）：长安的荔枝（亲签）+太白金星有点烦+显微镜下的大明+马伯庸笑翻中国简史+风起陇西+两京十五日马伯庸
我全家都是爱豆九引
曹薰铉、李昌镐精讲围棋系列--精讲围棋手筋.2 李昌镐围棋研究室

统计分析：从小数据到大数据

书籍作者：丁亚军	ISBN：9787121377532
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：5239
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

面对小数据和大数据，数据分析师应该如何收集数据信息？传统的业务框架如何与统计学相关联？测量学扮演着什么角色？建模过程有哪些预分析技术和修正技术？建模工作完成后，如何解析？如何归因？如何预测？等等，这些数据分析能力构成了本书的分析框架。

本书分为8章，小数据与大数据分析模式的动态切换贯穿全书，展示了数据分析案例的模块化分析思路。第1～3章为数据预分析部分，强调业务问题与统计问题的衔接；第4～6章为统计建模阶段，其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议，进而构造出一套具有灵活调校的数据分析模式。第7～8章解决的问题是，如何将晦涩难懂的统计解释转换成业务解释。

由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。

作者简介

丁亚军

自由职业者，兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。

研究方向：统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。

编辑推荐

本书是一名统计分析老兵多年潜心学习，深入理解统计分析的内涵和精髓，并结合自己丰富的培训经验，以及大量的一线工程实践经验编写而成，从统计调查小数据到电商实战大数据，厘清数据分析的技术脉络、算法的进化，CDA数据分析理事赵坚毅倾情作序。

目录

目录

第1 部分　数据分析准备

第1 章　从业务到统计

1.1　业务需求从哪来 / 002

1.1.1　学习业务的最快途径：阅读运营报告 / 002

1.1.2　当务之急：研究痛点 / 004

1.1.3　数据分析之锚：未来战略方向 / 005

1.1.4　对数据分析“小白”的有益建议 / 005

1.2　从小数据到大数据：数据体量与信息分布 / 008

1.2.1　实验室：理论验证 / 009

1.2.2　问卷：理论验证+ 探索 / 011

1.2.3　数据库：业务验证+ 探索 / 012

1.2.4　数据信息与统计模型 / 013

1.2.5　算法应用：是否跨界 / 015

1.2.6　算法特征：角色 / 016

1.3　数据分析流程的启示 / 019

1.3.1　假设：验证与归因 / 021

1.3.2　小概率：黑天鹅的不确定 / 025

1.3.3　抽样技术：经济是根本 / 026

1.3.4　选择模型：方法论 / 028

1.3.5　显著性判断：可证伪 / 029

第2 章　变量角色与描述

2.1　如何描述变量 / 032

2.1.1　分类变量与连续变量的分界线 / 032

2.1.2　分类变量及可视化 / 033

2.1.3　连续变量及可视化 / 037

2.2　因变量的测量 / 040

2.2.1　测量级别问题 / 040

2.2.2　是否存在测量误差 / 045

2.2.3　谁会成为“主角” / 047

2.2.4　y 的量化场景 / 050

2.3　自变量的选择 / 053

2.3.1　验证性：x 的选择 / 054

2.3.2　探索性：x 的选择 / 054

第3 章　数据预分析

3.1　填补缺失 / 056

3.1.1　描述缺失数据：行、列、单元格 / 056

3.1.2　缺失类型：随机性 / 060

3.1.3　小数据填补方案：精确性探讨 / 061

3.1.4　大数据填补方案：速度问题探讨 / 068

3.2　处理异常值 / 069

3.2.1　单变量与双变量异常 / 069

3.2.2　无监督异常：聚类分析 / 070

3.2.3　监督异常：回归残差分析 / 073

3.2.4　小数据与大数据如何看待异常值 / 076

3.3　消除共线性 / 080

3.3.1　共线性及其危害 / 081

3.3.2　小数据的方案：岭回归 / 082

3.3.3　大数据方案：项目合并与逐步回归 / 084

3.4　内生性问题 / 088

3.4.1　内生性及其危害 / 088

3.4.2　问题核心：特征选择 / 089

3.4.3　三驾马车之一：数据库的应对策略 / 094

3.5　变量变换技术 / 102

3.5.1　正态分布变换：对数变换 / 102

3.5.2　从0 到1：老板最喜欢的符号% / 104

3.5.3　强异常值：秩的应用 / 105

3.5.4　量纲：标准化变换 / 106

3.6　编码技术 / 107

3.6.1　为什么需要分箱化 / 107

3.6.2　分箱技术要义：数据拐点 / 111

3.7　避免过拟合 / 113

3.7.1　导致过拟合：行列问题 / 113

3.7.2　小数据为什么不谈过拟合 / 114

3.7.3　避免过拟合：方法学 / 115

第２部分　构建模型与修正技术

第4 章　线性回归与统计家族

4.1　差异性问题：方差分析 / 121

4.1.1　差异的来源：主效应 / 121

4.1.2　差异的来源：交互效应 / 128

4.1.3　交互性解释：交互效应图制作 / 129

4.2　结构性问题：回归分析 / 131

4.2.1　回归分析流程 / 131

4.2.2　相关的风向标作用：文氏图 / 135

4.2.3　偏相关的归因：中介和调节 / 137

4.2.4　回归系数解释：偏回归图 / 142

4.2.5　如何相信R2 / 149

4.2.6　以残差看假设 / 152

4.2.7　残差信息的有和无 / 158

4.2.8　小数据需求归纳：重结构轻预测 / 158

4.3　算法进化REG：小数据专家的努力 / 159

4.3.1　算法1.0：精确度+ 结构 / 160

4.3.2　算法2.0：精确度+ 结构与预测 / 163

4.3.3　算法3.0：速度+ 预测 / 164

4.3.4　算法4.0：加速度 / 167

第5 章　Logistic 回归与统计家族

5.1　预测性问题：Logistic 回归 / 168

5.1.1　卡方的风向标作用 / 169

5.1.2　不一样的R2：预测分类表 / 170

5.1.3　回归系数解释：or 值与rr 值 / 171

5.1.4　修正技术：是x 而不是y / 174

5.1.5　大数据需求归纳：轻结构重预测 / 177

5.2　算法进化Logistic：大数据与智能 / 178

5.2.1　算法1.0：稳定性+ 结构 / 178

5.2.2　算法2.0：稳定性+ 结构与预测 / 179

5.2.3　算法3.0：速度+ 预测 / 179

5.2.4　算法4.0：加速度 / 179

5.3　算法3.0 的榜样：神经网络 / 180

5.3.1　神经网络算法 / 180

5.3.2　DM 算法预分析 / 183

5.3.3　基于神经网络的常规应用 / 185

第6 章　降维技术

6.1　主成分回归与压缩技术 / 192

6.1.1　四驾马车：实验室、问卷、数据库、云 / 192

6.1.2　主成分算法：降维 / 192

6.1.3　主成分与因子：谁应该有名字？ / 194

6.1.4　主成分回归：“回归+ 回归”模式 / 196

6.2　对应分析：一个市场调查案例 / 197

6.2.1　案例背景介绍 / 197

6.2.2　模型预分析 / 199

6.2.3　构建模型：“广义”双标图 / 203

6.2.4　结论及营销 / 214

第３部分　模型应用与评估

第7 章　回归类模型应用

7.1　结构性问题：偏回归系数 / 216

7.1.1　单结构：偏的意义 / 216

7.1.2　整体结构：条件规则 / 217

7.2　预测性问题：估计值 / 217

7.2.1　老样本预测：内衍与市场细分 / 218

7.2.2　新样本预测：外推与潜在行为 / 219

7.3　模型优劣与模型评价 / 219

7.3.1　R2 变形记 / 219

7.3.2　图示R2：R2 图与ROC 曲线 / 221

7.4　模型优劣与业务评价 / 221

7.4.1　小数据的标准：R2 / 221

7.4.2　大数据的标准：老板 / 222

第8 章　数据分析报告

8.1　可视化图形制作 / 223

8.1.1　条形图与折线图 / 223

8.1.2　频数与分布 / 223

8.1.3　多变箱体图 / 224

8.1.4　散点图与气泡图 / 225

8.2　图形制作与格式 / 227

8.2.1　图形制作：绘图、颜色 / 227

8.2.2　图形模板制作与调用 / 229

8.3　表格制作与格式 / 230

8.3.1　表格制作：制表、格式 / 230

8.3.2　表格模板制作与调用 / 232

8.3.3　OMS 控制面板 / 234

附录A　数据集__

产品特色