书籍作者:潘蕊 | ISBN:9787301333860 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:8024 |
创建日期:2023-05-18 | 发布日期:2023-05-18 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
当今社会,网络结构数据普遍存在于各行各业。如何从这些数据中挖掘出价值,并且解决实际问题,成为学界和业界共同关注的研究方向。本书主要帮助读者初步了解网络结构数据,学习使用R语言进行实际数据分析。
本书共七章。第一章主要讲解为什么关心网络结构数据,介绍了R语言及常用的包,同时整理了常用的网络数据集。第二章介绍了网络结构数据的定义及分类,并整理了大量实例以帮助读者快速熟悉网络结构数据。第三章讲解了网络结构数据的可视化,重点介绍了针对大规模网络的可视化方法及网络的动态交互式可视化。第四章介绍了描述网络特征的各种统计量及重要的网络结构,并给出了实例。第五章重点介绍了三种经典的网络结构数据模型, 第六章主要介绍了网络结构数据中社区发现的相关概念及方法,并整理了常见的评价指标及标准数据集,通过实例向读者展示社区发现的应用场景。第七章介绍了网络结构数据分析中的链路预测问题。
本书适合网络结构数据的初学者,相关专业的学生或对网络结构数据感兴趣的读者阅读。
潘蕊,中央财经大学统计与数学学院副教授,中央财经大学龙马学者青年学者。北京大学光华管理学院经济学博士。主要研究领域为高维数据分析、网络结构数据分析、数据挖掘与建模等。在Annals of Statistics、Journal of the American Statistical Association、《中国科学:数学》等国内外期刊发表论文多篇。著有《数据思维实践》。
张妍,女,厦门大学在读博士研究生,研究方向为网络结构数据。
高天辰,男,厦门大学在读博士研究生,研究方向为复杂网络分析。
2009 年,我首次接触网络结构数据。当时我的博士生导师,北京大学光华管理学院的王汉生教授开设了一个讨论班,带着我们学习这种全新类型的数据。我记得当时我们读的是Social Network Analysis: Method and Applications这本英文教材,两位作者 Wasserman 和 Faust 是网络结构数据分析领域的杰出学者。这本教材内容充实,不但有网络结构数据的基础知识,还配合了丰富的学科应用,使我受益匪浅。后来,我的科研就一直围绕着网络结构数据展开,到现在也有 10 余年的时间。至今我还清晰地记得,当时读的第一篇论文是 Holland和Leinhardt 提出p1模型的文章:An Exponential Family of Probability Distributions for Directed Graphs。这篇文章的内容我们在本书中也有介绍。
2014 年我进入中央财经大学工作,在教学过程中经常将网络结构数据作为一个专题与学生分享。我发现学生对网络结构数据非常感兴趣,自己也能够找到很多实际数据并且做出有趣的分析。后来,有很多学生甚至开始自己采集和整理高质量的网络结构数据,本书中的案例数据“统计学科合作者网络”,最初来自我的一位已经毕业的硕士生王思雨。然而,在授课过程中我没有找到非常合适的中文教材,一直依赖自己不断迭代的课程笔记。因此,我便萌生了自己写一本教材的想法。这个想法首先得到了我的博士生导师王汉生教授的肯定与鼓励。紧接着,我找到了两位合作者,高天辰和张妍。高天辰和张妍是我的硕士生,毕业之后在厦门大学攻读博士学位。他们在网络结构数据的科研和实际应用方面都有所沉淀,也为本书的成稿做出了很多贡献。
本书所面向的对象是网络结构数据的初学者,如果你没有接触过网络结构数据,或者刚刚开始投入这个领域的研究,那么这本书会对你有所帮助。本书由浅入深地安排了七个章节的内容。
第一章和第二章是入门,通过对这两章内容的学习能够快速理解网络结构数据及一些实际例子。第三章是网络结构数据的可视化,这一章内容的趣味性较高,也是入门网络结构数据的很好的切入点。第四章介绍了网络结构数据的描述,提供了丰富的指标讲解和例子。第五章~第七章是三个不同的专题:网络结构数据的经典模型、网络结构数据的社区发现,以及网络结构数据的链路预测问题。这些专题同样是科学研究的重要话题,因此本书提供了很多参考文献。
本书同样强调实际操作。以 R 语言为例,给出了分析代码及实际数据,以便读者学完理论知识之后可以上手分析实际数据。
最后,感谢我的导师王汉生教授,他不仅带领我进入网络结构数据的研究领域,还在本书的成稿过程中一直鼓励我。感谢我的两位合作者高天辰和张妍,他们承担了很多辛苦的工作,包括收集材料、撰写文字、整理代码等。感谢中央财经大学的宋熙卓然同学,她协助编写了书稿的第六章和第七章。感谢狗熊会团队的战友们:中国人民大学的周静老师、王菲菲老师,复旦大学的朱雪宁老师,她们为书稿提出了很多宝贵的修改意见。同样也感谢和我一起奋战的科研合作者:西安交通大学的常象宇老师,中国人民大学的黄丹阳老师。这个强大的团队一直在帮助我,激励我不断前进。
第 1 章 概 述 1
1.1 为什么关心网络结构数据 2
1.2 R 语言与 igraph 包 3
1.3 本书所使用的案例数据 5
第 2 章 认识网络结构数据 9
2.1 网络结构数据的定义 10
2.2 网络结构数据的分类 10
2.2.1 0-1 网络 11
2.2.2 加权网络 12
2.2.3 符号网络 14
2.2.4 双模网络 15
2.2.5 动态网络 15
2.2.6 其他类型网络 16
2.3 更多例子 18
2.3.1 社交网络 18
2.3.2 贸易网络 19
2.3.3 疾病传播网络 20
2.4 邻接矩阵 20
2.5 网络结构图 22
2.6 igraph 包相关代码示例 24
2.7 本章小结 30
第 3 章 网络结构数据的可视化 32
3.1 布局方式 33
3.2 装饰网络结构图 38
3.2.1 vertex.xxx 和 edge.xxx 基础参数设置 39
3.2.2 vertex.xxx 和 edge.xxx 进阶参数设置 41
3.2.3 用 V(G) 和 E(G) 设置节点和连边的属性 42
3.3 大规模网络的可视化 44
3.3.1 提取核心子图,将复杂网络简单化 44
3.3.2 提取节点邻域,绘制网络子图 48
3.3.3 划分网络社区,展示网络社区结构 50
3.3.4 简化网络结构,以节点簇(社区)代替节点 51
3.4 动态交互式网络的可视化 53
3.5 其他的可视化软件 56
3.6 本章小结 56
第 4 章 网络的描述统计 60
4.1 网络密度 61
4.2 节点的度 63
4.2.1 无向网络的度 63
4.2.2 有向网络的入度和出度 65
4.3 二元结构 67
4.4 三元结构 70
4.5 路径、距离、网络的直径 72
4.5.1 路径 72
4.5.2 距离与网络的直径 74
4.6 节点的中心性 76
4.6.1 度中心性 77
4.6.2 接近中心性 77
4.6.3 中介中心性 78
4.7 星状结构与邻居 80
4.8 案例:统计学科合作者网络分析 82
4.9 本章小结 87
第 5 章 网络结构数据的经典模型 88
5.1 ER 随机图模型 89
5.2 指数型随机图模型 92
5.2.1 p1 模型 92
5.2.2 马尔可夫随机图模型 94
5.2.3 新的扩展 94
5.2.4 律师合作网络示例 96
5.3 随机分块模型 100
5.3.1 简单随机分块模型 100
5.3.2 度修正的随机分块模型 104
5.3.3 其他扩展 105
5.4 潜在空间模型 106
5.4.1 距离模型 106
5.4.2 投影模型 107
5.4.3 其他扩展 107
5.5 本章小结 108
第 6 章 网络结构数据的社区发现 109
6.1 社区发现的背景 110
6.1.1 社区的定义 110
6.1.2 社区发现 111
6.1.3 社区发现的分类 112
6.2 常用的社区发现算法 113
6.2.1 GN 算法113
6.2.2 Fast greedy 117
6.2.3 Leading eigenvector 118
6.2.4 Infomap120
6.2.5 Label propagation 121
6.2.6 Multilevel 122
6.2.7 Walktrap 123
6.2.8 Spinglass 124
6.3 社区发现结果的评价 125
6.4 社区发现的拓展和应用 128
6.4.1 动态网络社区发现 128
6.4.2 带有节点属性的网络社区发现 130
6.5 案例:统计学科合作者网络社区发现 130
6.6 本章小结 133
第 7 章 链路预测 134
7.1 链路预测问题 135
7.2 基于相似性的链路预测 135
7.2.1 基于邻居的相似性指标 136
7.2.2 基于路径的相似性指标 140
7.3 其他链路预测方法 141
7.4 预测效果评价 142
7.5 本章小结 145
附录 146
参考文献 150