社交媒体数据挖掘与分析
书籍作者:[美] 加博尔·萨博 |
ISBN:9787111643685 |
书籍语言:简体中文 |
连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 |
下载次数:4789 |
创建日期:2021-02-14 |
发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
内容简介
《社交媒体数据挖掘与分析》由工作在大规模社交媒体数据处理一线的研发人员撰写,旨在以更为友好、基础、实用的方式帮助你理解在线社交媒体。
《社交媒体数据挖掘与分析》围绕着如何探索和理解社交媒体系统的基本组成部分进行组织,从用户角度深入剖析收集和应用社交媒体数据的机制,并通过建立在真实数据集上的代码及分析案例详细阐述相关数据挖掘方法、技术和工具。
《社交媒体数据挖掘与分析》共7章,第1章介绍典型用户在社交媒体服务上的行为及其在不同服务中的普遍相似性;第2章主要讨论创造了社交网络的用户之间的连接;第3章主要探讨时间在社交系统中所扮演的角色,并且介绍帮助你理解其作用的工具;第4章回顾自然语言处理技术;第5章介绍分析大型数据集的挑战;第6章展示如何用机器学习技术预测人们喜欢哪类电影,并对预测结果进行评估;第7章由浅入深地分析全书中用于分析不同问题的通用统计模式,以及如何使用类似的分析技术去理解它们。
作者简介
加博尔·萨博(Gabor Szabo),致力于社交网络、自组织在线生态系统、交通运输系统和自动驾驶领域的大规模数据分析和建模问题。此前任职于哈佛医学院、圣母大学和惠普实验室,期间的研究重点是描述在线社区和生物系统中的随机组织网络。在此之后,他建立了分布式算法来理解和预测Twitter中的用户行为。他创建了Lyft拼车网络的资源分配模型,最近领导着特斯拉自动辅助驾驶( Tesla's Autopilot)项目的一个团队。
格尔·波拉特坎(Gungor Polatkan),机器学习专家和工程领导者,参与构建了Linkedln和Twitter的服务于个性化内容的大规模分布式数据管道。最近,他领导着Linkedln的AI后端的设计与实现,并将其推荐引擎从无到有地提升为能够从5亿多用户中学习数十亿个系数的超个性化模型。他在Linkedln部署了早一批深度排名模型,用于Linkedln的垂直搜索,改进了其人才搜索功能。他乐于领导团队、指导工程师,并在产品的快速迭代过程中培育技术严谨和工匠精神的文化。在加入Linkedln之前,他曾在Twitter、普林斯顿大学、谷歌、MERL和加州大学伯克利分校的几个著名的应用研究小组工作。他在ML&AI期刊和会议发表并评审过论文,如UAI、ICML和PAMI。
P.奥斯卡·柏金(P.Oscar Boykin),在Stripe致力于机器学习基础设施的建设,建立了预测大规模欺诈行为的系统。在加入Stripe之前,Oscar在Twitter工作了4年多的时间,先是致力于广告的建模和预测,而后投身于数据基础设施系统的建设。在Twitter,Oscar与他人合作开发了许多开源scala库,包括Scalding、Algebird、Summingbird和Chill。在加入Twitter之前,Oscar是佛罗里达大学电子与计算机工程系的助理教授。Oscar在加州大学洛杉矶分校获得物理学博士学位,作为合著者在学术期刊和会议上发表了数十篇论文。
安东尼奥斯·查基奥普洛斯(Antonios Chalkiopoulos),一位快速和大型数据分布式系统专家,具有在媒体、物联网、零售和金融行业交付生产级数据管道的经验。Antonios是大数据领域的专著作者、开源社区的贡献者、Landoop LTD的联合创始人和CEO。Landoop LTD为动态数据创建了创新性的、曾获奖励的Lenses平台。该平台保证了流数据的可见、可控,它通过直观的Web接口支持数据发现,并为数据的移动、监控、预警、管理、多重租赁、安全提供了全面的SQL支持,为构建和管理实时数据管道和微服务提供了完整的用户体验。
前言
在线社交媒体作为一股重要的力量推动了大数据时代的降临,并扩大了自身的影响,它对人类社会的重要性不言而喻。虽然我们目前仍置身于它不断扩大的影响之中,但“身在此山中”使得我们难于准确评价其地位。但是,在线社交媒体的一些主要特征已经得到充分展现,并决定了它的现在和未来。
一是消弭了空间的阻隔,让地理位置不再是交流的障碍。在这一点上,社交媒体比电话、电子邮件以及即时通信软件走得更远。二是“共建共享”,每个用户都可以成为内容的生产者,为平台贡献内容。在这一点上,社交媒体打破了以往传媒,无论报纸、广播、电视还是门户网站,由少数人提供内容的情形。这使得信息的数量和时效都达到了前所未有的高度。三是信息的传播更为便捷,社交媒体上用户可以进行转发、评论等操作,这使得信息传播的效率极高、成本极低,非常有利于信息的大规模传播。
社交媒体的这些特点吸引了用户的广泛参与,产生了数量极为庞大的数据和信息。信息的高度富集又进一步吸引了更多的用户。从这点来看,社交媒体在信息上的“共建共享”、打破壁垒和垄断的本性,正是人类一直以来努力的延续。这一趋势,自文艺复兴以来不断加速,并最终在信息时代以更夺目的光彩璀璨于世。
社交媒体的诞生也使记录人类行为的数据得以以前所未有的深度和广度不断聚集,对这些数据进行挖掘分析就为回答“我是谁”“我从哪里来”等一些根本问题带来了新的可能,对于理解人类的社会活动、政治活动、商业活动等方面也有着显著的意义。这个一般被称为“社交网络”的领域一直是学界和业界关注的重点,已经积累了相当数量的文献著述。
本书力图以更为友好、基础、实用的方式帮助读者理解在线社交媒体,以及社交媒体中的人。本书的作者都是工作在大规模社交媒体数据处理一线的研发人员,在材料取舍和切入问题的角度与已有著作有所不同,具有如下特点:
1.本书中的方法最终是为了反映社交媒体中的人。长期以来,计算机领域的社会网络分析工作较少涉及人类行为动力学,而相关方法对理解社交媒体中的用户行为十分必要。本书在分析用户行为和网络结构特性时大量采用了人类行为动力学领域的方法,这非常有助于读者理解社交网络的特性。
2.本书的内容很实在,也很接地气。建立在真实数据集上的代码及分析案例很好地体现了社交媒体服务分析和挖掘的内容及方法,读者可以由此开始自己工作中的分析任务,不会存在读懂了原理,面对实际问题却无从人手的情况。
3.本书的目标是“授人以渔”。在涵盖了社交媒体分析的主要方面之后,本书还以大量篇幅介绍了大数据环境下处理社交媒体数据所需的工具、算法的原理和实际案例,读者可以以此为基础,快速介入生产环境下的社交媒体数据处理任务。
基于此,我们认为本书可以作为学生学习相关课程的有益补充,也可作为相关从业人员的重要参考。
最后,感谢机械工业出版社华章公司对本书出版的高度重视,编辑们的辛勤工作提高了本书的质量。
目录
译者序
前言
致谢
作者简介
技术编辑简介
第1章 用户:谁参与社交媒体
1.1 测量Wikipedia中用户行为的变化
1.1.1 用户活动的多样性
1.1.2 人类活动中的长尾效应
1.2 随处可见的长尾效应:80/20定律
1.3 Twitter上的在线行为
1.3.1 检索用户的Tweet
1.3.2 对数分区
1.3.3 Twitter上的用户活动
1.4 总结
第2章 网络:社交媒体如何运行
2.1 社交网络的类型和属性
2.1.1 用户何时创建连接:显式网络
2.1.2 有向图与无向图
2.1.3 节点和边的属性
2.1.4 加权图
2.1.5 由活动构建图:隐式网络
2.2 网络可视化
2.3 度:赢家通吃
2.3.1 连接计数
2.3.2 用户连接的长尾分布
2.3.3 超越理想网络模型
2.4 捕获相关:三角结构、簇和同配性
2.4.1 局部三角结构和簇
2.4.2 同配性
2.5 总结
第3章 时序过程:用户何时使用社交媒体
3.1 传统模型如何描述事件发生的时间
3.2 事件间隔时间
3.2.1 与无记忆过程的对比
3.2.2 自相关
3.2.3 与无记忆过程的偏离
3.2.4 用户活动中的时间周期
3.3 个体行为的爆发
3.4 预测长期指标
3.4.1 发现趋势
3.4.2 发现季节性
3.4.3 利用ARIMA预测时间序列
3.5 总结
第4章 内容:社交媒体中有什么
4.1 定义内容:聚焦于文本和非结构数据
4.1.1 从文本生成特征:自然语言处理基础
4.1.2 文本中词条的基本统计
4.2 使用内容特征识别主题
4.2.1 话题的流行度
4.2.2 用户个体兴趣有多么多样化
4.3 从高维文本中抽取低维信息
4.4 总结
……
第5章 处理大型数据集
第6章 学习、映射和推荐
第7章 结论