书籍作者:顾荣 | ISBN:9787111732587 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:5615 |
创建日期:2024-04-22 | 发布日期:2024-04-22 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书以广泛使用的Alluxio 2.8.0开源版本为基础编写,深入介绍Alluxio相关分布式统一大数据文件系统的技术原理与实践案例,主要内容包括系统入门与使用、内核组件设计实现原理,同时详细介绍了大型企业应用案例与实践,并附有Alluxio的开源社区开发者指南。
本书为Alluxio开源社区用户、高校大数据系统课程师生以及潜在企业用户提供了较为完整的技术指南和实用教程,既可作为大数据专业方向的专业教材,也可作为大数据从业者和研究者的重要专业资料。
【读者对象】
*Alluxio开源社区贡献者和用户
*高校分布式/大数据存储系统课程本科生和研究生
*企业信息架构规划与建设的从业人员
*分布式数据存储与编排系统领域研究与开发人员
*顾荣
南京大学特聘研究员,博导,Fluid开源项目社区主席,Alluxio开源项目PMC成员。主要研究方向为分布式网络与计算,专注云计算与大数据系统,发表相关论文60余篇,包括一流会议/期刊USENIX ATC、VLDB、ICDE、 WWW、 VLDBJ、TPDS等。主持国家自然科学基金面上项目/青年项目、国家重点研发计划子课题、中国博士后科学基金特别资助项目,以及大型企业创新基金项目等10余项,获江苏省科学技术一等奖、江苏省教学成果二等奖、IEEE可扩展计算委员会杰出早期职业学者奖、中国计算机学会分布式计算与系统专委会青年创新先锋、中国信通院OSCAR尖峰开源人物奖、阿里巴巴优秀学术合作项目奖、华为公司火花奖、腾讯云价值专家奖、南京大学青年五四奖章等。
*刘嘉承
Alluxio的资深开发工程师,Alluxio开源社区PMC成员和Maintainer,Alluxio元数据模块技术负责人之一,在Alluxio的大规模场景优化方面做了大量深入扎实的工作。主导推动了Alluxio核心工程团队和中国社区的合作开发,深度参与了Alluxio全球多个旗舰用户场景中的落地,并为其在大规模安全生产过程中部署使用Alluxio保驾护航。
*毛宝龙
腾讯Alluxio开源协同团队负责人,同时也是Alluxio开源社区PMC成员和Maintainer及Apache Ozone社区Committer,是Alluxio开源社区JNI-FUSE、Ozone、CephFS、COSN 等多个模块的创建者和维护者,也是高低水位异步缓存清理服务、动态配置更新框架、ratis-shell HA工具研发和集成等功能特性的开发者。他多年持续参与 Alluxio、Ozone、HDFS、Ratis 等存储领域开源社区的研发工作,同时也将 Alluxio 等开源技术广泛应用在多个知名互联网公司。
Alluxio是一款重要的现代开源分布式虚拟文件系统,是目前大数据生态系统中发展最快的开源社区之一,Alluxio已在全球数千个企事业单位部署应用,并在超过5000个节点的集群上运行。自2013年开源以来,社区贡献者数和用户数不断增多。本书的三位作者均为Alluxio项目的PMC成员和Maintainer,熟知Alluxio大数据文件系统的架构原理,并对Alluxio开源社区的发展产生了深远的影响。本书能够帮助读者全面和透彻地理解现代分布式文件系统的基本原理与Alluxio的核心框架及其实际案例。
本书在介绍分布式文件系统相关技术原理的同时,还讲解了Alluxio技术在国内外旗舰科技和数字化公司的使用案例,并在附录部分介绍了如何向标准化开源社区贡献源码,具有较高的技术前沿性和较强的国际视野。
*全面解读Alluxio核心框架、技术原理和应用场景
*Alluxio创始人、开源技术专家、领域知名学者和教育专家联合力荐
*国内外一线科技和数字化公司的使用案例
*3位作者均为Alluxio项目的PMC成员和Maintainer,具备较高的技术前沿水平和国际视野
前 言 Foreword
大数据给全球带来了重大的发展机遇与挑战。大规模数据资源蕴涵着巨大的社会价值和商业价值,有效地管理这些数据、挖掘数据的深度价值,将为国家治理、社会管理、企业决策和个人生活带来巨大的作用与影响。然而,大规模数据资源在给人们带来新的发展机遇的同时也带来很多新的技术挑战。
大数据处理的第一个基本问题是,如何有效地存储管理海量的大数据。大数据存储管理是进行后续大数据计算分析和提供大数据应用服务的重要基础。分布式存储是目前公认有效的大数据存储管理方法,在大数据系统中处于基础地位,在行业大数据应用中发挥着重要作用。本书将介绍近些年在数据存储和数据编排领域发展得如火如荼的开源系统Alluxio。Alluxio是全球首个开源分布式虚拟文件系统,最初诞生于加利福尼亚大学伯克利分校的AMPLab,是目前大数据生态系统中发展很快的开源社区。Alluxio已在全球数千个企事业单位部署应用,并在超过5000个节点的集群上运行。
本书以广泛使用的Alluxio 2.8.0 版本为基础编写,是一本深入介绍Alluxio相关技术原理与实践案例的书籍。本书主要包括Alluxio系统入门和使用、Alluxio系统内核组件的设计和实现原理,还包括Alluxio在大型企业中的经典应用案例与生产实践,以及Alluxio的开源社区开发者指南。本书从概念和原理上对Alluxio的核心框架与相关技术应用进行了详细的解读,是一本适合工业界和学术界分布式数据存储与编排系统领域人员阅读的详细技术书籍,同时也是面向高校分布式/大数据存储系统课程的实用教材。
【本书目的】
Alluxio项目自2013年开源以来,社区得到了长足的发展,贡献者和用户不断增多。但是国内深入介绍Alluxio内核实现原理和实践应用案例的书籍与教材少之又少。本书的三位作者均为Alluxio项目的PMC成员和Maintainer,在开源社区的交流、高校研究生指导以及课程教学中经常需要回答很多关于Alluxio等相关分布式存储系统的原理的问题。因此,我们决定一起写一本关于Alluxio分布式存储系统原理方面的书,帮助Alluxio用户更加全面、透彻地了解Alluxio的基本原理,从而更加轻松地使用Alluxio。本书在介绍相关技术原理的同时,还讲解了Alluxio技术在国内外旗舰科技和数字化公司的使用案例,并在附录部分介绍了如何向国际开源社区贡献源码,具有一定的技术前瞻性和国际视野。
【内容快览】
本书以广泛使用的Alluxio 2.8.0版本为基础进行编写,全书共分为12章,主要内容简介如下。
第1章介绍Alluxio项目的背景与发展历史,并介绍Alluxio软件的搭建部署流程。
第2章阐述Alluxio的核心功能服务,包括文件系统统一命名空间、层级存储与数据缓存、Alluxio与底层存储系统的集成、Alluxio与大数据计算框架的集成、Alluxio与大数据查询系统的集成,以及Alluxio与深度学习框架的集成等。
第3章介绍Alluxio的基本操作方式,并介绍Alluxio提供的7组高级配置和运维操作,具体包括挂载点运维、元数据同步和备份运维、Journal日志和高可用运维、Alluxio的不同配置方式、Log日志运维、Job Service使用和查询运维以及安全认证与权限控制。
第4章首先概览式地介绍Alluxio主节点的核心功能,然后分别介绍Alluxio 元数据管理的重要结构、统一命名空间和底层存储管理原理、Alluxio主节点的日志管理与元数据备份功能、Alluxio主节点(Master)内部对于Alluxio工作节点(Worker)的管理机制,最后讲解Alluxio主节点的元数据并发机制。
第5章介绍Alluxio Worker组件的基本功能、Alluxio Worker读写数据的不同模式、Alluxio数据块的生命周期和管理、Alluxio Worker的分层缓存机制,并介绍Alluxio Worker针对并发读写和流量控制的一些机制的设计。
第6章首先介绍Alluxio原生客户端以及基于其实现的HCFS、POSIX、S3、FUSE和命令行接口等多种不同访问方式,然后介绍Alluxio Job Service的整体架构和主要功能。
第7章首先讲解Alluxio的推荐系统配置及测算方法,然后系统地介绍Alluxio Master的性能优化方法,以及Alluxio Worker、Alluxio Job Service、Alluxio客户端的性能优化方法,最后介绍Alluxio的性能压力测试工具及其解读方式。
第8章着重介绍Alluxio在Kubernetes环境中的部署、Kubernetes高级功能的使用,以及云原生的其他部署方式。
第9章首先介绍混合云业务场景和常见挑战,然后将Alluxio与传统方案进行对比,最后介绍基准测试性能结果,以及多个应用案例情况。
第10章重点介绍Alluxio和Presto整合架构的原理、优势、常见应用场景,以及性能测试评估和多个落地应用案例。
第11章重点介绍Alluxio和Spark结合的架构及原理、ETL场景部署Alluxio的架构优势,以及相关性能评测和落地应用案例。
第12章介绍AI/ML(人工智能/机器学习)模型训练对数据平台的常见需求,分析Alluxio对比传统技术方案的优势,并介绍多个有代表性的应用案例。