书籍作者:Jean-Marc Spaggiari | ISBN:9787121295416 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:9391 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
要在Hadoop生态系统中实现快速的数据输入、服务和分析,一直以来只有几个可用但是不够完美的解决方案,要么以缓慢的数据输入为代价实现快速分析,要么以缓慢的分析为代价实现快速的数据输入。这个问题现在有了解决办法,使用Apache Kudu基于列的数据存储,你可以很容易地对快速输入的数据进行快速的分析。这就是本书的内容。在这本书中,你将学习Kudu设计中的关键概念,以及如何用它构建快速、可扩展和可靠的应用程序。通过实际的示例,你将了解Kudu如何与其他Hadoop生态系统组件(如Apache Spark、SparkSQL和Impala)集成。
Jean-Marc Spaggiari,Kudu的早期用户,是Cloudera的主任解决方案架构师,为Hadoop、Kudu、HBase和其他工具提供技术支持和咨询服务。Jean-Marc对HBase和HDFS有深入的了解,这也使他能够更好地理解Kudu及其应用。
常冰琳,现任小米云平台软件工程师,曾在百度和VMWare工作,多年从事分布式系统、大数据和深度学习相关工作。Kudu PPMC及Committer。
目前,限制实时处理技术落地的一个主要因素是其对数据存储系统的挑战性需求。尽管使用Hadoop生态中的一些存储层可以实现这些需求,但是系统会变得相当复杂且难以维护。Kudu的出现为大数据架构师和开发者们带来了新的选择。
Kudu 将低延迟随机访问、逐行插入、更新和快速分析扫描融合到一个存储层中,简化了系统设计与维护。
Kudu的目标是把扫描的性能做到HDFS 上的Parquet 的两倍以内,而随机读的性能则要接近HBase 和Cassandra,成为一种各方面条件都适中的选择。
选择存储引擎是实施所有大数据项目时要做的最重要的决定之一,而且更换存储引擎的成本也是最高的。Apache Kudu 是 Hadoop 生态系统中的一个全新存储系统。它的灵活性使我们能够更快地搭建和维护应用程序。在Hadoop 开发者的大数据工具箱中,Kudu 是一个关键工具。它解决了一些使用目前的 Hadoop 存储技术很难实现或不可能实现的常见问题。在这本书中,你将学习 Kudu 设计中的关键概念,以及如何用它构建快速、可扩展和可靠的 Kudu 应用程序。通过实际的示例,你将了解 Kudu 如何与其他 Hadoop 生态系统组件(如 Spark、Spark SQL 和 Impala)集成。
本书假设读者对 Hadoop 生态系统组件(如 HDFS、Hive、Spark 或 Impala)有一些使用经验,有 Java 或 Scala 编程经验,还有 SQL 和传统关系型数据库管理系统“使用”经验,熟悉 Linux shell。