书籍作者:比尔·恩门 | ISBN:9787302624479 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:7452 |
创建日期:2024-03-26 | 发布日期:2024-03-26 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
在数据湖仓的所有新增要素中,排名第一的就是可以利于数据分析和机器学习所用的分析基础设施。分析基础设施包括一众大家广为熟悉的东西,当然也包括一些可能对大家还有些陌生或略带新鲜感的概念。比如包括:元数据、数据血缘、 数据体量的度量 、数据创建的历史记录、数据转换描述。
数据湖仓的第二个新增要素,是识别和使用通用连接器。通用连接器允许合并和比较所有不同来源的数据。如果没有通用连接器,就很难(实际上是几乎不可能)将数据湖仓中的不同数据关联起来。但有了这个中西,就可以关联任何类型的数据。
使用数据湖仓,就有可能实现以往任何其它方式都不可行或不可能实现的某种程度的数据分析和机器学习。 但与其它架构一样,我们需要理解数据湖仓的架构以及它的能力,以便于我们基于这种架构创建数据分析蓝图和开展数据分析规划。
胡博,国际数据管理协会(DAMA)中国理事,国家重点研发计划课题负责人。发表过学术论文20余篇,在云平台、数据中台等方面授权国家发明专利12项;是中国计算机学会高级会员、中国计算机协会服务计算专委会执行委员、SCI期刊IJWSR 执行主编、华中农业大学、深圳大学、武汉科技大学和海南师范大学硕士生导师。
前言
与过去相对简单的应用程序不同,当今的应用形态丰富多样,各种类型的数据、技术、硬件和小工具等充斥着这个世界。数据以不同的形式从四方涌来,甚至体量多得有些令人无法招架。
数据是用来分析的。对于企业等组织,可分析的数据有三种类型。首先是经典的结构化数据,这种类型的数据出现最早,存在时间最长,是由业务开展所产生的。其次是文本数据,这些数据可能来自电子邮件、呼叫中心的通话记录,也可能来自商业合同、医疗记录或其他文本数据。对于计算机而言,文本数据一度是个“黑匣子”,因为它只能被计算机存储而不便于分析,但如今文本的提取、转换和加载(ETL)技术为处理文本数据进行标准化分析大开方便之门。最后是模拟数据和物联网数据,各种类型的机器,例如无人机、电子眼、温度计和电子手表等都能产生这样的数据。模拟数据和物联网数据的形式比结构化数据或文本数据要粗糙得多,并且有大量数据是自动生成的,这类数据多属于数据科学家研究的范畴。
起初,我们把上述这些数据都扔进了一个叫作“数据湖”的坑洞里。但我们很快发现,仅仅把数据丢进去似乎毫无意义。因为如果要想让数据能够发挥作用,它就需要被分析,而分析数据则需要:
(1)将数据与其他数据相互关联;
(2)需要数据湖自身拥有分析基础设施并向终端用户提供服务。
除非我们满足这两个条件,否则数据湖就很容易变成“数据沼泽”,而这个沼泽在一段时间后便会开始变味发臭。
总而言之,不满足分析标准的数据湖只会浪费时间和金钱。
而数据湖仓正是针对上述需求和当前不足而诞生的。它在数据湖的基础上增加了一些要素,能够让数据变得有用且富有成效。换个方式来说,如果现在你还在构建一个数据湖,而没有将其升级转变为数据湖仓的话,那你构建的仅仅是一个昂贵且碍眼的东西,随着时间的推移,它只会变成沉重的负担。
在数据湖仓的所有新增要素中,第一个是用于数据分析和机器学习的分析基础设施(analytical infrastructure)。分析基础设施包括一些广为大家所熟悉的东西,当然也包括一些可能大家还有些陌生的概念。比如:
● 元数据;
● 数据血缘;
● 数据体量的度量;
● 数据创建的历史记录;
● 数据转换描述。
数据湖仓的第二个新增要素是识别和使用通用连接器。通用连接器允许合并和比较所有不同来源的数据。如果没有通用连接器,就很难(实际上是几乎不可能)将数据湖仓中的不同数据关联起来。但有了这个东西,就可以关联任何类型的数据。
使用数据湖仓,就有可能实现任何其他方式都不可行或不可能实现的某种程度的数据分析和机器学习。但与其他架构一样,我们需要理解数据湖仓的架构及其能力,以便于我们基于这种架构创建数据分析蓝图和开展数据分析规划。
构建数据湖仓需要以下步骤: 1. 规划数据湖仓的架构和设计。这包括定义数据集的类型、存储方式、数据流和管理策略等。 2. 确定数据源和数据采集方式。数据湖仓需要从不同的数据源获取数据,需要确定使用哪种方式来采集数据,比如 ETL(提取、转换、加载)工具、消息队列、API 等。 3. 建立数据湖仓的数据模型。数据模型是数据湖仓的基础,需要根据业务需求和数据特性设计采用的数据模型。 4. 选择适合的存储和计算平台。最常用的平台包括 Hadoop、Aws S3、Azure Data Lake Storage等。 5. 确定数据湖仓的数据管理策略。数据湖仓需要规定数据的安全措施、备份策略、访问权限管理等。 6. 实现数据湖仓的自动化运维。建议使用工具来自动化运维,保证数据湖仓的稳定性和可靠性。 7. 优化数据湖仓的性能和查询效率。可以使用缓存、索引、分区等技术来提高性能和查询效率。 需要注意数据湖仓的构建是一个复杂的过程,需要根据具体的业务需求进行合理规划和设计。
2023-04-22 10:11:02
构建数据湖仓是一个复杂的过程,需要仔细考虑设计和实施流程。以下是一些要点: 1. 确定需求:在设计数据湖仓之前,需要明确业务目的和需求。这包括哪些数据是必要的,如何存储和管理数据以及如何查询数据。 2. 选择技术:为了支持数据湖仓的存储和查询需求,需要选择适合的技术。这可能涉及到选择存储框架,如Hadoop,NoSQL数据库和S3等等。同样重要的是考虑如何管理和维护这些系统。 3. 数据模型设计:数据模型设计是数据湖仓设计的核心部分。基于业务需求,数据模型应该为用户提供方便快捷的查询功能。 4. 数据抽取和加载:数据湖仓存储的数据来自多个源头。因此,数据抽取和加载过程尤为重要。在这个阶段,需要确保数据是完整和准确的。 5. 数据质量和安全性:数据湖仓存储的数据量非常大,因此需要确保它们的质量和安全性。可以使用数据分析工具,如ETL和数据挖掘软件,来检查数据质量和安全性问题。 6. 数据湖仓维护:一旦数据湖仓被构建,需要定期维护。包括监控系统性能,备份和恢复数据,维护数据质量和安全性,以及升级系统软件。
2023-04-22 10:11:02
构建数据湖仓需要考虑以下几个方面: 1. 数据源的准备:确定需要接入哪些数据源,包括各种类型的数据,如结构化数据、半结构化数据和非结构化数据等。 2. 数据采集和集成:选择合适的工具和技术,将各种类型的数据从不同的数据源采集和集成到数据湖仓中。 3. 数据存储和管理:选择合适的存储技术和数据管理工具,实现数据湖仓的数据存储和管理,并确保数据质量和安全性。 4. 数据加工和分析:使用合适的工具和技术,对数据湖仓中的数据进行加工和分析,以产生有价值的洞察和解决方案。 5. 数据应用和共享:将数据湖仓中的数据应用到各种业务场景中,并确保在不同部门和业务之间共享和整合数据。 综上所述,构建数据湖仓需要综合考虑技术、工具、流程、人员和组织等方面的因素,设计出适合企业实际需求的数据湖仓架构和实施计划,以实现数据的高效管理和应用。
2023-04-22 10:11:02