相比于数据仓库,数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。它就像一个大型仓库,可以存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据,数据湖通常更大,存储成本也更为廉价。但它的问题也很明显,数据湖缺乏结构性,一旦没有被治理好,就会变成数据沼泽。
从产品形态上来说,数据仓库一般是独立标准化产品,数据湖更像是一种架构指导,需要配合着系列周边工具,来实现业务需要。换句话说,数据湖的灵活性,对于前期开发和前期部署是友好的;数据仓库的规范性,对于大数据后期运行和公司长期发展是友好的,那么,有没有那么一种可能,有没有一种新架构,能兼具数据仓库和数据湖的优点呢?
于是,湖仓一体诞生了。
依据DataBricks公司对Lakehouse 的定义,湖仓一体是一种结合了数据湖和数据仓库优势的新范式,在用于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。湖仓一体是一种更开放的新型架构,有人把它做了一个比喻,就类似于在湖边搭建了很多小房子,有的负责数据分析,有的运转机器学习,有的来检索音视频等,至于那些数据源流,都可以从数据湖里轻松获取。
这里需要注意的是,“湖仓一体”并不等同于“数据湖”+“数据仓”,这是一个极大的误区,现在很多公司经常会同时搭建数仓、数据湖两种存储架构,一个大的数仓拖着多个小的数据湖,这并不意味着这家公司拥有了湖仓一体的能力,湖仓一体绝不等同于数据湖和数据仓简单打通,反而数据在这两种存储中会有极大冗余度。
就在前不久,Gartner发布了湖仓一体的未来应用场景预测:湖仓一体架构需要支持三类实时场景,第一类是实时持续智能;第二类是实时按需智能;第三类是离线按需智能,这三类场景将可以通过快照视图、实时视图以及实时批视图提供给数据消费者,这同样是未来湖仓一体架构需要持续演进的方向。
下面这份文档介绍某公司提出的“湖仓一体”解决方案,旨在解决传统数据平台架构的局限性,并满足企业级数据分析的需求。(文末附全文PPT下载链接)
主要内容包括:
从数据库、数据仓库到数据湖,数据分析的需求不断演进,对数据平台的要求也越来越高。 “湖”+“仓”混合架构的局限性:架构复杂、数据冗余、链路过长、一致性问题等。
湖仓一体架构应具备数据湖和数据仓库的优势特性,并实现有机融合。 “湖仓一体”体系架构:统一数据存储、统一数据计算、统一数据接口、统一资源管理。 “湖仓一体”解决方案的核心思路:统一架构,采用云原生、多模存储等技术。
数据架构:统一数据集成平台、湖仓一体平台、数据治理平台。 技术架构:统一资源管理、统一分布式存储管理、统一分布式计算引擎、统一数据操作/数据接口。 数据流转:数据接入、存算数据、享用数据、数据管理。
云原生架构:容器化、微服务、DevOps、持续交付。 多模存储:支持10种数据模型,统一SQL入口,跨模型数据关联与转换。 统一架构:分布式存储、分布式数据管理系统、统一的资源管理框架、统一的计算引擎、统一的数据操作/查询语言。 全生命周期数据安全防护:数据采集、传输、存储、处理、销毁、流通等环节的安全防护。 1湖N仓多租户体系:支持多租户管理,满足不同用户的需求。 自主可控:全面自主可控,兼容适配信创生态。
多模存储、技术创新、批流协同、统一SQL、弹性伸缩、信创自主、全栈工具、降本增效。
开源方案未解决多分析处理场景下的割裂问题,未实现数据全融合。 阿里云和华为云方案需要多个组件配合,且湖和仓是割裂的,数据跨平台导入导出,开发运维成本高。
<END>
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...