伴随着数字化浪潮的深入发展,企业数据量呈现爆发式增长、数据类型不断丰富,如何充分发掘和利用数据释放数据价值,正成为企业数字化升级中的关注焦点。
其中,湖仓一体作为一种新型的开放式架构,结合了数据仓库和数据湖的优点,可以有效提升企业海量数据、实时数据、多模数据的数据处理能力,增强实时业务处理以及非结构化数据的治理能力,让企业具备更加完善的数据管理能力。正因如此,对于高速增长的企业来说,选择湖仓一体架构已经成为不可逆转的趋势。
湖仓一体(data lakehouse)是当前大数据领域热度最高的词汇,这一概念于2020年首次提出,是数据湖和数据仓库合而为一的新词汇。
业界普遍认为,湖仓一体将成为数据库行业的未来趋势。
大数据的处理过程是一个提升数据结构化程度和信息密度的过程,不同的数据适合的存储方式也有所不同。诞生于1990年的「数据仓库」适合存储结构化、信息密度高、经过处理后的数据,它的优势是存储规范,易于快速读取,弊端是灵活性不足;诞生于2011年的「数据湖」可以低成本存储任何形式及格式的原始数据,但它的弊端是缺乏结构性,一旦没有被治理好,就会变成数据沼泽。
而「湖仓一体」是一种将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的新型融合架构,类似于在湖边搭建了很多小仓库,有的负责数据分析,有的运转机器学习,有的来检索音视频等,数据源流都可以从数据湖里轻松获取。
湖仓一体的特性
(1)事务支持:在企业中,数据往往要为业务系统提供并发的读取和写入。对事务的acid支持,可确保数据并发访问的一致性、正确性,尤其是在sql的访问模式下。
(2)数据的模型化和数据治理:湖仓一体可以支持各类数据模型的实现和转变,支持dw模式架构,例如星型模型、雪花模型等。该系统应当保证数据完整性,并且具有健全的治理和审计机制。
(3)bi支持:湖仓一体支持直接在源数据上使用bi工具,这样可以加快分析效率,降低数据延时。另外相比于在数据湖和数据仓库中分别操作两个副本的方式,更具成本优势。
存算分离:存算分离的架构,也使得系统能够扩展到更大规模的并发能力和数据容量。(一些新型的数据仓库已经采用了这种架构)
(4)开放性:采用开放、标准化的存储格式(例如parquet等),提供丰富的api支持,因此,各种工具和引擎(包括机器学习和python / r库)可以高效地对数据进行直接访问。
支持多种数据类型(结构化、半结构化、非结构化):湖仓一体可为许多应用程序提供数据的入库、转换、分析和访问。数据类型包括图像、视频、音频、半结构化数据和文本等。
(5)支持各种工作负载:支持包括数据科学、机器学习、sql查询、分析等多种负载类型。这些工作负载可能需要多种工具来支持,但它们都由同一个数据库来支撑。
(6)端到端流:实时报表已经成为企业中的常态化需求,实现了对流的支持后,不再像以往一样,为实时数据服务构建专用的系统。
深入剖析了数据使用场景,我们发现大数据平台不仅需要适配复杂的数据生产环境,还需要同时满足业务对于时效性的追求。可见,离线分析场景的数据诉求已经与企业渐行渐远,抓住实时业务场景的数据需求才能让企业在数字化转型的大潮中站稳脚跟。
而在全面实时化的进程中,相信具备实时能力的湖仓一体方案将发挥其独特的优势,从而切实助力企业提升数据的价值。