GBase新闻
信通院专访:GBASE视角下的湖仓一体及实现路径
2023年1月,中国信息通信研究院发布了第十五批“可信大数据”评估评测结果,天津南大通用数据技术股份有限公司(简称:GBASE)参与并通过了云原生湖仓一体数据平台的评测。该评测依据《云原生湖仓一体数据平台技术要求》进行,其涉及湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理、湖仓其他能力五大能力域。近日,GBase 8a产品经营部总工张绍勇接受了信通院云计算与大数据研究所的对话,就什么是湖仓一体,为什么做湖仓一体,湖仓一体的技术特点以及如何落地等问题进行了探讨。
信通院云大所:麻烦张总为我们介绍什么是湖仓一体,与数据仓库、数据湖等以往的数据工具有什么关联?
张绍勇:湖仓一体是数据湖和数据仓库的有机结合体,是一种新的架构体系,能够同时充分发挥数据湖的优势和数据仓库的优势,有效处理企业级海量数据,包括结构化、半结构化和非结构化数据;包括非实时性的批数据处理、实时性的流数据处理。通过采用存算分离架构,将全栈数据统一存储到低成本的存储系统中并支持无限扩展;通过提供各种不同的计算引擎,满足上层应用系统对批数据、流数据的处理性能需求,完成数据价值挖掘。
信通院云大所:为什么要做湖仓一体,其技术特点是怎样的?
张绍勇:湖仓一体是数据库技术发展演进和企业大数据平台需求的必然产物。随着企业的不断发展,企业数据量逐年增长。为了同时处理大量低价值密度数据和高价值密度的数据,企业中往往会呈现数据湖与多套数据仓库并存的烟囱式的数据处理平台架构,越来越复杂的数据处理架构推动了企业改革的决心,“湖仓一体”由此而生。湖仓一体的技术特点至少包括存算分离、开放数据格式和支持多种计算负载。存算分离满足存储与计算单独扩展的需求,未来可支撑无限量的存储和多个计算集群;开放数据格式可以有效打通数据湖与数据仓库之间的数据通道,满足业务系统跨湖跨库数据作业的需求;支持多种计算负载满足对批量计算、流计算、图计算等等不同计算负载需求。
信通院云大所:湖仓一体应用场景有哪些?
张绍勇:湖仓一体架构是随着客户的数据业务发展而自然进化的,GBASE的数据库产品已经在金融行业和电信行业形成了规模化应用,通过和金融行业、电信行业客户的紧密合作,我们很早就洞悉了湖仓一体应用场景在这两个行业中的开展:
金融行业
在金融行业客户中,每个客户的数据平台基本上都是由数据湖和多个数据仓库以及多个数据集市构成的,在其数据处理的业务链路中,往往会跨越数据湖、数据仓库和数据集市,对于这样的应用场景,非常有必要进一步提升数据处理效率。湖仓一体是解决这一问题的最佳技术手段,能够有效融合数据湖和数据仓库,充分发挥湖和仓各自的优越特性,为企业的数据处理业务增效、节能。
电信行业
数据湖在电信行业客户中被广泛的用于B域、O域数据的处理,将低价值密度数据加工处理生成高价值密度数据;同时,数据仓库在电信行业中被用于数据分析,从高价值密度数据中关联分析出可供决策支持等系统使用的决策依据数据。基于此现状,在电信行业使用湖仓一体技术,有效提升了电信行业数据的处理效率,实现了一套系统提供全部数据处理能力,统一数据集成、统一数据存储、统一数据计算、统一数据调度、统一数据安全、统一数据治理等。
信通院云大所:请谈一谈GBASE南大通用如何落地湖仓一体,其架构是怎样的?
张绍勇:GBASE的湖仓一体方案基于自身的大数据产品构建,包括云数仓产品GCDW、数据仓库GBase 8a MPP和数据平台GBase UP。GBASE是一家专业的数据仓库厂商,云数仓产品GCDW是一款可以提供湖仓一体解决方案的核心产品,该产品支持了湖仓一体的关键技术,包括存算分离、极致弹性、开放数据格式、多模计算引擎以及流批一体的处理能力,实现了大数据的统一存储、统一调度、统一语言、统一接口、统一元数据管理、统一安全,满足企业对全栈数据的全生命周期管理需求,提供从数据采集到数据集成、数据存储、数据计算、数据治理、数据分级管理等数据处理不同业务阶段所需的各种工具、计算引擎和业务调度管理软件等,帮助企业构建高效的湖仓一体数据平台。