GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

DTC 2023回顾丨GBase GCDW云原生实时逻辑数仓支持湖仓一体

发布时间:2023-04-24

2023 DTC数据技术嘉年华湖仓技术创新论坛现场,GBASE南大通用8a产品总工程师张绍勇分享了《GBase GCDW云原生实时逻辑数仓支持湖仓一体》的主题演讲。本篇文章带大家深入解读GBase GCDW云原生数仓是如何支持和实现湖仓一体。

数据仓库不同于数据库与数据湖,数据库主要面向业务系统,数据湖则负责存储所有原始数据。数据仓库的诞生得益于企业对数据价值挖掘需求的涌现,传统 OLTP 事务型数据库跨部门数据难以打通,易产生数据孤岛,数据仓库将不同源的数据聚合到集中且一致的数据存储系统中,解决传统数据库无法跨库操作的问题,并结合数据挖掘、人工智能 (AI) 和机器学习等技术发掘数据价值,以支持企业经营决策;并使其作为 BI 的技术底座,满足客户的数据分析和决策支持。

张绍勇谈及:传统企业级数据仓库伴随着应用场景的极速拓展以及数据规模和类型攀升正面临着六类挑战。

数据仓库技术演进趋势

数据仓库技术由来已久,从上世纪八十年代独立出单独产品后,不断演进发展,经历了若干发展阶段。

云原生实时逻辑数仓 构筑湖仓一体的新支点

因数据仓库产不支持非结构化数据、成本高、不灵活等局限,数据湖也存在查询性能低下、实时性、可靠性差的问题。将两者融合的技术方案即湖仓一体融合双方优点,逐步发展起来。GBase GCDW应运而生。

云数仓GBase Cloud Data Warehouse(简称GCDW)是GBASE自主研发的一款基于行列混合存储的海量分布式大规模并行处理的弹性云原生数据仓库。满足客户企业级弹性数据仓库系统应用场景需求。GCDW有两个核心特性。

  • GCDW既支持本地部署(私有云下的计算与存储分离模式)也支持云上部署,具备弹性资源扩展能力,用户可以根据自身的需要随时弹性扩展计算单元或者存储单元。

  • GCDW在云上提供SaaS能力,为客户提供企业级弹性数据仓库系统,让用户能够在云中更轻松地设置、操作。

GCDW的虚拟集群(物理隔离)和资源管理(逻辑隔离)实现了资源的弹性和混合负载;支持多源的、实时高效的数据集成,并提供向量化计算、硬件加速的能力来实时响应用户的数据处理需求,让业务从单一离线跑批走向实时;

其新一代向量计算引擎结合经典火山模型与块(Block)处理,充分利用CPU,提高 Cache 利用率,减少不必要的存储和内存访问;同时,基于第四代至强 可扩展处理器大幅提高性能与压缩率,显示更高的压缩比并改善单位数字性能。

案例

  • GCDW某行集市应用

项目中试点了三类业务场景:风险集市、监管报送、历史数据重跑

利用GCDW弹性资源、多租户能力,针对每个集市应用建立一个子租户,实现资源隔离、弹性扩展、资源快速供给,以及未来的湖仓一体。

风险集市:50+日作业,日增数据1TB,4~8节点WH,性能和GBase8a集群基本持平;

监管报送临时业务:界面配置WH计算资源立即可得,数据已在库内,立即进入开发测试;

历史数据重跑:数据湖中归档数据无需“升温”,湖仓一体直接从湖中读取数据重跑;多租户特性,谁需要谁操作,而不需要依赖主库。

GBase GCDW作为具有综合处理能力的大数据平台重要组件,具备、多租户数据开放能力和跨中心操作能力,结合大数据应用的复杂化融合化等特点,能够集成管理各类平台,融入机器学习的智能计算能力,关系计算与非关系型计算的融合计算能力以及数据的实时接入、处理的实时能力,同时集成数据湖,支持数据的安全传输和数据统一存储,依靠计算存储分离的架构来实现分析域私有云和公有云对接的DaaS服务部署和开放能力。依靠这些能力在云上构筑湖仓一体。