GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

GBASE金融应用指南1 | 分布式分析型数据库概述

发布时间:2024-04-30

GBASE南大通用二十年专注数据库研发,主导产品GBase数据库经历20年持续发展迭代,已形成了覆盖不同业务场景的成熟数据库产品体系。其中,2011年发布的GBase 8a MPP Cluster大规模分布式数据库集群,经过十余年持续升级完善,始终与国际同类主流水平保持同步,已在金融、电信、政务、能源、交通等各行业规模部署,完成众多行业高端客户核心系统的建设和改造升级案例,切实满足了各数据密集型行业海量高价值数据分析、挖掘、备份、即席查询等业务需求。

为帮助金融机构做好分布式分析型数据库产品的选型,推广在金融行业部署应用分布式分析型数据库的成功经验,GBASE南大通用在北京金融科技产业联盟的指导下编写《南大通用GBase 8a金融应用指南》。《指南》深入介绍了分布式分析型数据库从选型规划、开发设计规范、数据安全高可用,直至运维优化的部署全过程,并介绍了GBase 8a MPP Cluster在国家政策性银行和国有大行的代表性部署案例。

GBASE南大通用将陆续推出系列文章,分享解读《指南》内容,希望能够对广大金融用户的数据库选型提供借鉴帮助,助力科技金融的高效实施和高质量发展。

本篇是系列文章的第1期,将从分布式分析型数据库的特点分类,及金融行业应用场景两方面展开论述。

分布式分析型数据库概述

1、分布式分析型数据库的特点及分类

随着数字经济的发展,数据要素已经成为了和土地、人力、资本、技术并列的生产要素,数据资产价值会随着数据量而提高,各行业对于数据的存储和应用产生了很多新的需求,传统的数据仓库模型和技术面临着诸多挑战。

挑战1:分析系统中数据规模庞大且变化的速度快、增量大,且数据有持久性存储需求。要求数据仓库有存储大量历史数据能力和在线扩展能力。  

挑战2:分析系统中业务变化愈发频繁,有智能化发展趋势,能满足即席查询和数据价值发现的需求。要求数据仓库存储的数据全面、粒度要细,支持数据挖掘和机器学习。

挑战3:针对分析业务的不确定,数仓的Schema on write提前建模,前期耗费时间长,后期通用性弱。要求数据仓库能存储所有原始数据,延迟建模。

挑战4:数据仓库中存储所有原始数据并延迟建模,会产生数据来源广,结构化、非结构化数据混杂,数据使用人员多等情况。要求数据仓库能有效治理各类数据,避免数据沼泽、数据泥团,数据库要有完善的安全机制保护数据完整和数据安全。

挑战5:对分析结果的实时性要求越来越高,要求数据仓库能有实时数据、流式数据接入的方案。

挑战6:分析系统的运行承载企业各项分析业务,运行的稳定性要有保障,即业务的连续性和数据的完整性要有保障。要求有备份方案、双活的解决方案来保障数据的完整和业务的连续。

分布式分析型数据库从20世纪末至今,经过近30年的发展应用,现阶段开始向云原生数据仓库演进。可以较好的解决以上挑战和要求,满足数据仓库未来向湖仓一体架构演进的趋势。

使用分布式分析型数据库搭建数据仓库具有标准易用的SQL语言、契合于各行各业常见分析需求的数据模型,满足多样化数据挖掘分析需求,易于将需要的数据按照方便分析的模型集成到数据仓库中,获取数据和分析结果方便快捷等优点。

南大通用大规模分布式并行数据库集群系统GBase 8a MPP Cluster从发布至今有十余年的行业规模化应用,紧贴市场需求,具有虚拟集群、多租户、在线快速扩展、在线节点替换、高可用性、高安全性等金融行业关注的基础功能特性和双活集群、流式数据集成、机器学习算法集成、异构计算引擎统一调度全数据统一管理等高级功能。

2、分布式分析型数据库金融行业应用场景

金融行业业务复杂多样,大数据分析应用场景涵盖批处理、交互式查询、数据挖掘、湖仓一体和实时数仓。GBase 8a MPP Cluster在各应用场景中的适用情况如下图所示。

GBase 8a MPP Cluster应用场景占比

批处理场景:
处理的数据量大、业务逻辑较复杂、资源占用大,数据处理分析的时效性一般为T+1,任务并发数在100以下。GBase 8a MPP Cluster的列存储引擎和优化器、丰富的OLAP函数、复杂SQL执行优化、高性能数据导入等非常适用于此类场景。

交互式查询场景:
查询响应时间要求较高,能够实现人机之间交互。GBase 8a MPP Cluster的智能索引、压缩、支持高并发查询等可提供高性能的即席查询支撑,提供的数据加密、脱敏、权限管理等的数据安全机制为交互式查询场景保驾护航。

数据挖掘场景:
使用统计学、机器学习和数据库系统等交叉技术,来查看和发现大型数据集中隐藏的一些模式。GBase 8a MPP Cluster提供的机器学习算法可以对用户数据进行深层次的分析和挖掘,将用户数据转化为用户价值。

湖仓一体场景:
湖仓一体是一种新型的开放式架构,打通了数据仓库和数据湖,融合数据仓库的高性能及管理能力与数据湖的灵活性。底层支持多种数据类型并存,实现数据间的相互共享,上层通过统一封装的接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。GBase 8a MPP Cluster提供与Hadoop平台的多种融合方案:通过异构引擎融合实现统一访问接口、统一数据视图、统一计算调度;通过双向的HDFS数据导出加载实现数据在数据湖和数据仓库中高速流转。

实时数仓场景:
实时数仓要求数据实时入库,不同于离线数仓响应时间需求的T+1,实时数仓响应时间实时性要求高(分钟级乃至秒级),常应用于实时 OLAP 分析、实时数据看板、实时业务监控、实时数据接口服务等。GBase 8a MPP Cluster采用微批数据加载、kafka消息流实时入库等方式,能满足小时级、分钟级、秒级的数据入库和数据分析。