GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

GBASE金融应用指南2 | GBase 8a MPP Cluster 逻辑架构

发布时间:2024-05-13

为帮助金融机构做好分布式分析型数据库产品的选型,推广在金融行业部署应用分布式分析型数据库的成功经验,GBASE南大通用在北京金融科技产业联盟的指导下编写《南大通用GBase 8a金融应用指南》。《指南》深入介绍了分布式分析型数据库从选型规划、开发设计规范、数据安全高可用,直至运维优化的部署全过程,并介绍了GBase 8a MPP Cluster在国家政策性银行和国有大行的代表性部署案例。

GBASE南大通用将陆续推出系列文章,分享解读《指南》内容,希望能够对广大金融用户的数据库选型提供借鉴帮助,助力科技金融的高效实施和高质量发展。

本篇是系列文章的第2期,在上一期介绍分布式分析型数据库的特点分类,及金融行业应用场景的基础上,进一步介绍金融行业应用的分布式分析型数据库的系统架构,以及与之对应的GBase 8a MPP Cluster产品架构。

分布式分析型数据库逻辑架构

1、系统架构

金融行业常见的系统架构如下图所示。

金融行业常见的系统架构

数据交换层:用于汇总前端生产系统中的各类数据,避免跨系统操作影响业务运行,保证核心系统中的数据的真实性、完整性和唯一性;提供多种数据集成方式,满足批量数据、实时数据的入库需求。

数据处理层:通常采用Hadoop+MPP的数据仓湖架构。

– Hadoop通常作为ODS数据库、数据湖使用,用于原始数据汇聚和存储、数据规范化处理、积累全量数据截面、沉淀历史数据资产、处理非结构化数据等。

– MPP通常作为数据仓库,负责结构化数据的高性能统计分析。在MPP中通常按照数据库仓库模型对业务数据进行逻辑分层加工处理。分析后的结果数据通过导出、DBLink、虚拟集群跨业务访问等方式提供数据给上层服务使用。

数据集市层:通常存储为特定用户预先计算好的数据,即数据处理层的分析结果提供给数据集市,结合本地数据进行二次加工分析,满足用户特定主题域的需求,如报表查询服务。

数据服务接口层和数据应用层:对前端业务提供数据访问接口和查询服务。

GBase 8a MPP Cluster在金融行业的系统架构中主要用于数据处理层和数据集市层。

2、GBase 8a产品架构

GBase 8a MPP Cluster产品架构图如图所示

GBase 8a MPP Cluster产品架构图

GBase 8a MPP Cluster采用MPP + Shared Nothing 的分布式联邦架构,包含分布式管理集群GCWare、分布式调度集群GCluster和分布式存储计算集群GNode三大核心组件。主要功能特性如下:

• 高性能:列存、行存列、HASH索引

– 采用列存储、压缩、智能索引技术;在数据仓库场景下通常采用中度压缩算法提供1:3到1:5的压缩比;

– 采用行存列降低select *场景下的I/O量;

– 采用HASH索引、数据排序等手段提高等值查询性能;

– MPP多节点并行,性能随集群规模线性提升;

–支持向量化计算,提高计算速度。

• 跨业务集群管理和交互:虚拟集群、DBLink

– 虚拟集群通过统一的管理集群实现对多个计算集群的统一管理、统一访问入口、统一用户权限控制,多个计算集群间资源隔离。支持用户跨计算集群进行数据的访问与计算。在多个业务系统间数据关联性较高时,可采用虚拟集群方式进行数据管理;

– 提供DBLink支持不同集群间的DBlink访问,实现跨集群的数据流转,实现对远程数据库的查询以及远程数据与本地数据的关联运算等。

• 高可用能力:联邦架构无单点、备份恢复、双活集群、在线节点替换

– 联邦架构无单点:所有组件采用Active-Active多活部署,避免了单点性能瓶颈和单点故障;

– 备份恢复:提供实例级、库级、表级的备份和恢复功能,支持全量、增量备份和恢复;

– 双活集群:支持实时双活、异步双活方案。通过虚拟集群镜像技术,支持两个计算集群间的表级数据实时复制。提供集群间同步工具实现两个集群间的数据异步一致性同步,点对点的基于二进制文件进行增量同步具有较高的同步性能,同时支持异地双活部署,支持两地三中心部署;

– 在线节点替换:具有在线不停服的节点替换能力,故障节点替换过程中,支持集群执行DQL/DML/DDL操作。

• 高扩展能力:在线扩展

– 集群扩展过程无需停服,扩容期间支持对扩容操作的监控、暂停、恢复、取消。满足业务实时在线要求和降低集群扩容对业务的性能影响。

• 数据集成能力:高性能批量加载、实时数据入库、hadoop集成

– 高性能批量加载:基于策略的数据加载模式,采用副本链式转发、P2P多点传输、多加载机并行等方式可提供30TB/小时的加载性能;支持HTTP、FTP/SFTP、HDFS、Kafka、S3等多种数据源及网络协议,支持文本、ORC、Parquet、gzip、snnapy、lzo等多种压缩格式。支持从HDFS加载数据和导出数据到HDFS,方便与Hadoop集群进行数据交互;

–支持外部表,可实现直接读取HDFS、S3、FTP等数据源的开放格式数据文件进行直接计算;

– 实时数据入库:内置Kafka Consumer组件可以消费Kafka中的实时消息数据;提供GBaseRTSync工具实现从OLTP数据库到MPP的实时数据同步。

• 安全能力:权限管理、用户安全、透明存储加密、脱敏

– 提供完善的用户认证及权限管理;

– 数据加密存储在文件系统中,支持表级、列级加密,支持SM4国密算法,满足数据安全要求;

– 提供动态数据脱敏功能,通过权限控制原始数据的可见范围,简化了数据库应用层的安全设计和编码。

• 基于机器学习的数据挖掘能力

– 提供机器学习扩展库插件,实现机器学习算法集成,对用户数据进行深层次的分析和挖掘;

–支持Python、C/C++的UDF/UDAF,可实现算法函数扩展,满足用户自定义数据挖掘分析需求。

• 易用能力:可视化监控

– 提供可视化的运维管理工具GDOM,支持对GBase 8a MPP Cluster集群的安装、升级、扩容、节点替换、服务启停等运维管理,支持监控单个或多个GBase 8a MPP Cluster集群的运行状态,资源利用情况、SQL执行情况等;提供及时告警、趋势展示功能。