客户案例

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

兰州银行数据仓库MPP分布式数据库替换项目

项目概况

兰州银行现有数据平台作为监管报送、行内报表及各应用系统的基础数据整合及服务平台,目前存在数据批量处理效率低下、各下游应用系统数据实效性得不到保障,实时数据服务能力、模型加工能力及数据统一管理能力不足等问题。为解决现有问题,采用行业主流技术架构建设数据仓库,对数据进行整合加工,实现全行数据统一管理,提升数据处理效率,为各应用系统提供统一数据服务,同时配合数据管控平台实现数据标准落地。目前我行数据仓库在数据库层面面临的挑战和迫切需要解决的问题如下

容量扩展能力:原有数据平台交易型数据库运行在一体机上,一体机容量有限,随着数据量的不断增大,一体机容量扩容难度大、成本高。新建的 MPP 分布式数据库应具备易扩展的能力,能够在线进行计算能力和存储能力扩展。

大数据统计性能:在数据量不断增大的现状下,交易型数据库性能正在变差,难以承载数据仓库对海量数据进行大表关联查询、数据统计分析效率得不到保证。新建的 MPP 分布式数据库应具备对海量数据进行大表关联查询、分组、聚合、OLAP、统计分析的能力。

数据副本能力:现有交易型数据库采用集中化共享存储的模式,数据仅有一份,数据备份通过传统磁带库进行备份,面对大数据磁带库进行备份和恢复的时间非常久,面对故障时无法快速恢复。新建的 MPP 分布式数据库应具备数据多副本技术,通过分布式的数据存储提高数据库高可用性。

便捷的运维能力:随着数据量快速增长,原有交易型数据库的运维难度越来越大,需要投入大量的精力应对故障和性能问题。新建的 MPP 分布式数据库应具备操作界面便捷,提供图形化的运维工具,易于故障排查和处理,降低运维的复杂度。数据仓库 MPP 分布式数据库建设目标是依托我行基础网络的基础资源,融合分布式的存储和计算技术,整合优化掌握的各类信息资源,强化信息共享应用管理,按照安全可控的要求构建信息资源体系,为应用建设提供信息资源服务支撑。数据仓库 MPP 分布式数据库建成后,将能容纳海量的、多种类型、多种结构的数据,并具备全部数据资源统一管理功能,同时为数据仓库应用提供多种数据计算和服务支撑。

解决方案

主库集群3个协调节点,10个计算节点。主库集群需10台服务器上部署MPP数据库软件。采用GBase 8a MPP Cluster数据库集群,每台服务器配置2个万兆网卡,双网卡绑定,分别连接到2台万兆交换机上,形成高可用,用于GBase 8a MPP Cluster数据库节点之间高速数据交换;配置2个千兆网卡,双网卡绑定,分别连接到2台千兆交换机上,形成高可用,用于GBase 8a MPP Cluster数据库集群与其外部节点如应用服务器、监控服务器等数据交换,系统典架构图如下:

数据来源层:是银行现有的各种业务系统;

抽取加载层:通过ETL的工具,从源系统中将海量数据抽取出来进行抽取、加载、转换等操作;

存储管理层:加载机将海量数据进行清洗后,按照一定的规则,将数据按照一定的规律分发到各节点上,建立数据主仓——数据仓库和数据集市,集市根据仓库的业务不同,各集市的规模也不同;

分析展示层:银行通过第三方分析挖掘工具将数据从数据仓库或数据集市中提取出来,进行进一步的分析,加载到相应的业务模块中;

应用门户层:银行的内部系统或外部系统,通过中间件将各个模块所需要的数据整理后通过门户网站呈现出来。

兰州银行数据仓库主要完成海量数据的统一存储、管理、信息共享和数据资源服务提供,并作为应用系统的支撑,针对不同的业务建立不同的专题,建立完善的数据采集、加载、存储、分析和应用展示的架构体系。

兰州银行数据仓库主要涉及系统中的存储管理层和抽取加载层,其核心功能组件主要包含四个部分,分别是:前置系统、ETL平台、数据仓库和统一数据服务接口。其中:

  • 前置系统:将采集的全部数据按源系统的数据格式临时存储,屏蔽对源系统的干扰,为数据检查和ETL数据处理做好准备;

  • ETL平台:通过进行高效数据抽取、数据清洗、数据转换、数据校验、数据加载等,完成对海量数据从数据源向目标数据仓库转化的过程;

  • 数据仓库:数据仓库通过对数据平台中所涉及的数据进行存储、分析,并能够支撑应用层的业务需要,进行查询、统计和展示的实现;

  • 统一数据服务接口:统一数据服务接口是高性能服务接口,为上层应用提供统一的数据服务,满足数据查询、数据互操作、数据交换、数据分析、目录服务、综合查询、信息比对等业务应用的需要。

为了保证系统的性能同时实现数据的共享、数据分析的需要,将数据存储管理层的数据分为三个层次:操作数据ODS层、数据仓库DW层、数据集市DM层。MPP数据库一般运行于数据仓库DW层和数据集市DM层。如下图所示:

数据仓库与数据集市示意图

应用效果

实施情况

兰州银行数据仓库系统于2023年7月正式上线使用,随着业务系统的不断扩展,数据存储空间迅速膨胀,目前数据库集群10个节点中,每个数据节点数据存储量为2.4TB*14=33.6TB(实际约31T),总数据量已达到248T,数据库集群数据存储利用率已超过80%,2024年2月进行项目扩容申请,计划再扩容10个节点,总数据量规划1.2PB。项目依据中标,近期进行扩容实施。

效果及价值

  • 高扩展:替换国外数据库一体机,解决扩容难,成本高问题;实现在线计算能力扩展,存储能力扩展。

  • 高性能:大幅度提升海量数据大表关联查询、数据分组、聚合、OLAP、统计分析性能。

  • 高可用:采用双活集群、数据多副本、分布式MPP等技术,提高数据库可靠性和可用性。 

  • 易维护:操作界面便捷,提供图形化的运维工具,易于故障排查和处理,降低运维的复杂度。