您的当前位置:首页 > 方案及案例 > GBASE行业解决方案

中国农业银行数据仓库项目——海量数据复杂运算处理

随着互联网和“大数据”时代的来临,传统银行如今面临来自其他领域的跨界挑战前所未有。如何转变思维,唤醒沉睡的数据,建立强大稳定的数据分析系统,开发创新数据应用,实现经营转型,是银行业“大数据”时代迫在眉睫的任务。同时,也是农业银行在转变经营思路的过程中,一直思考的问题。


中国农业银行数据仓库项目最初是基于Sybase IQ建设的,主要应用于统计报表。随着数据量的不断增大、接入的系统越来越多,Sybase IQ由于性能的限制,已经很难在指定的时间窗口中完成数据统计分析工作,也无法继续接入其它的业务系统数据,无法满足银行内部数据分析和监管机构的监管数据要求。


系统架构的障碍影响了农行从宝贵的数据资源中挖掘价值,寻找新的、更先进的产品构建核心数据仓库成为农行迫在眉睫的任务。


为了应对上述问题,农行着手构建新型大数据平台时提出了以“数据是基础,治理是保障,技术是支撑,分析是关键,应用是目标”的原则,核心目标是实现数据价值在业务应用中转变为生产力,构建数据价值利用的有效闭环,真正实现从数据支撑到数据运用的转变。在此过程中,需要对数据治理,提高数据质量,从而更好地满足数据挖掘需求,为数据价值在业务中的深入应用夯实基础。

农业银行作为典型的数据密集型单位,数据的重要性日益凸现:一方面,数据是其信息化的核心,是保障银行正常运转的关键,对数据库系统的稳定性和安全性有着十分苛刻的要求;其次,数据是宝贵的资源和财富,体量增长非常迅速,新构建的数据仓库系统必须具备对新生数据进行及时处理,计算和管理的能力。其主要需求,概括如下:


(1)    解决海量数据快速运算与管理的问题:

l  能够支持PB级以上数据、超过万亿行的数据库表、可以支撑每天处理4000个以上的复杂作业处理能力的并行数据库产品(本条目中的性能指标为2014年项目启动之初的原始需求,目前已经构建的数据仓库系统性能指标远远大于如上数据)。


(2)    系统需要灵活可扩展:

l  要求系统能够具有不断的线性可扩展的能力,具备较高比例的数据压缩能力,从而能够保障系统随着数据的增长而线性扩展。


(3)    安全稳定:

l  数据仓库系统必须安全稳定,具备7×24小时不间断提供服务的能力,保障上层业务系统稳定运行;

l  MPP数据库需要具备强大的备份和容灾能力,能够保障数据本身的安全,杜绝因故障引起的任何数据丢失的可能。


(4)    开放可靠:

l  能够基于x86和Linux开放平台搭建;

l  产品厂商需要具有强大的本地支持团队,能够为客户提供及时的、全方位的服务。

农行数据仓库架构如下图所示,由数据来源层,数据处理层,模型指标层,数据集市层,分析展示以及应用门户层组成。


l  数据来源层:

最下层为数据来源层,数据来源层包括新一代核心银行系统、综合应用系统、客户管理系统、贷记卡、银行卡、电子银行、反洗钱征信和财务系统等78个源系统,分别按照一定时间窗口,进行全量/增量数据加载,要求满足T+1需求。目前,数据来源层共计上万张表,最大表超过千亿行。


l  数据处理层:

数据处理层由Hadoop构建,完成对数据的抽取,清晰转换以及拉链表的加工。目前,数据处理层每日处理完毕的数据输出达2.5TB左右。数据加工完成之后,加载至模型指标层,即农行数据仓库主库。


WechatIMG2883.png


l  模型指标层:

模型指标层即农行数据仓库,采用GBase 8a MPP Cluster构建,其中主库共112个节点,使用双集群组成双活主库,其中每个安全组有2个节点。同组的两个节点,放在不同的机架上,以保证全方位的高可用性。此外,系统部署16台加载机实现集群的数据分发加载任务。


数据仓库的双活系统分为主库和备库两个系统。主库对数据进行批量操作,生成原始数据。备库将主库加工后的数据按照时间机制定时将主库加工的数据以表增量的形式进行更新。备库对数据进行批量更新后后向上层数据集市和应用提供联机查询的服务。


在数据仓库内部,从功能上可以划分为ODS层,BDS层及GDS层三个逻辑层次。ODS(Operational Data Storage)层即为贴源层,用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致。BDS(Base Data Storage)层全称为基础数据层,主要加工任务为在数据库按照对象的需求建模成功之后,对ODS层的数据进行加工和整理。GDS(General Data Storage)即公共数据层,主要目的是为了满足上层应用加工的需求,对BDS层中的数据按照主题或需求进一步进行加工整合,完成轻度数据汇总或宽表加工等任务。


目前主库的裸数据量超过2.5PB,每天的增量数据为3TB,共38304张表,最大表5000亿行;库内复杂作业15000多个,涉及SQL语句100000多个;日终加工时间为8小时,T+1时间的双活集群间同步2小时40分钟完成;目前共部署31套集群,共622个节点,裸数据总量超过15PB。


l  数据集市层:

同时,通过使用GBase 8a MPP Cluster构建了针对上层业务的资负集市,零售集市,个人客户集市,对公客户集市、分行数据集市、运营风控集市、信用风险集市、财务数据集市、广东分行信用预警分析系统以及分析数据集市等各个集市子系统。为了实现数据的高安全、系统的高可用,采用双活集群组成数据仓库。数据仓库主库加工后的数据,通过DBLink方式,由主库传输到集市环境。


l  分析展示层:

使用特定的计算分析引擎,建立数据模型等方法,完成对数据的挖掘和使用。


l  应用展示层:

应用展示对数据进行最终的调取使用,以供服务和业务的展开。

l  海量数据管理:为用户提供了并行海量复杂数据处理平台,帮助客户形成PB级以上的业务数据单一视图,为客户提供及时高效的数据分析结果;


l  满足监管需求:通过对数据统一的管理与治理,满足上层监管部门对上报监管数据的要求,保证数据的准确性、及时性,完整性;


l  通过数据指导业务:通过数据仓库的建立,对数据在生命周期内有效和高效的管理,证客户接入更全面的业务数据,满足市场营销、内部管理、内外监管的分析业务需求;


l  支撑银行领域数据观念转变:随着数据技术和分析理论的发展,要求银行分析业务必须从抽样数据向全体数据,从绝对到效率,从原因分析到相关性分析转变,数据仓库的建立,很好的支撑了这种转变,使理论成为现实;


l  创新的大数据平台架构:将MPP数据库技术和Hadoop技术的混合使用并搭建组成大数据平台,是金融行业的大数据技术架构和应用的创新,荣获银监会二等奖。 目前农行的大数据平台服务器数量已经达到1000台左右,其中MPP支撑结构化数据达5PB,是国内金融行业最大的数据仓库和大数据平台。

地址:天津市高新区开华道22号普天创新产业园东塔20-23层 技术支持热线:400-013-9696 邮箱:info@gbase.cn

天津南大通用数据技术股份有限公司 ALL RIGHTS RESERVED. 津ICP备12002153号-7 技术支持:快帮云

扫码关注 官方公众号
扫码关注 官网微博