内蒙古发改委征信二期项目
项目背景
内蒙古自治区征信平台二期数据中心,针对数据体系中的不同数据,分别设计不同的数据库,形成征集交换数据库、信用互联网数据库和信用专网数据库,为数据分析和数据服务提供数据基础。
在保障征信平台日常数据请求的基础上支持征集交换中心数据库跟信用专网数据库之前的数据服务切换功能,为海量历史数据提供可靠的备份和恢复机制。
解决方案
1、系统设计:
图 1 大规模分布式并行数据库集群逻辑架构图
系统整体分为数据接入与处理、数据存储和计算、数据共享及应用接口三部分。
1) 数据接入与处理
采用ETL前置数据库入库方式,实现从业务数据源的增量数据采集加载至GBase 8a数据库。业务数据源(征信一期核心数据库)主要通过ETL前置数据库进行增量入库的加载。
2)数据存储和计算
通过GBase 8a MPP Cluster并行数据库系统实现对各系统使用数据的存储,并对外提供复杂关联计算和深度分析与挖掘、数据汇总、即系查询等数据计算和处理能力。GBase 8a MPP Cluster并行数据库系统采用ShareNothing+MPP的分布式扁平架构,该架构具备极强的扩展能力,使GBase 8a 不仅可以获得PB级数据存储能力,还实现了高性能的分布式数据处理,实现大并发和大规模数据复杂查询的秒级响应。此外,集群的多副本机制通过数据冗余保证了集群的高可用特性。
3) 数据共享及应用接口
对外提供标准的JDBC、ODBC、.NET、CAPI标准接口,为上层应用系统提供标准数据访问接口,并为BI工具、ETL工具等第三方软件提供标准的关系型数据库数据源。对于其他系统的数据共享,提供统一提取数据的接口。
GBase 8a 集群共包括1台ETL前置数据库服务器、4台集群计算节点
ETL服务器、集群节点部署于同一网络局域网内,采用万兆网互联保证ETL服务器和集群节点间的数据传输带宽;
2、实施情况
本次建设划分为3个数据库:
云计算数据中心核心分析数据库
云计算中心数据库主要从各自治区同级部门提供的征信数据信息、企业信用数据、个人信用数据等。实时收集各省的业务系统收集的生产数据,初期设计数据容量10TB。采用GBase 8s数据库。
云计算数据中心查询分析数据库
查询分析信息库是面向征信体系中企业、个人征信数据查询分析操作的专用数据库。包括企业信用库、个人信用库、公安人口数据库、银行信贷数据、公积金等,初期设计数据容量为40TB,选择GBase 8a数据库。
发改委数据中心核心分析数据库
鉴于数据总量以及应用复杂度均已达到一定量级,需要对项目整体数据进行有效的备份和保全,因此在发改委机房建立一个征信数据中心。其设计架构跟云计算中心数据库完全一致,选择GBase 8s数据库,除了需要完成云计算中心数据库增量数据备份外,还需要在云计算中心数据库异常情况下替代完成应用程序支持任务。
应用效果
实现数据资源统一管理,全面提升数据服务能力,充分挖掘数据价值,全面提升发改委征信体系数据资源管理水平和征信数据资产综合应用能力。
系统长期稳定运行,具备7×24小时不间断提供服务的能力,保障上层业务系统稳定运行;需要具备强大的备份和容灾能力,能够保障数据本身的安全,杜绝因故障引起的任何数据丢失的可能。是通过全国产化平台保证征信数据安全的有力证明。
产品成熟、功能强大、附加值高。主要体现在如下方面:
提速:查询分析类性能提升10-100倍
省盘:存储空间节省50%-90%
省钱:软硬件投资节省50-90%,节电30%-50%
成云:支持云计算架构,横向扩展能力
全文:集成全文检索,管理半结构化数据(云文件)
转非:非结构化数据的结构化提取和转化
全数据:统一处理结构化、半结构化和非结构化数据
可视化:GBase BI,可视化的分析平台