中国人保寿险数据仓库项目
项目概况
项目背景
中国人寿于 2018 年采购了 GBase 8a MPP Cluster 集群数据库,部署数十节点集群,作为生产环境支持了分支机构数据 BI 下发系统、数据仓库升级改造等项目的建设,一定程度上缓解了公司数据类项目对 Oracle 及数据一体机环境的依赖,在满足计算效率的同时,降低公司对数据机扩容的成本。
自 2018 年部署完成后,至今一直支持分公司 BI 数据下发系统使用,系统运行稳定。 自 2020 年 1 月,数据仓库升级改造项目正式启动实施,2021 年完成系统建设并进入试运行阶段。投入试运行的数据仓库系统将主要在 GBase 数据库上运行,主要承担操作数据区、主题数据区、通用数据区、应用数据区的数据存储以及各数据区之间的数据加工逻辑处理工作,同时需要承担部分应用的数据直连查询、接口数据查询等工作。基于目前实施阶段对于源数据及各层数据、逻辑、支持应用的情况,建议在现有基础上对数据库进行扩容,以保证数据仓库系统稳定高效运行。
建设目标
数据仓库升级改造项目在现有节点 GBase 8a 集群基础上扩容集群规模至近百个节点,作为数据仓库未来支撑数据类系统的基础支持和大量数据分析应用系统,保证数据仓库系统稳定高效运行。项目需求如下:
完成 GBase 8a 集群的节点扩展,支持线性的资源扩展,性能线性提升;
在不影响业务系统运行的基础上,完成在线节点扩容;
扩容期间对数据库进行监控,支持扩容期间的并行度调整,支持调整数据重分布的
南大通用数据技术股份有限公司GBase 解决方案成功案例并行度,支持调整数据重分布的优先级,降低扩容时数据重分布对于业务执行的影响。
解决方案
为更好的支持人保寿险的业务发展,提升公司经营管理数字化水平,人保寿采购分布式数据库软件,完成数据架构升级相关项目。系统采用 GBase 8a MPP Cluster 集群搭建,GBase 8a 面向分析型应用领域,以列存为基本存储方式和数据运算对象,结合列数据压缩处理、并行处理、快速智能索引等新型数据处理技术,在查询、统计、分析以及批量加载性能上具备突出的优势。
项目一期建设采购数十个节点,数据仓库主要承担操作数据区、主题数据区、通用数据区、应用数据区的数据存储以及各数据区之间的数据加工逻辑处理工作,同时需要承担部分应用的数据直连查询、接口数据查询等工作。随着业务的发展,本次扩容近百个节点,需要承担总公司报表系统、管理驾驶舱系统和大数据平台系统。
应用效果
实施情况
集群规模:当前共近百个个data节点,数个个coordinator节点,其中 coordinator 和 data 南大通用数据技术股份有限公司GBase 解决方案成功案例节点共用;
数据量:总数据量约百余T;
业务相关的日增量:日增量约数百G;
并发量:夜间跑批峰值数十并发; 白天查询目前并发量不大,峰值数并发左右;
性能情况:夜间跑批基本在5小时之内完成,由于文件是分批到达,到达一批就加载一 批,因此这个时间也包含了等待文件到达的时间,暂无法和之前的跑批性能进行对比; 白天复杂的报表查询基本能在 2 分钟之内完成。
效果及价值
GBase 8a集群扩容到近百节点,提升了数据仓库的计算能力和应用效果:
统一数据服务平台,集群规模从数十节点扩容到近百节点,存储能力提;可以实 现统一数据服务,为多场景分析提供统一数据服务;
性能提升,扩容后,在增加了倍数数仓业务的情况下,分公司BI业务跑批性能仍 然提升了70%以上,整体的跑批任务可以在5小时之内完成;
高性价比,构建合理的“投入产出比”,提供线性灵活扩展能力;
国产数据库产品,符合政府对自主可控的信息国产化的要求。