GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

气象大数据存储体系设计

发布时间:2023-10-09

日前,由GBASE南大通用承办的第二十五届中国国际软件博览会·中国数据库产业峰会在天津召开。会上,国家气象信息中心气象科技首席专家徐拥军发表题为“气象大数据存储体系设计”的主题演讲。

背景介绍

为满足天气预报、气候预测、决策服务和公众服务等气象业务对海量气象数据存储与服务的需求,实现气象业务集约化的目标。国家气象信息中心基于业务数据应用特征,结合多种分布式存储技术,设计了一套气象大数据存储体系。

通过规范数据存储结构,利用数据同步、分级存储以及数据服务接口等方面的关键技术,解决了气象数据在分布式异构存储技术间的统一管理和服务的问题。经过应用实践证明,气象大数据存储系统存储能力达到了30PB,数据分级管理流程高效,数据统一服务响应时效在1秒以内,具备直接支撑气象业务的能力。


气象大数据存储体系设计

徐拥军讲到,我国气象事业发展历程同时也是一部气象部门信息化建设史,气象业务的每一次重大进步,背后都有信息技术的推动和支撑。近年来,随着监测更加精密化和多源数据广泛汇集,气象数据持续爆炸式增长。截至2022年底,气象数据已经覆盖21个行业,2348类;数据量增至近百PB,日增量41TB。

为解决数据集约、业务集约问题,有效支撑气象业务系统和各类数据应用,2021年年底,按照气象信息网络国省两级部署、国省市县四级应用的业务布局,气象大数据云平台(简称天擎)在国省业务化运行,开启“云+端”气象业务运行新业态。

天擎系统的核心能力是统筹管理观测、预报、服务、行业、社会等完整权威的地球系统大数据,以及提供“数据、算力、算法”三统一的平台化服务,其融合了多种分布式存储技术,实现海量数据长序列在线、高并发快速存取,面向气象应用提供毫秒~秒级的访问时效;基于分布式、GPU、流处理等计算框架,构建“数算一体”加工流水线,支持业务算法快速集成,按业务自然时序调度运行。


天擎系统基于南大通用分布式逻辑数据仓库GBase 8a MPP Cluster构建,国家级气象部门部署近100节点,省级气象部门部署近300节点。其中,国家级两地三中心天擎系统,单个集群内总记录数20亿以上数据表有23个,最大的单表已经达到1268亿数据量。

案例1:基于位置的实况数据公众服务系统

GBase8a历史分析库提供支持高并发访问的数据接口。开展5分钟滚动24小时内最大值、最小值、平均值等数据统计,涉及中国地面分钟降水数据1280亿条,每日数据增量 8000万条;中国地面小时表数据量69亿,每日数据增量168万条。依托GBase 8a的列式存储、高效查询与高并发访问能力,统计性能均达到2秒内结果响应。

案例2:公服中心交管天气风险管控平台

平台利用GBase 8a逻辑数据仓库的分析统计功能,完成每个时次的全国风险统计。

目前“公服”库,数据规模达到280亿条。基于GBase 8a的高压缩特性,数据存储只占用3T,满足高效压缩存储要求。裸数据文件大小约为5.8T,压缩比约为1:4,按此规模预计可以支撑将近70年的数据资料存储和访问。