GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

用户之声:中国移动大数据平台实践分享

发布时间:2023-09-21

日前,由GBASE南大通用承办的第二十五届中国国际软件博览会·中国数据库产业峰会在天津召开。会上,中国移动信息技术有限公司数据库内核架构师王小玉发表题为“中国移动大数据平台实践分享”的主题演讲。

演讲梳理了中国移动大数据技术架构和分析型数据库技术架构的演进历史,分享了移动梧桐大数据平台从湖仓并存,存算一体逐步演进到云原生数据湖底座,一湖多云的架构,给出了中国移动解决成本、扩展性、数据孤岛、数据搬迁、跨云协同管理等问题的最佳实践。

随着数字经济发展,中国移动的数据规模呈现爆发式增长,并且数据形态、类型越来越丰富,各种数据应用也更加广泛,深入到内部服务、生产经营管理全链条。同时,传统数据仓库和大数据平台技术已逐渐显露出瓶颈,易产生数据孤岛,数据搬迁共享成本高、效率低,数据开发、治理、算法门槛高。

基于这样的现状,云原生、存算分离和湖仓一体等新一代大数据和数据仓库架构被提出。中国移动通过采用存算分离架构,解决成本和扩展性问题;并通过湖仓融合的统一数据底座,解决数据孤岛及数据搬迁问题;正在从湖仓并存、存算一体逐步演进到以数据湖为底座,云原生数据仓库为引擎的一湖多云架构,以解决成本、扩展性、数据孤岛、数据搬迁、跨云协同管理等关键问题。

大数据平台的数据仓库则规划了接口层、明细层、资产层、服务层、应用层五个层次,根据数据处理流程和需求特点,建设四个数据仓库,设计了多仓、多集群的数仓架构,基础数仓和资产数仓数据统一由数据湖存储管理。

作为中国移动长期的合作伙伴,GBASE系列数据库在中国移动大数据平台建设中发挥了重要作用。

分布式逻辑数仓GBase 8a MPP Cluster实现了大数据域全量数据仓库云化,按照业务逻辑拆分Hadoop集群,并提供透明访问能力,实现了数据的高效流通。通过应用实践,验证了存算分离架构对中国移动业务的支撑能力。采用湖仓融合,实现数据统采统用,显著提高了模型处理效率,大大节省了存储成本和计算成本。

云原生数据仓库GCDW,是整个大数据平台实现数据湖仓一体的基础,使用S3、HDFS构建统一的数据存储,提供任意规模的弹性计算集群。

在架构方面,实现了存算分离、服务和计算节点无状态的弹性扩展、多个异构存储同时接入、跨存储联合查询;在性能方面,通过内核优化实现了向量化执行引擎、C++原生HDFS接入、数据缓存、算子下推等技术;在生态方面,可以支持多种云基础设施,并支持云化、虚拟机、物理机等多种部署方式,成功适配多款国产服务器及操作系统。

面向未来,中国移动将在大数据平台的统一存储和统一数仓两个维度推进架构落地,与GBASE南大通用等合作伙伴共同构建湖仓一体的大数据创新生态,实现数据要素资产应用效能最大化。