GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

GBASE视角:云原生数仓选型关注性能、监控运维、多云等因素

发布时间:2024-05-23

随着云计算技术的迅速发展和企业数字化转型的需求日益增强,云原生数据库已经受到越来越多企业的关注。IT168&ITPUB启动《云原生数据库选型指南》选题,调研采访一线专家,了解云原生数据库的发展现状、核心技术特性,以及云原生数据库在各行业落地的痛点、难点和实践经验,梳理企业机构在云原生数据库选型时的重点关注因素,供业内参考。

近期,南大通用GBase 8a产品经营部总经理关连坡接受了ITPUB的采访,介绍了南大通用对云原生数据库的定义,以及云原生数仓应用场景和企业选型关注因素。

 

什么是真正的云原生数据库?

云原生数据库是数据库未来趋势,也是当前一个比较热门的话题。然而,业内对云原生数据库还没有统一的定义。

根据百度百科词条,云原生数据库是一种云原生数据基础设施,是一种完全利用公有云优势的数据库服务,具备极致的弹性伸缩能力、无服务器(Serverless)特性、全球架构高可用与低成本,并可以与云上其他服务集成联动。

根据沙利文《2023年中国云原生数据库十大厂商推荐》,云原生数据库是基于云计算基础设施特点进行架构设计,充分利用云上计算、存储、网络等资源,从而实现性能增强与功能范围扩大的数据库。

关连坡指出,市场上对云原生数据库存在定义不统一的现象,比如有人认为数据库上云就是云原生数据库,有的人认为云厂商的云上数据库就是云原生数据库,这样的理解比较片面。

云的特征是大规模、灵活、共享、充分弹性,云原生数据库一定要满足各个资源能够充分弹性扩展,支持大规模使用,在部署和使用时具有灵活性、便利性,才能称为云原生。”关连坡说。原来计算资源和存储资源都部署在一个盒子(硬件)里,云能够将计算和存储分别虚拟化,所以云原生数据库需要支撑计算和存储的资源都能虚拟化使用。

存算分离可以说是云原生数仓的基础前提,传统的MPP数仓是存算一体架构,计算资源扩容,需要数据重新分布,要做数据搬迁,即便上云也无法做到灵活弹性扩容,成为限制数仓进一步发展的瓶颈。以Snowflake、GBase GCDW为代表的云原生数仓,采用存算分离架构,将存储和计算解耦,可以充分发挥云原生的灵活弹性优势,能够按需付费,这是数据仓库技术的一个突破。

关连坡进一步指出,以GBase GCDW为例,实现计算资源、存储资源和元数据的管理可以充分弹性,并且很多组件都充分容器化,能够易运维管理,这是判断云原生数据库的一些技术指标。

总体而言,从供给与需求的角度来看,数据库作为中间层,需要随着上层应用需求以及底层基础设施的变化而演变,从架构、内核等层面基于云时代的存储、计算、网络资源进行重构,以充分发挥云的优势,并不是数据库简单上云就能称为云原生数据库。

 

云原生数仓应用场景及需求

关连坡介绍,业务快速发展,对数据库的扩展性、弹性、运维管理提出了更高的要求,可能会用到云原生数仓,不同业务的需求会存在差异,据他观察,云原生数仓主要有以下场景:

一是敏态业务,需要资源弹性伸缩同时对稳定性有较高要求的场景,比如金融业的报表计算和精准报送,需要满足监管需求,这样的场景不能有时间延迟,跑批和报表加工时间需要严格把控。云上资源是共享资源,容易出现争抢,为了避免出现性能波动影响跑批,往往采用云内裸金属充分隔离的方式部署云数仓。

二是分析师业务和互联网金融实时分析场景,需要数据充分共享,存储资源和计算资源按需使用,这是比较典型的云原生数仓场景。尤其是一些敏态开发ToC业务,很适合使用云原生数仓。

三是政务云业务,其时效性没有金融报表那样高,政务云上很多是政务办公系统,使用云原生数仓对于敏捷应用开发比较友好,更加灵活弹性。

关连坡与一些客户交流发现,随着云计算多年发展,现在数据库上云已经被大多数头部企业接受,不过像金融这样的关键行业相对谨慎,虽然对云原生数仓比较感兴趣,但是目前大多还处在观望、试探中。

这些金融客户会存在一些顾虑,会考虑云原生数仓在其他大行的应用落地情况,此外,云原生数仓与传统的MPP数仓架构不同,Schema 设计、算法和运维存在差异,比如容器化后的日志收集、查看等有较大大不同,行业内需要培养更多的兼顾云和数据仓库产品运维技能的人员,来满足云化后基础设施的用人需求。

 

选型关注因素:性能、监控运维、成本、多云

数据库选型从来不是一件容易的事情,关连坡介绍,企业机构在选择云原生数仓时主要考虑以下几个因素:

一是监控运维,问题定位。当业务出现问题,很多客户会关注能否区分是云的问题还是数仓的问题,这需要云原生数仓的指标监控更加细致。传统数仓技术栈,数仓跑在操作系统和硬件上,是一个相对成熟可信的环境,有成熟的监测能力,出问题的概率也较低。云原生数仓,网络、CPU、内存、存储都进行了虚拟化,增加了技术栈的复杂性,对于问题的定位增加了难度,一旦出现网络波动,能否快速定位问题非常重要。

二是版本维护。传统MPP数仓直接部署在物理环境,业务之间充分隔离,以银行为例,每套业务单独部署一套,升级维护相对简单。但是上云之后,所有组件都是灵活状态,作为统一的云原生数仓,拥有很多公共组件,如何随着业务需求改变进行组件升级是一个问题,这与产品标准化程度相关,GCDW具备灰度在线升级能力,可做到无感升级。

三是性能问题,是否能保证与原有相同资源的情况下性能不降,提供更优的性能。

四是成本管理问题,传统部署模式在原有硬件基础上的资源消耗成本相对可控,容易评估,在云上如何评估成本让成本变得可控是企业会关注的问题。

五是充分容器化后,关于容器的易失性问题是否可以解决。

六是多云支持,为了避免云锁定、规避风险,充分利用不同云的优势,企业通常会采用多云战略。企业会关注云原生数仓是否与主流云进行了适配,不同云对于外部组件的应用权限开放并不一样,需要数据库层面做很多适配工作。

关连坡指出,数据仓库不应该挑选基础设施,云也是一种基础设施,像南大通用这样的云中立数据库厂商,一方面要和主流云厂商进行适配,以满足企业多云战略需求,同时数据仓库要打破包括云在内的所有基础设施的限制,屏蔽底层基础设施的复杂性,不管是一朵云还是多云,不管是公有云、私有云或是混合云,甚至传统硬件部署,都可以支持,满足各种业务场景需求。

云原生数据库是整个云生态的一员,未来的发展需要云基础设施、数据库、应用整个云生态一起努力。