GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

GBASE观察:扩展分析型数据库

发布时间:2022-06-22

一、多模态数据库

随着大数据应用的发展,企业需要处理的数据量爆炸式增长,同时面临数据的结构也越来越灵活多样。传统基于关系型理论构建起来的数据库管理系统遭遇到了巨大挑战。为了满足企业发展需求,企业不同业务IT系统需要用不同类型数据库来支撑。以下示意了不同类型数据库及其适用场景。

图片1.png

不同应用类型采用不同数据库可以有针对性提供数据支持,但数据库维护的难度较大且数据交换的复杂。为此,多模态数据库(multi-model database)受到了高度关注,所谓多模态数据库就是能够管理具有不同模型(如关系模型、树模型、图形模型和对象模型)的数据库系统。多模态数据库具有多个数据库引擎,可以同时满足应用程序对于结构化、半结构化、非结构化数据的统一管理需求。多模态式数据管理使得数据库能够进行跨部门、跨业务的数据统一管理,实现多业务数据融合,支撑多样化的应用服务。

目前,国内外已经有多模态数据库产品,其中,ArangoDB,是比较有名的多模态数据库。在ArangoDB数据库中,数据可以存储为文档、键/值对或图形。使用单一的声明性查询语言,可以访问任何或所有数据。此外,可以在单个查询中组合不同的模型。而且,由于其多模态型风格,人们可以制作精益应用程序,可以使用多种数据模型中的任何一种或全部进行水平扩展。

虽然多模态数据块库能够统一支撑多类型业务应用,但是,多模态数据库面对的难点很多,由于不同数据库引擎在响应延时、计算存储、操作语言的语义语法等都差异很大,不同引擎集成后,原数据库的性能都难以充分发挥,整体性能受到较大约束。俗话说的好,让专业的人做专业的事,同样,让专业的数据库支持专业的业务应用是有其合理性的。通用的数据库虽然有能力支撑全面业务,但在具体细分业务领域,通用的数据库的支持能力并不能够达到专业数据库的支持能力,数据库整体性能不佳。

二、HTAP混合事务与分析数据库

相对多模态数据库,混合事务与分析数据库考虑的是关系型事务型数据库与关系型分析型两种类型混合的数据库。HTAP可以解决大型实时应用的同时支持对大数据的分析挖掘。HTAP通常可以用两套系统来组合来支持OLTP和OLAP,也可以用一套系统同时支持OLTP和OLAP。前者需要用户的应用程序自己来协调AP和TP系统的使用,数据在两个系统之间是通过ETL方式同步。后者基于一站式架构同时处理事务请求与查询分析请求的技术,不仅消除了从关系型事务数据库到分析型数据库的数据抽取、转换、和加载过程,还支持实时地分析最新事务数据。合理的HTAP数据库不仅能够同时支撑事务运行和数据分析,避免在传统架构中,在线与离线数据库之间大量的数据交互。

以下是一种HTAP系统架构示意图:

SQL解释-01.jpg

HTAP虽然同时具备OLTP和OLAP的重要特点,但目前HTAP还面临一些问题,有待进一步发展。

其主要问题有:

1.大多数HTAP已经分别支持了AP请求和TP请求的处理,但没有系统支持在TP中执行AP的场景;

2.大多数系统需要组合各种解决方案来达到HTAP场景的需求;

3.为了加速TP的更新和点查,HTAP将索引全部放在了内存中,但是对于更大规模数据的场景,索引全部在内存中会导致TP系统变慢;

4.为AP场景设计的存储引擎,通常使用对象存储或者共享文件系统来存储数据。这些存储格式主要是为scan场景进行优化,无法提供高效的点查和更新能力。

虽然HTAP并不能分别达到OLTP与OLAP各自的性能,但通常HTAP面对的OLTP与OLAP具有很多共性,OLTP和OLAP两者都是关系数据库,都支持标准SQL语言,而且数据库表结构没有什么区别。所以,数据库整体性能可以得到有效优化,从而HTAP在相当程度上可以发挥OLTP和OLAP的各自优点,并简化系统维护成本。

三、扩展分析型数据库

HTAP数据库的OLTP与OLAP面对的数据库有很大共性,从而,相对多模态数据库,HTAP不仅满足特定应用需求,同时OLTP和OLAP的性能损失较少。HTAP是从关系数据库的维度整合两种数据库类型,同样,从数据分析维度上,分析型数据库(OLAP)与图数据库(RDF)也是一种互补的组合,可以满足更高的数据分析业务需求。OLAP与RDF数据库也有很多共性,比如,两者都是面向数据分析,面对的数据量都很大,而且各自的分析能力可以互补,两者结合,可以提供更加丰富、高效的数据挖掘。在此,我们把OLAP分析数据库分析处理与RDF图数据库的分析处理的整合称为扩展分析型数据库。

我们知道,大数据分析挖掘要依靠OLAP关系数据库来支撑,多年来,基于OLAP数据库的数据仓库技术为各行各业数据分析挖掘提供了极其重要的支撑。然而,由于OLAP关系数据库是擅长行与列数据的计算与存储,但在遍历关系网络并抽取信息的能力比较弱,关系型数据库在数据规模庞大时很难做多层关联关系分析,其关联操作往往因为消耗过长时间而失败,而图数据库正好在关系库正好弥补了关系数据库这个弱点,图数据库可以很自然的表达现实世界中的实体及其关联关系,无需耗时耗内存的关联操作,可以保持常数级时间复杂度,图数据库在多级关联上查询上相对关系数据库具有显著优势。

为了实现更强大的数据分析处理,可以采用两种架构实现如下:

图片3.png

分立架构,通过业务种类判断,分别由两个不同类型数据库根据各自优势进行分析,两个系统需要进行同步。一体化架构采用适应关系表分析和关联分析的引擎,对应用进行统一解释、统一调度、统一优化,提供一体化数据分析服务。一体化的扩展分析型数据库的具体结构示意如下:

SQL解释2-01.jpg

由于OLAP和RDF引擎都可以进行大规模海量数据处理,如此集成的分析型数据库同时发挥了OLAP和RDF数据分析的优势,进一步提升数据分析能力。

四、GBASE南大通用扩展分析型数据库

GBASE南大通用图数据库通过研发融合平台UP及分析型数据库GBase8a的技术,结合国产化图数据库技术,充分利用三种技术优势,打造扩展型数据分析数据库平台,不仅实现了超大规模数据分析的需求,同时在关联分析上性能取得突破,可以进一步满足大数据挖掘分析,实现复杂多级关联的知识图谱分析。扩展分析型数据库将在以下应用场景取得更好应用:

金融风控及审计

金融风控分析涉及指标多、数据量大,同时实体关联层级多且复杂。比如,在审计分析中,客户对公、对私、对员工及相关的管理,纬度特别多,数量大。传统数据库难以支撑,采用扩展分析型数据库,可以高效地分析出重点客户上或者员工频繁会跟他的亲属进行转账关系或者有一些深度资金往来数据,这样可以显示出非常大的价值。

图片4.png

石油勘探认知计算平台

石油勘探的“测井”环节,涉及数据量巨大,同时,地球物理学家需通过对电阻率、自然电位、声波等综合信息的研究进行油气层识别, 在油气生产领域,采用物联网技术和机器学习方法,实现了油井工况的定量诊断和远程实时在线管理。

图片5.png

通过扩展型数据分析,可以通过海量数据机器学习挖掘发现油气层规律,同时可以通过知识图谱,进一步挖掘各种复杂关联关系,为科学勘探提供依据。

电网潮流计算

电网潮流计算分别用来描述发电机、负荷、线路和变压器数据,通过扩展分析型数据库,不仅可以计算存储电网潮流涉及的海量数据,同时可以通过知识图谱,迅速更新复杂电网拓扑,发现电网故障路径,为智能电网故障快速恢复提供技术支撑。

图片6.png

五、结论

大数据技术与应用的发展,对分析型数据库提出更高要求,传统分析型数据库已经在数据仓库能力上大显身手,但在多层次数据关联上,传统分析型数据库能力欠缺,而图数据库是为数据关联分析而生,非常擅长多级数据关联分析。所以一种扩展分析型数据库就是整合了传统分析型数据库与图数据库的优点,极大增强了分析型数据库的能力,可以更好满足大数据业务的发展需要。