GBase 8a
分布式逻辑数据仓库GBase 8a
产品简介
市场定位
GBase 8a分析型数据库的主要市场是商业分析和商业智能市场。产品主要应用在政府、党委、安全敏感部门、国防、统计、审计、银监、证监等领域,以及电信、金融、电力等拥有海量业务数据的行业。
关键指标
- 真正的列存储,数据压缩比最高可达1:30
- 自动提供粗粒度智能索引,高效过滤,膨胀小,免维护
- 集群支持100PB以上结构化裸数据单结点100TB裸数据
- 支持并行计算,充分利用现代的 SMP 多核 CPU 资源
- 集群加载速度大于30TB/小时
产品架构 · 技术特性
- 支持标准Linux 内核:Cent OS,Redhat, Suse等
- 支持基于x86-64和ARM的标准PC服务器
- 支持本地存储(Sata, SAS, SSD etc)
- 支持阵列部署(SAN,NAS)
- 支持SSD,Flash存储介质作为2级I/O缓存
- 持标准SQL
- 提供通用API: JDBC, ODBC,CAPI,ADO.Net
产品FAQ
- Q:GBase 8a能干什么?A:GBase 8a能够实现大数据的全数据(结构化数据、半结构化数据和非结构化数据)存储管理和高效分析,为行业大数据应用提供完整的数据库解决方案。
- Q:GBase 8a的水平如何?A:GBase 8a能够在百TB至PB级数据规模下实现数据查询的秒级响应;能够帮助客户节省50%-90%存储空间;能够为客户节省50%-90%的投资和运维成本;能够对结构化、半结构化和非结构化数据进行统一处理;能够实现千亿级文本条目全文检索的秒级响应;能够提供全过程可视化的数据查询分析及展现工具。
- Q:GBase 8a目前有什么成功案例?A:GBase 8a已经在电信、金融和政务等领域取得规模化市场应用,主要包括中国移动、中国联通、中国电信、银监会、公安部、安全部、工信部、国税总局、国家海洋局、中国石油等。
- Q:GBase 8a在项目中的测试情况如何?A:参加了150多次用户现场测试:中国移动集团下一代数据仓库选型测试前三名,是唯一入围的国产产品;在公安部、招商银行、新疆移动、吉林移动、中兴通讯、用友软件等单位的项目测试中取得了优异的成绩,获得用户的一致好评。
商业价值
GBase 8a MPP Cluster是国内首款支持融合数据处理的分布式关系型数据库集群产品。与国外主流的大数据厂商EMC、HP、IBM等,在金融、电信等领域同台竞技,技术实力相当,形成集群双活、大规模集群管理、虚拟集群等特有技术,实现部分特性国际领先优势,已经在人民银行、银监会、证监会、农总行、中行、工行、招行、中移动、中联通、中电信、海关总署、国防某部等几十个行业数百家用户形成规模化应用,总计上线超过10000节点,管理数据超过200PB。
在不断的市场实践和用户反馈中,GBase 8a体现出8个价值,可分为两级:一级价值包括提速、省盘、省钱、成云等核心优势和直接为客户带来的效益,二级价值包括全文、转非、全数据、可视化等产品的创新功能带来的价值。另外,作为国产数据库,GBase 8a与国外同类产品相比,具有非常明显的本地服务优势。
一级价值
- 提速:查询分析类性能提升10-100倍
- 省盘:存储空间节省50%-90%
- 省钱:软硬件投资节省50-90%,节电30%-50%
- 成云:支持云计算架构,横向扩展能力
二级价值
- 全文:集成全文检索,管理半结构化数据(云文件)
- 转非:非结构化数据的结构化提取和转化
- 全数据:统一处理结构化、半结构化和非结构化数据
- 可视化:支持GBase BI可视化数据分析平台
核心优势
GBase 8a MPP Cluster具有联邦构架、海量数据分布式、高效压缩、高效存储结构、智能索引、灵活的数据分布、在线高性能扩展、高并发、高可用、高安全性、易维护、高效加载等核心优势,具体如下:
- 联邦架构集群部署:基于列存储的完全并行的MPP + Shared Nothing的联邦架构,采用多活Coordinator(Master)节点、数据节点的两级部署结构,避免了单点性能瓶颈和单点故障,对外提供单一的访问地址,具备各节点的连接数负载均衡的能力。Coordinator节点支持最多部署64个;数据节点支持部署300个以上,单数据节点可支持50TB以上裸数据数据量,且所有节点无共享,具有对等计算能力;
- 海量数据分布式压缩存储:集群支持海量数据存储、查询,支持15PB以上的结构化数据,采用HASH或RANDOM分布策略进行数据分布式存储;同时采用先进的压缩算法,减少存储数据所需的空间,并相应地提高I/O性能;支持实例级、表级、列级三级压缩;支持基于列存储的数据编码及高效压缩技术;理想情况下,压缩比可达1:20以上;
- 高效存储结构:采用基于列存储、适合分析优化的存储结构;采用免维护的智能索引;支持行列混合存储的存储结构,有效提高列存数据库在SELECT * 场景下的查询性能;
- 智能索引:采用高性能、免维护的粗粒度智能索引技术,索引建立膨胀率不超过百分之一。智能索引包含基于列的统计信息,在数据检索定位时可被直接使用,有效过滤数据,大幅降低数据库磁盘I/O,大幅提高海量数据的查询性能;
- 灵活的数据分布:用户可以按照业务场景的需求,自定义数据分布策略,从而在性能、可靠性和灵活性间获得最佳匹配。数据分布策略包括HASH分布和RANDOM分布;
- 在线高性能扩展:支持集群节点的在线扩容和缩容,效率更高,对业务的影响更小;在线扩展性能大于20TB/小时;
- 高并发:读写不互斥,支持数据的边加载边查询,3节点集群并发能力大于1000;
- 数据高可用:通过冗余机制来保证集群的高可用特性,互备分片间可实现数据自动同步。数据通过副本提供冗余保护,数据的副本机制支持1或2个数据副本,支持用户自定义的数据副本分布方式;自动故障探测和管理,自动同步元数据和业务数据,副本故障不影响集群的可用性,支持故障的自动恢复,无需人工干预;
- 完善的资源管理:通过资源池及资源使用计划的灵活配置,能够实现不同数据库用户的资源隔离,支持对 CPU、内存、磁盘空间、磁盘 IO、并发任务数等关键资源和指标进行管控,能够提供完善的多租户能力。
- 主备集群高可用:集群支持主备集群高可用模式;支持数据全量、增量同步;支持主备同步回滚机制;支持主备同步错误恢复机制;支持同城灾备;
- 安全性:提供完善的用户、角色、权限控制策略,提高数据库集群的安全性;支持详尽的审计日志,可配置灵活的审计策略,记录数据库中与数据库操作相关的所有日志,也可以通过图形化的监视工具实现审计管理;支持透明的数据加密:支持数据存储加密,支持数据库密码加密,支持数据加密压缩;支持相关加密函数,如AES_ENCRYPT()、ENCRYPT()、MD5()、SHA1()、SHA()等;支持库内数据脱敏;支持Kerberos认证方式访问集群和外部数据源;
- 易维护:提供图形化管理及监控工具,以简化管理员对数据库的管理工作;
- 数据加载高效性:具备数据库并行加载能力,加载速度随节点增加线性增加,基于策略的数据加载模式,集群整体加载速度大于30TB/h;
- 自适应负载:支持通过自适应负载特性允许用户执行任意并发数量的作业,数据库系统根据负载情况,自动决定可允许执行作业的数量,实现参数免调优;
- Hadoop备份/恢复:支持与Hadoop之间进行数据备份/恢复,将库内数据备份到Hadoop中,或将Hadoop内的数据文件恢复到库内;Hadoop备份/恢复性能大于100TB/h;
- 标准化:支持SQL 92、SQL 99、SQL 2003 ANSI/ISO 标准,支持ODBC、JDBC、ADO.NET、OLEDB等接口规范;支持C API、Python API、TCL API等接口;支持SQL 2003 OLAP函数。
技术特性
南大通用自主研发的GBase 8a MPP Cluster是大数据时代成熟的分析型 MPP 数据库。具有联邦构架、海量数据分布式、高效压缩、高效存储结构、智能索引、灵活的数据分布、在线高性能扩展、高并发、高可用、高安全性、易维护、高效加载等核心优势,具体如下:
- 适配平台:支持金蝶、东方通等主流中间件;支持曙光、浪潮、华三、长城、联想等主流国产服务器;支持海光、鲲鹏、飞腾、申威、龙芯、兆芯等主流的国产处理器;支持中标麒麟、银河麒麟、中科方德、统信等主流的国产操作系统。
- 编码格式:支持多种编码格式,如UTF-8、UTF8-MB4、GBK 、GB18030、Unicode编码格式,支持多语种。
- 海量数据高效存储:单个集群可处理15PB以上的结构化数据,采用HASH或RANDOM分布策略进行数据分布式存储;单数据节点可处理50TB以上裸数据数据量,且所有节点无共享,具有对等计算能力;同时单表支持247(万亿级)行级数据量。
- 大规模并行计算:针对数据加载和数据查询实现了自动高效的并行处理技术,充分利用SMP多核CPU资源并行处理海量数据。利用单节点并行技术,结合MPP集群跨节点并行,对算子进行分布式并行计算处理,可实现数据查询分析的超大规模分布式并行处理和多数据源并行加载。
- 数据高可用:通过冗余机制来保证集群的高可用特性,互备分片间可实现数据自动同步。体现了集群环境中节点内及跨节点的并行处理能力。
- Hash索引:利用Hash索引提高等值查询的定位效率,针对集群内单表精确查询可实现秒级查询响应。
- 智能索引:采用高性能、免维护的粗粒度智能索引技术,索引建立膨胀率不超过百分之一。智能索引包含基于列的统计信息,在数据检索定位时可被直接使用,有效过滤数据,大幅降低数据库磁盘I/O,大幅提高海量数据的查询性能;在亿级数据规模下,可达到集群单节点单表基于时间列精确查询秒级响应能力。
- 备份恢复管理:提供专用的备份恢复工具,支持物理备份恢复(完全、增量、差异)和逻辑备份恢复(实例级、用户级、表级),方便用户在不同应用场景下自主选择备份恢复策略。
- 数据加密:具备透明的数据加密功能,数据加密实现表级或者列级不同粒度的加密要求,支持数据存储加密,支持数据库密码加密,支持数据加密压缩;支持相关加密函数,如AES_ENCRYPT()、ENCRYPT()、MD5()、SHA1()、SHA()等;支持备份软件进行备份文件加密。
- 核心进程级别高可用技术:GNode,GCluster,GCware 等核心进程被实时监控,出故障后可及时恢复。具备完善的数据库物理恢复功能,支持系统故障恢复、完全介质故障恢复、网络故障恢复、基于表空间/文件组的介质故障的数据库物理恢复功能;具有完全恢复模式和指定时间点恢复模式,可将数据恢复到崩溃时间点数据或指定时间点数据。
适用场景
GBase 8a是面向大数据分析类应用领域的一款高性能国产新型数据库产品,用于满足数据密集型行业日益增大的数据查询、数据统计、数据分析、数据挖掘和数据备份等需求,可用做数据仓库系统、BI系统和决策支持系统的承载数据库。