logo
GBase 8a
运维管理
文章

GBase 8a MPP Vs Hadoop-各自特点与应用场景

GBase用户14332
发表于2024-12-30 17:34:4751次浏览0个评论
  1. GBase 8a MPP的特点

  • 保持关系模型,支持SQL标准,符合开发习惯

  • 面向结构化大数据处理,基于列存储、压缩存储和分布式存储技术,并且具备各种算子优化,具备极高的分析性能

  • 采用通用PC服务器,硬件成本低

  • 基于MPP的联邦架构,支持逻辑子集群,易于横向扩展

  • 支持1000+节点的大物理集群下的多个逻辑子集群的统一管理,可实现支持子集群间数据同步,并且支持镜像子集群

  • 支持多级别高可用技术(集群级、节点级、进程级),无单点故障和单点瓶颈,所有组件具备Active-Active多活能力

  • 支持在线扩容/缩容,支持实例级、库级、表级等多级别的灵活扩展方式,在扩展过程中可进行监控、暂停、恢复和取消等灵活的监控及管理操作

  • 存储高可靠,多副本机制;事务特性保障数据一致性;支持协调节点的Failover;支持双活集群

  • 具备数据存储安全和数据传输安全特性,支持加密存储;支持加密数据传输

  • 支持平台融合,具备从Hadoop平台进行数据导入和向Hadoop平台进行数据导出的能力;海量数据可以基于Hadoop进行备份和恢复;支持结构化数据和非结构化数据的统一管理

  • 具备高易用性,提供图形化管理工具支持多种方式的数据集成,支持各种数据源实时数据同步,支持集群间数据同步,支持库内数据挖掘

  • 支持国产CPU芯片,鲲鹏、海光、申威、龙芯、飞腾等;支持国产服务器,华为、曙光、浪潮、联想等;支持国产操作系统,中标麒麟、银河麒麟、凝思、普华Linux、深度、统信、中科方德等

GBase 8a MPP的应用场景

适用于解决大容量高价值密度结构化大数据存储、计算和分析的应用场景。特别适用于包含相对独立的业务领域或不同分析类型的大数据平台、综合性BI系统、数据仓库和集市系统,不同的应用场景运行在独立的逻辑子集群中,对各逻辑子集群统一管理,既解决多物理集群管理、监控、维护的高成本问题,又能满足不同业务场景的差异化特性,实现资源的最大化利用,增强了集群的扩展能力,维护能力

  1. Hadoop的特点

  • 支持非结构化数据、半结构化和结构化数据

  • 非关系型模型,对开发人员要求高,开发复杂

  • 采用分布式架构设计和通用PC服务器

  • Hadoop具有按位存储和处理数据能力的高可靠性

  • Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性

  • Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性

  • Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性

  • 以HDFS核心,并通过YARN实现资源的调度与管理,使Hadoop可以运行更多种类的计算框架,MapReduce、Tez(DAG计算框架)、Storm(流式计算框架)和Spark(内存计算框架)

  • Hadoop的主要组件特性

  • 分布式列存数据库HBase,采用BigTable的数据模型,针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。其中保存的数据可以使用MapReduce来处理,将数据存储和并行计算完美地结合在一起

  • 数据流系统Pig,将脚本转换为MapReduce任务在Hadoop上执行,用于进行离线分析

  • 数据仓库Hive,解决海量结构化的日志数据统计问题,将SQL转化为MapReduce任务在Hadoop上执行

  • 数据同步工具Sqoop,SQL-to-Hadoop,主要用于传统数据库和Hadoop之间传输数据

  • 数据挖掘算法库Mahout,提供聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法,这些算法有些实现了MapReduce,从而Spark可以在hadoop平台上运行这些算法

  • 分布式协作服务Zookeeper,主要解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等

  • 日志收集工具Flume,具有分布式、高可靠、高容错、易于定制和扩展的特点。支持将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,并提供对日志数据进行过滤、格式转换等简单处理的能力

 

 

Hadoop的应用场景

更适合于数据采集类分析、日志分析、流处理、音视频等非结构化数据的应用场景。通过Hadoop的解决方案,还可以应用于以下行业领域:

  • 金融行业,大数据在高频交易、社交情绪分析和信贷风险分析

  • 汽车行业,利用大数据和物联网技术的无人驾驶汽车

  • 互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放

  • 能源行业,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统

  • 物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。借助大数据可以获取市场变化、物流需求等信息,及时规划和调整资源配置;同时可因此优化物流路由规划,降低物流成本和提高时效

评论

登录后才可以发表评论