区分 hdfs hbase hive hbase适用场景

区分 hdfs hbase hive hbase适用场景
 
  • 发表于 11个月前
  •  
  • 阅读 308
  •  
  • 收藏 1
  •  
  • 点赞 0
  •  
  • 评论 0
摘要: hdfs hbase hive hbase适用场景

Hivehtml

不想用程序语言开发MapReduce的朋友好比DB们,熟悉SQL的朋友可使用Hive开离线的进行数据处理与分析工做。数据库

注意Hive如今适合在离线下进行数据的操做,就是说不适合在挂在真实的生产环境中进行实时的在线查询或操做,由于一个字“慢”。相反架构

起源于FaceBook,Hive在Hadoop中扮演数据仓库的角色。创建在Hadoop集群的最顶层,对存储在Hadoop群上的数据提供类SQL的接口进行操做。你能够用 HiveQL进行select,join,等等操做。dom

若是你有数据仓库的需求而且你擅长写SQL而且不想写MapReduce jobs就能够用Hive代替。分布式

HBaseide

HBase做为面向列的数据库运行在HDFS之上,HDFS缺少随即读写操做,HBase正是为此而出现。HBase以Google BigTable为蓝本,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。工具

HBase是一个数据库,一个NoSql的数据库,像其余数据库同样提供随即读写功能,Hadoop不能知足实时须要,HBase正能够知足。若是你须要实时访问一些数据,就把它存入HBase。oop

你能够用Hadoop做为静态数据仓库,HBase做为数据存储,放那些进行一些操做会改变的数据。大数据

 hbase与hive都是架构在hadoop之上的。都是用hadoop做为底层存储。而hbase是做为分布式数据库,而hive是做为分布式数据仓库。固然hive仍是借用hadoop的MapReduce来完成一些hive中的命令的执行。

 

  1. 什么场景下应用Hbase?this

  • 成熟的数据分析主题,查询模式已经确立,而且不会轻易改变。

  • 传统的关系型数据库已经没法承受负荷,高速插入,大量读取。

  • 适合海量的,但同时也是简单的操做(例如:key-value)。

官方解释:

Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns -- atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.

Pig VS Hive

Hive更适合于数据仓库的任务,Hive主要用于静态的结构以及须要常常分析的工做。Hive与SQL类似促使 其成为Hadoop与其余BI工具结合的理想交集。

Pig赋予开发人员在大数据集领域更多的灵活性,并容许开发简洁的脚本用于转换数据流以便嵌入到较大的 应用程序。

Pig相比Hive相对轻量,它主要的优点是相比于直接使用Hadoop Java APIs可大幅削减代码量。正由于如此,Pig仍然是吸引大量的软件开发人员。

Hive和Pig均可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的很是简单

Hive VS HBase

Hive是创建在Hadoop之上为了减小MapReduce jobs编写工做的批处理系统,HBase是为了支持弥补Hadoop对实时操做的缺陷的项目 。

想象你在操做RMDB数据库,若是是全表扫描,就用Hive+Hadoop,若是是索引访问,就用HBase+Hadoop 。

Hive query就是MapReduce jobs能够从5分钟到数小时不止,HBase是很是高效的,确定比Hive高效的多

相关文章
相关标签/搜索