Spark 下操做 HBase(1.0.0 新 API)

hbase1.0.0版本提供了一些让人激动的功能,而且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过仍是应该尽早地来熟悉下新版API。而且了解下如何与当下正红的 Spark 结合,进行数据的写入与读取。鉴于国内外有关 HBase 1.0.0 新 API 的资料甚少,故做此文。html

本文将分两部分介绍,第一部分讲解使用 HBase 新版 API 进行 CRUD 基本操做;第二部分讲解如何将 Spark 内的 RDDs 写入 HBase 的表中,反之,HBase 中的表又是如何以 RDDs 形式加载进 Spark 内的。分布式

为了不版本不一致带来没必要要的麻烦,API 和 HBase环境都是 1.0.0 版本。HBase 为单机模式,bread分布式模式的使用方法相似,只须要修改的配置便可。oop

开发环境中使用 SBT 加载依赖项.net


Output the RDD to any Hadoop-supported storage system, using a Hadoop JobConf object for that storage systemhtm

这个方法须要一个 JobConf 做为参数,相似于一个配置项,主要须要指定输出的格式和输出的表名。blog

Step 1:咱们须要先建立一个 JobConf。开发

读取 HBaseget

 

Spark读取HBase,咱们主要使用?提供的API将表的内容以 RDDs 的形式加载到 Spark 中。配置

完整的demo,能够关注公众号输入hbase获取。object


文章来源:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80997723

相关文章
相关标签/搜索