Spark 下操做 HBase（1.0.0 新 API）

时间 2019-12-14

标签 spark 下操 hbase 1.0.0 api 栏目 Spark 繁體版

原文原文链接

hbase1.0.0版本提供了一些让人激动的功能，而且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过仍是应该尽早地来熟悉下新版API。而且了解下如何与当下正红的 Spark 结合，进行数据的写入与读取。鉴于国内外有关 HBase 1.0.0 新 API 的资料甚少，故做此文。html

本文将分两部分介绍，第一部分讲解使用 HBase 新版 API 进行 CRUD 基本操做；第二部分讲解如何将 Spark 内的 RDDs 写入 HBase 的表中，反之，HBase 中的表又是如何以 RDDs 形式加载进 Spark 内的。分布式

为了不版本不一致带来没必要要的麻烦，API 和 HBase环境都是 1.0.0 版本。HBase 为单机模式，bread分布式模式的使用方法相似，只须要修改的配置便可。oop

开发环境中使用 SBT 加载依赖项.net

Output the RDD to any Hadoop-supported storage system, using a Hadoop JobConf object for that storage systemhtm

这个方法须要一个 JobConf 做为参数，相似于一个配置项，主要须要指定输出的格式和输出的表名。blog

Step 1：咱们须要先建立一个 JobConf。开发

读取 HBaseget

Spark读取HBase，咱们主要使用?提供的API将表的内容以 RDDs 的形式加载到 Spark 中。配置

完整的demo，能够关注公众号输入hbase获取。object

文章来源：https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80997723