【spark】链接Hbase

时间 2019-12-01

标签 spark 链接 hbase 栏目 Spark 繁體版

原文原文链接

0.咱们有这样一个表，表名为Studentjava

1.在Hbase中建立一个表sql

代表为student，列族为infoapache

2.插入数据编程

咱们这里采用put来插入数据ide

格式以下 put ‘表命’，‘行键’，‘列族：列’，‘值’ oop

咱们知道Hbase 四个键肯定一个值，spa

通常查询的时候咱们须要提供表名、行键、列族：列名、时间戳才会有一个肯定的值。命令行

可是这里插入的时候，时间戳自动被生成，咱们并不用额外操做。3d

咱们不用表的时候能够这样删除orm

注意，必定要先disable 再drop，不能像RDMS同样直接drop

3.配置spark

咱们须要把Hbase的lib目录下的一些jar文件拷贝到Spark中，这些都是编程中须要引进的jar包。

须要拷贝的jar包包括：全部hbase开头的jar文件、guava-12.0.1.jar、htrace-core-3.1.0-incubating.jar和protobuf-java-2.5.0.jar

咱们将文件拷贝到Spark目录下的jars文件中

4.编写程序

（1）读取数据

咱们程序中须要的jar包以下

咱们这里使用Maven来导入相关jar包

咱们须要导入hadoop和spark相关的jar包

spark方面须要导入的依赖

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>${spark.version}</version>
</dependency>
<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-sql_2.11</artifactId>
  <version>${spark.version}</version>
</dependency>
<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-streaming_2.11</artifactId>
  <version>${spark.version}</version>
  <scope>provided</scope>
</dependency>

hadoop方面须要导入的依赖

<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-client</artifactId>
  <version>${hadoop.version}</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
  <version>${hadoop.version}</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-hdfs</artifactId>
  <version>${hadoop.version}</version>
</dependency>

hbase方面须要导入的依赖

<dependency>
  <groupId>org.apache.hbase</groupId>
  <artifactId>hbase-client</artifactId>
  <version>${hbase.version}</version>
</dependency>
<dependency>
  <groupId>org.apache.hbase</groupId>
  <artifactId>hbase-server</artifactId>
  <version>${hbase.version}</version>
</dependency>

咱们使用的org.apache.hadoop.hbase.mapreduce是经过hbase-server导入的。

具体的程序以下

import org.apache.hadoop.hbase._
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.{SparkConf, SparkContext}
object SparkOperateHbase{
    def main(args:Array[String]): Unit ={
        //创建Hbase的链接
        val conf = HBaseConfiguration.create();
        //设置查询的表名student
        conf.set(TableInputFormat.INPUT_TABLE,"student")
        //经过SparkContext将student表中数据建立一个rdd
        val sc = new SparkContext(new SparkConf());
        val stuRdd = sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],
            classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
            classOf[org.apache.hadoop.hbase.client.Result]);
        stuRdd.cache();//持久化
        //计算数据条数
        val count = stuRdd.count();
        println("Student rdd count:"+count);
        //遍历输出
        //当咱们创建Rdd的时候，前边所有是参数信息，后边的result才是保存数据的数据集
        stuRdd.foreach({case (_,result) =>
            //经过result.getRow来获取行键
            val key = Bytes.toString(result.getRow);
            //经过result.getValue("列族"，"列名")来获取值
            //注意这里须要使用getBytes将字符流转化成字节流
            val name = Bytes.toString(result.getValue("info".getBytes,"name".getBytes));
            val gender = Bytes.toString(result.getValue("info".getBytes,"gender".getBytes));
            val age = Bytes.toString(result.getValue("info".getBytes,"age".getBytes));
            //打印结果
            println("Row key:"+key+" Name:"+name+" Gender:"+gender+" Age:"+age);
        });
    }
}

（2）存入数据

import org.apache.hadoop.hbase.client.{Put, Result}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.{TableInputFormat, TableOutputFormat}
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.{SparkConf, SparkContext}
object HbasePut{
    def main(args:Array[String]): Unit = {
        //创建sparkcontext
        val sparkConf = new SparkConf().setAppName("HbasePut").setMaster("local")
        val sc = new SparkContext(sparkConf)
        //与hbase的student表创建链接
        val tableName = "student"
        sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE,tableName)
        //创建任务job
        val job = new Job(sc.hadoopConfiguration)
        //配置job参数
        job.setOutputKeyClass(classOf[ImmutableBytesWritable])
        job.setOutputValueClass(classOf[Result])
        job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])
        //要插入的数据，这里的makeRDD是parallelize的扩展版
        val indataRdd = sc.makeRDD(Array("3,zhang,M,26","4,yue,M,27"))
        val rdd = indataRdd.map(_.split(",")).map(arr=>{
            val put = new Put(Bytes.toBytes(arr(0))) //行键的值
            //依次给列族info的列添加值
            put.add(Bytes.toBytes("info"),Bytes.toBytes("name"),Bytes.toBytes(arr(1)))
            put.add(Bytes.toBytes("info"),Bytes.toBytes("gender"),Bytes.toBytes(arr(2)))
            put.add(Bytes.toBytes("info"),Bytes.toBytes("age"),Bytes.toBytes(arr(3)))
            //必须有这两个返回值，put为要传入的数据
            (new ImmutableBytesWritable,put)
        })
        rdd.saveAsNewAPIHadoopDataset(job.getConfiguration)
    }
}

5.Maven打包

咱们用命令行打开到项目的根目录，输入mvn clean package -DskipTests=true

打包成功后咱们到项目目录下的target文件下就会找到相应的jar包

6.提交任务