实战kudu集成impala

时间 2020-01-22

标签实战 kudu 集成 impala 栏目 Hadoop 繁體版

原文原文链接

impala基本介绍

　　impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具，shell

　　impala是参照谷歌的新三篇论文（Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具）当中的Dremel实现而来，其中旧三篇论文分别是（BigTable，GFS，MapReduce）分别对应咱们即将学的HBase和已经学过的HDFS以及MapReduce。数据库

　　impala是基于hive并使用内存进行计算，兼顾数据仓库，具备实时，批处理，多并发等优势缓存

　　Kudu与Apache Impala （孵化）紧密集成，impala自然就支持兼容kudu，容许开发人员使用Impala的SQL语法从Kudu的tablets 插入，查询，更新和删除数据；网络

impala的架构以及查询计划

Impalad
- 基本是每一个DataNode上都会启动一个Impalad进程，Impalad主要扮演两个角色：
  - Coordinator：
    - 负责接收客户端发来的查询，解析查询，构建查询计划
    - 把查询子任务分发给不少Executor，收集Executor返回的结果，组合后返回给客户端
    - 对于客户端发送来的DDL，提交给Catalogd处理
  - Executor：
    - 执行查询子任务，将子任务结果返回给Coordinator
Catalogd
- 整个集群只有一个Catalogd，负责全部元数据的更新和获取
StateStored
- 整个集群只有一个Statestored，做为集群的订阅中心，负责集群不一样组件的信息同步
- 跟踪集群中的Impalad的健康状态及位置信息，由statestored进程表示，它经过建立多个线程来处理Impalad的注册订阅和与各Impalad保持心跳链接，各Impalad都会缓存一份State Store中的信息，当State Store离线后（Impalad发现State Store处于离线时，会进入recovery模式，反复注册，当State Store从新加入集群后，自动恢复正常，更新缓存数据）由于Impalad有State Store的缓存仍然能够工做，但会由于有些Impalad失效了，而已缓存数据没法更新，致使把执行计划分配给了失效的Impalad，致使查询失败。

使用impala操做kudu整合

一、须要先启动hdfs、hive、kudu、impala架构

二、使用impala的shell控制台并发

执行命令impala-shell

(1):使用该impala-shell命令启动Impala Shell 。默认状况下，impala-shell 尝试链接到localhost端口21000 上的Impala守护程序。要链接到其余主机，请使用该-i <host:port>选项。要自动链接到特定的Impala数据库，请使用该-d <database>选项。例如，若是您的全部Kudu表都位于数据库中的Impala中impala_kudu，则-d impala_kudu可使用此数据库。
(2)：要退出Impala Shell，请使用如下命令： quit;

建立kudu表

内部表由Impala管理，当您从Impala中删除时，数据和表确实被删除。当您使用Impala建立新表时，它一般是内部表。

使用impala建立内部表：

CREATE TABLE my_first_table
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
TBLPROPERTIES (
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051',
'kudu.table_name' = 'my_first_table'
);

在 CREATETABLE 语句中，必须首先列出构成主键的列。

此时建立的表是内部表，从impala删除表的时候，在底层存储的kudu也会删除表。
```
drop table if exists my_first_table；
```

外部表

外部表（建立者CREATE EXTERNAL TABLE）不受Impala管理，而且删除此表不会将表从其源位置（此处为Kudu）丢弃。相反，它只会去除Impala和Kudu之间的映射。这是Kudu提供的用于将现有表映射到Impala的语法。

使用java建立一个kudu表：

public class CreateTable {

private static ColumnSchema newColumn(String name, Type type, boolean iskey) {

ColumnSchema.ColumnSchemaBuilder column = new

ColumnSchema.ColumnSchemaBuilder(name, type);

column.key(iskey);

return column.build();

}

public static void main(String[] args) throws KuduException {

// master地址

final String masteraddr = "node1,node2,node3";

// 建立kudu的数据库连接

KuduClient client = new

KuduClient.KuduClientBuilder(masteraddr).defaultSocketReadTimeoutMs(6000).build();

 

// 设置表的schema

List<ColumnSchema> columns = new LinkedList<ColumnSchema>();

columns.add(newColumn("CompanyId", Type.INT32, true));

columns.add(newColumn("WorkId", Type.INT32, false));

columns.add(newColumn("Name", Type.STRING, false));

columns.add(newColumn("Gender", Type.STRING, false));

columns.add(newColumn("Photo", Type.STRING, false));

Schema schema = new Schema(columns);

//建立表时提供的全部选项

CreateTableOptions options = new CreateTableOptions();

 

// 设置表的replica备份和分区规则

List<String> parcols = new LinkedList<String>();

 

parcols.add("CompanyId");

//设置表的备份数

options.setNumReplicas(1);

//设置range分区

options.setRangePartitionColumns(parcols);

 

//设置hash分区和数量

options.addHashPartitions(parcols, 3);

try {

client.createTable("person", schema, options);

} catch (KuduException e) {

e.printStackTrace();

}

client.close();

}

}

在kudu的页面上能够观察到以下信息：

在impala的命令行查看表:

当前在impala中并无person这个表

使用impala建立外部表，将kudu的表映射到impala上：

在impala-shell执行

CREATE EXTERNAL TABLE `person` STORED AS KUDU
TBLPROPERTIES(
'kudu.table_name' = 'person',
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051')

使用impala对kudu进行DML操做

将数据插入 Kudu 表

impala 容许使用标准 SQL 语句将数据插入 Kudu

插入单个值

建立表

CREATE TABLE my_first_table
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;

此示例插入单个行

INSERT INTO my_first_table VALUES (50, "zhangsan");

查看数据

select * from my_first_table

使用单个语句插入三行

INSERT INTO my_first_table VALUES (1, "john"), (2, "jane"), (3, "jim");

批量插入Batch Insert

从 Impala 和 Kudu 的角度来看，一般表现最好的方法一般是使用 Impala 中的 SELECT FROM 语句导入数据

INSERT INTO my_first_table
SELECT * FROM temp1;

更新数据

UPDATE my_first_table SET name="xiaowang" where id =1 ;

删除数据

delete from my_first_table where id =2;

更改表属性

开发人员能够经过更改表的属性来更改 Impala 与给定 Kudu 表相关的元数据。这些属性包括表名， Kudu 主地址列表，以及表是否由 Impala （内部）或外部管理。

Rename an Impala Mapping Table ( 重命名 Impala 映射表 )

ALTER TABLE PERSON RENAME TO person_temp;

Rename the underlying Kudu table for an internal table ( 从新命名内部表的基础 Kudu 表 )

建立内部表：

CREATE TABLE kudu_student
(
CompanyId INT,
WorkId INT,
Name STRING,
Gender STRING,
Photo STRING,
PRIMARY KEY(CompanyId)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
TBLPROPERTIES (
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051',
'kudu.table_name' = 'student'
);

若是表是内部表，则能够经过更改 kudu.table_name 属性重命名底层的 Kudu 表

ALTER TABLE kudu_student SET TBLPROPERTIES('kudu.table_name' = 'new_student');

Remapping an external table to a different Kudu table ( 将外部表从新映射到不一样的 Kudu 表 )

若是用户在使用过程当中发现其余应用程序从新命名了kudu表，那么此时的外部表须要从新映射到kudu上

建立一个外部表：

CREATE EXTERNAL TABLE external_table
STORED AS KUDU
TBLPROPERTIES (
'kudu.master_addresses' = 'node1:7051,node2:7051,node3:7051',
'kudu.table_name' = 'person'
);

从新映射外部表，指向不一样的kudu表：

ALTER TABLE external_table
SET TBLPROPERTIES('kudu.table_name' = 'hashTable')

上面的操做是：将external_table映射的PERSON表从新指向hashTable表

Change the Kudu Master Address ( 更改 Kudu Master 地址 )

ALTER TABLE my_table

SET TBLPROPERTIES('kudu.master_addresses' = 'kudu-new-master.example.com:7051');

Change an Internally-Managed Table to External ( 将内部管理的表更改成外部 )

ALTER TABLE my_table SET TBLPROPERTIES('EXTERNAL' = 'TRUE');