【Kettle】Kettle入门解析(二)

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

(图片来源于网络,侵删)


Kettle实战1(将Hive表的数据输出到Hdfs)

【1】环境准备

1)进入Kettle的plugins\pentaho-big-data-plugin目录,编辑plugin.properties文件

根据本身的hadoop版本添加不一样的类型,个人是cdh的,因此添加cdh514
在这里插入图片描述
有哪些版本能够在该目录下查看
plugins\pentaho-big-data-plugin\hadoop-configurations
在这里插入图片描述web

2)修改完成后进入本身对应的版本,个人是cdh514,因此进入plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514目录

将集群的Hadoop、Hive配置复制到该目录中
分别是core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlhive-site.xml
在这里插入图片描述apache

3)而后启动Kettle!!!

注意: 若是在链接Hive的时候报错Error connecting to database: (using class org.apache.hive.jdbc.HiveDriver) Illegal Hadoop Version: Unknown (expected A.B.* format),就将本身hadoop对应版本的hadoop-common.jar(个人是hadoop-common-2.6.0-cdh5.14.0.jar)放到根目录的 lib目录下,而后重启Kettle便可!网络

【2】在Hive中建立库表

前提:开启HDFS、Yarn、HiveMetaStore、HiveServer2
1)建立Kettle库
create database kettle;
use kettle;
2)建立Emp、Dept表
CREATE TABLE dept(deptno int, dname string,loc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
CREATE TABLE emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm int,
deptno int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
3)插入数据
insert into dept values
(10,'accounting','NEW YORK'),
(20,'RESEARCH','DALLAS'),
(30,'SALES','CHICAGO'),
(40,'OPERATIONS','BOSTON');
insert into emp values
(7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20),
(7499,'ALLEN','SALESMAN',7698,'1980-12-17',1600,300,30),
(7521,'WARD','SALESMAN',7698,'1980-12-17',1250,500,30),
(7566,'JONES','MANAGER',7839,'1980-12-17',2975,NULL,20);
4)Kettle实战

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

注意,虽然这里报了错,可是HDFS上已经生成了该文件,须要把HDFS上的空文件删除

从新执行以后结果以下👇

在这里插入图片描述
在这里插入图片描述


Kettle实战2(将Json数据选取指定列输出到Hdfs)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

查看结果👇

在这里插入图片描述


都看到这里了,点赞评论一下吧!!!

在这里插入图片描述

点击查看👇

【Kettle】Kettle入门解析(三)