如何配置Kettle集群运行环境

Kettle是一款开源的ETL工具,以其高效和可扩展性而闻名于业内。其高效的一个重要缘由就是其多线程和集群功能。 Kettle的多线程采用的是一种流水线并发的机制,咱们在另外的文章中专门有介绍。这里主要介绍的是kettle .


Kettle是一款开源的ETL工具,以其高效和可扩展性而闻名于业内。其高效的一个重要缘由就是其多线程和集群功能。 linux

Kettle的多线程采用的是一种流水线并发的机制,咱们在另外的文章中专门有介绍。这里主要介绍的是kettle的集群。 web

   集群容许转换以及转换中的步骤在多个服务器上并发执行。在使用kettle集群时,首先须要定义的是Cluster schema。所谓的Cluster schema就是一系列的子服务器的集合。在一个集群中,它包含一个主服务器(Master)和多个从属服务器服务器(slave)。以下图所示: 正则表达式


子服务器(Slave servers)容许你在远程服务器上执行转换。创建一个子服务器须要你在远程服务器上创建一个叫作“Carte”的 web 服务器,该服务器能够从Spoon(远程或者集群执行)或者转换任务中接受输入。 算法

在之后的描述中,若是咱们提到的是子服务器,则包括集群中的主服务器和从属服务器;不然咱们会以主服务器和从属服务器来进行特别指定。 shell

  

选项 描述
服务器名称
子服务器的名称
主机名称或IP地址
用做子服务器的机器的地址
端口号
与远程服务通讯的端口号
用户名
获取远程服务器的用户名
密码
获取远程服务器的密码
是主服务器吗
在转换以集群形式执行时,该子服务器将做为

注意: 在集群环境下执行转化时,你必须有一个子服务器做为主服务器(master server)而其他全部的子服务器都做从属服务器(slave server)

 

选项 描述
代理服务器主机名
设置你要经过代理进行链接的主机名
代理服务器端口
设置与代理进行链接时所需的端口号
Ignore proxy for hosts: regexp|separated
指定哪些服务器不须要经过代理来进行链接。该选项支持你使用正则表达式来制定多个服务器,多个服务器之间以' | ' 字符来进行分割  


建立cluster schema

选项 描述
Schema 名称
集群schema的名称
端口号

这里定义的端口号是指从哪个端口号开始分配给子服务器。每个在子服务器中执行的步骤都要消耗一端口号。注意: 确保没有别的网络协议会使用你定义的范围之类的端口,不然会引发问题 缓存


Sockets缓存大小
TCP内部缓存的大小
Sockets刷新间隔(rows)
TCP的内部缓存经过网络彻底发送出去而且被清空时处理的行数
Sockets数据是否压缩
若是该选项被选中,则全部的数据都会使用Gzip压缩算法进行压缩以减轻网络传输量
Dynamic Cluster

动态集群指的是在运行的时候才能获知从属服务器的信息。这种情形适用于主机能够自动增长或者去除的情形,例如云计算。 服务器

主服务器的设置不变,可是它能够接受从属服务器的注册。一旦接受了某个从属服务器的注册,则每隔30秒去监视该从属服务器是否还处于有效状态 网络


子服务器

这里是一个要在集群中使用的服务器列表。这个列表中包含一个主服务器和任意数目的从属服务器。 多线程

在dynamic Cluster的状况下,只须要选择主服务器便可 并发



 


 定义转换

    定义完了 cluster schema 后,下一步就是定义在集群环境下执行的转换。咱们这里展示的只是一个最简单的例子,彻底是为了演示而用。现实状况中的集群有可能很是复杂。

首先你像平时同样建立转换,以hop链接连个两个步骤。而后你指定第二个步骤将在集群下执行


而后选择须要使用的集群。转换如图同样显示在GUI中。

注意 Cx4显示这个步骤将在集群中运行,而这个集群中有4个从属服务器。假设咱们将计算结果再次存入到数据表中

    这个转换虽然定义了集群,可是咱们一样可让它在单机环境下执行,并且能够获得相同的结果。这意味着你可使用普通的本地模式来测试它。


执行转换

    要想以集群方式来运行转换或者做业,首先须要启动在Cluster  schema中定义的主服务器和从属服务器,而后再运行转换或者做业。

启动子服务器

     子服务器实际上是一个嵌入式的名为 Carte web server。要进行集群转换,首先须要启动cluster schema中的子服务器


脚本启动

      kettle 提供了 carte.bat carte.sh linux )批处理脚原本启动子服务器,这种启动方式分为两种



使用主机号和端口号


Carte 127.0.0.1 8080
Carte 192.168.1.221 8081


使用配置文件

Carte  /foo/bar/carte-config.xml
Carte http://www.example.com/carte-config.xml
相关文章
相关标签/搜索