先前一直使用的是postgresql,由于网速的缘由,因此打算将数据统一放到HDFS上,可是一条一条写HDFS是很慢的,所有写到本地文件再传到HDFS上也是同样慢,这样一来就有了本文,将部分先放到内存数据库中,而后再写到HDFS上,这样数据抽取和写入的速度一下翻了好几倍!好了,说说怎么在kettle中使用H2html
先去下载H2,点击下载
java
我测试的时候下的是windows版本,解压后,执行h2/bin/h2.bat,执行成功后,会打开下图的界面sql
红框中的内容输入什么见下面代码数据库
Database URLs Embedded //嵌入式 jdbc:h2:~/test 'test' in the user home directory jdbc:h2:/data/test 'test' in the directory /data jdbc:h2:test in the current(!) working directory In-Memory //内存式 jdbc:h2:mem:test multiple connections in one process jdbc:h2:mem: unnamed private; one connection Server Mode //服务器模式 jdbc:h2:tcp://localhost/~/test user home dir jdbc:h2:tcp://localhost//data/test absolute dir Server start:java -cp *.jar org.h2.tools.Server Settings //配制模式(这个我很少用) jdbc:h2:..;MODE=MySQL compatibility (or HSQLDB,...) jdbc:h2:..;TRACE_LEVEL_FILE=3 log to *.trace.db
我先试用的是内存模式,可是试了之后才发现,H2支持的场景对我不适用,由于内存模式,要求全部的连接都在一个进程内,这对于kettle来讲是不现实的,若是非要用,那只能将建立表的语句,和使用表的模块放到一个transform中,以下图windows
看到了,最上面的图标是建表语句,下面的是往表中插入数据,必须这样使用,放到JOB中无效,只能在一个transform中,好了,看下图看看咱们怎么用kettle链接内存模式的H2服务器
以上这两种方式均可以链接到内存模式的H2,选择一种使用便可。tcp
下面说说适合我场景的嵌入式模式post
先看链接方式,只能这样链接测试
使用嵌入式模式的好处是,建立表的模块和入库的模块能够在两个不一样的transform中,由于嵌入式的模式是将数据写到默认的硬盘上了,好了就先写到这儿了,快去试试,有啥问题,直接留言。
postgresql