Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,能够将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也能够将HDFS的数据导入到关系型数据库中。 html
当调试过程出现IncompatibleClassChangeError通常都是版本兼容问题。 mysql
为了保证hadoop和sqoop版本的兼容性,使用Cloudera, sql
Cloudera简介: 数据库
Cloudera为了让Hadoop的配置标准化,能够帮助企业安装,配置,运行hadoop以达到大规模企业数据的处理和分析。 apache
下载安装hadoop-0.20.2-cdh3u6,sqoop-1.3.0-cdh3u6。 工具
将mysql数据转换为hadoop文件,从而可使用map/reduce进行大数据的分析,而后再将分析结果转换回mysql,供业务查询调用。 oop
安装比较简单,直接解压便可 测试
惟一须要作的就是将mysql的jdbc适配包mysql-connector-java-5.0.7-bin.jar copy到$SQOOP_HOME/lib下。
配置好环境变量:/etc/profile
export SQOOP_HOME=/home/hadoop/sqoop-1.3.0-cdh3u6/
export PATH=$SQOOP_HOME/bin:$PATH
./sqoop import --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shop -m 1 --target-dir /user/recsys/input/shop/$today |
输出数据: ./hadoop fs -cat /user/recsys/input/shop/2013-05-07/* 生成的hdfs数据 287,516809,0,0,6,25,45.78692,126.65384 288,523944,0,0,29,6,120.26087,30.17264 ------------------------------------------------------- |
./sqoop export --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shopassoc --fields-terminated-by ',' --export-dir /user/recsys/output/shop/$today |
输入数据: ./hadoop fs -cat /user/recsys/output/shop/2013-05-07/* Hdfs原始数据 null,857207,729974,947.0818,29,2013-05-08 10:22:29 null,857207,524022,1154.2603,29,2013-05-08 10:22:29 -------------------------------------------------------------------------- |
参数类型 |
参数名 |
解释 |
公共 |
connect |
Jdbc-url |
公共 |
username |
--- |
公共 |
password |
--- |
公共 |
table |
表名 |
Import |
target-dir |
制定输出hdfs目录,默认输出到/user/$loginName/ |
export |
fields-terminated-by |
Hdfs文件中的字段分割符,默认是“\t” |
export |
export-dir |
hdfs文件的路径 |
导出大数据的拆分:
m |
使用多少个并行导入,默认是1,未开启,数据量大的话会自动根据主键ID进行拆分 |
split-by |
使用于没有主键的表的拆分,指定拆分的字段,拆分的原则是分布要普遍(自动拆分) |
Where |
同时能够手动执行屡次,经过where条件进行手动拆分 |
参数 |
解释 |
Job |
定时做业, 我的以为没啥意义,一般我更相信crontab |
eval |
执行sql,远程进行一些操做,可是通过测试发现不支持 delete |
create-hive-table |
复制某一个数据源的数据存储到hive |
其余命令请参考:http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html