使用Sqoop实现HDFS与Mysql互转

时间 2019-11-07

标签使用 sqoop 实现 hdfs mysql 栏目 Hadoop 繁體版

原文原文链接

简介

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，能够将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中，也能够将HDFS的数据导入到关系型数据库中。 html

http://sqoop.apache.org/ java

环境

当调试过程出现IncompatibleClassChangeError通常都是版本兼容问题。 mysql

为了保证hadoop和sqoop版本的兼容性，使用Cloudera， sql

Cloudera简介：数据库

Cloudera为了让Hadoop的配置标准化，能够帮助企业安装，配置，运行hadoop以达到大规模企业数据的处理和分析。 apache

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH4-Downloadable-Tarballs/CDH4-Downloadable-Tarballs.html ide

下载安装hadoop-0.20.2-cdh3u6，sqoop-1.3.0-cdh3u6。工具

目的

将mysql数据转换为hadoop文件，从而可使用map/reduce进行大数据的分析，而后再将分析结果转换回mysql，供业务查询调用。 oop

安装

安装比较简单，直接解压便可测试

惟一须要作的就是将mysql的jdbc适配包mysql-connector-java-5.0.7-bin.jar copy到$SQOOP_HOME/lib下。

配置好环境变量：/etc/profile

export SQOOP_HOME=/home/hadoop/sqoop-1.3.0-cdh3u6/

export PATH=$SQOOP_HOME/bin:$PATH

MYSQL转HDFS-示例

./sqoop import --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shop -m 1 --target-dir /user/recsys/input/shop/$today

输出数据：

./hadoop fs -cat /user/recsys/input/shop/2013-05-07/*

生成的hdfs数据

287,516809,0,0,6,25,45.78692,126.65384

288,523944,0,0,29,6,120.26087,30.17264

-------------------------------------------------------

HDFS转MYSQ-示例

./sqoop export --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shopassoc --fields-terminated-by ',' --export-dir /user/recsys/output/shop/$today

输入数据：

./hadoop fs -cat /user/recsys/output/shop/2013-05-07/*

Hdfs原始数据

null,857207,729974,947.0818,29,2013-05-08 10:22:29

null,857207,524022,1154.2603,29,2013-05-08 10:22:29

--------------------------------------------------------------------------

技巧

导出导入的数据与字段的顺序进行匹配

从HDFS转换回mysql 的时候，自动增加的主键字段处，能够留空

示例参数说明

参数类型	参数名	解释
公共	connect	Jdbc-url
公共	username	---
公共	password	---
公共	table	表名
Import	target-dir	制定输出hdfs目录，默认输出到/user/$loginName/
export	fields-terminated-by	Hdfs文件中的字段分割符，默认是“\t”
export	export-dir	hdfs文件的路径

导出大数据的拆分：

m	使用多少个并行导入，默认是1，未开启，数据量大的话会自动根据主键ID进行拆分
split-by	使用于没有主键的表的拆分，指定拆分的字段，拆分的原则是分布要普遍（自动拆分）
Where	同时能够手动执行屡次，经过where条件进行手动拆分

参数	解释
Job	定时做业, 我的以为没啥意义，一般我更相信crontab
eval	执行sql，远程进行一些操做，可是通过测试发现不支持 delete
create-hive-table	复制某一个数据源的数据存储到hive

其余命令请参考：http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html