[toc]mysql
其实并不难,就是使用sqoop定时从MySQL中导入到HDFS中,主要是sqoop命令的使用和Linux脚本的操做这些知识。sql
在咱们的场景中,须要天天将数据库中新增的用户数据采集到HDFS中,数据库中有time字段, 用以标识该用户信息录入数据库的时间,因此下面的数据导入操做也是依赖于这个字段。
在MySQL数据库中准备以下数据:shell
##构建sql的操做 create DATABASE IF NOT EXISTS db_log_statics; use db_log_statics; CREATE TABLE `t_user_info` ( `id` bigint(20) NOT NULL, `name` varchar(20) COLLATE utf8_bin DEFAULT NULL, `address` varchar(20) COLLATE utf8_bin DEFAULT NULL, `time` date DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin; insert into `t_user_info` (`id`, `name`, `address`, `time`) values('1','张三','北京朝阳','2018-04-05'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('2','李四','河南洛阳','2018-04-05'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('3','王五','广东邵阳','2018-04-05'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('4','赵六','山东德州','2018-04-07'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('5','周七','山东青岛','2018-04-07'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('6','魏八','福建厦门','2018-04-07'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('7','王二麻子','山西五台山','2018-04-06'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('8','王大锤','陕西榆林','2018-04-06'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('9','燕小六','云南大理','2018-04-06'); insert into `t_user_info` (`id`, `name`, `address`, `time`) values('10','雷布斯','湖北仙桃','2018-04-06');
#!/bin/env bash # shell中引用外部文件的变量 source /home/uplooking/shells/db-mysql.conf # source 系统的环境变量 source ~/.bash_profile # 日期变量 today=`date +%Y-%m-%d` yesterday=`date -d"1 day ago" +%Y-%m-%d` /home/uplooking/app/sqoop/bin/sqoop import \ --connect jdbc:mysql://${stat_ipaddr}:${stat_port}/${stat_dbname} \ --username ${stat_uname} \ --password ${stat_upwd} \ --target-dir hdfs://ns1/input/t_user/${yesterday} \ --query "SELECT id, name, address, time FROM t_user_info WHERE time >='${yesterday}' AND time < '${today}' AND \$CONDITIONS" \ -m 1 --fields-terminated-by "," --split-by ","
#统计库数据库ip地址 stat_ipaddr=192.168.43.116 #统计库端口 stat_port=3306 #统计库名称 stat_dbname=db_log_statics #统计库用户名 stat_uname=root #统计库密码 stat_upwd=root
crontab -e # 要求天天凌晨2点10分同步数据 10 2 * * * /bin/bash /home/uplooking/shells/exportUser2HDFS.sh >/dev/null 2>&1 &
须要注意的是,若是在Notepad++中远程编辑shell脚本文件,在Linux中是没法执行的,缘由为,此时在Linux中用vim查看文件格式:set ff,会发现为:fileformat=dos,而正常咱们在Linux中编辑的文件应该为:fileformat=unix,因此解决方案为:set ff=unix数据库