本文首先发布在: http://leanote.com/blog/view/539276d41a91080a06000002 java
本文做者系 leanote 的核心开发者, 多谢关注leanote. leanote官网, leanote githubpython
举个例子,git
当年没有数据库的时候, 人们经过编程来操做文件系统, 这至关于咱们编写mapreduce来分析数据.github
后来有了数据库, 没人再操做文件系统了(除非有其它需求), 而是直接使用sql再加一些数据的处理. 这就至关于 hive + python了sql
hive + python能解决大多的需求, 除非你的数据是非结构化数据, 此时你就回到了远古时代不得不写mapreduce了.数据库
而为何不使用hive+java, hive+c, hive+...编程
由于:机器学习
python真是太好用了, 脚本语言, 无需编译, 有强大的机器学习库, 适合科学计算(这就是数据分析啊!!)函数
hive与python的分工: 使用hive sql做为python的数据源, python的输出做为map的输出, 再使用hive的聚合函数做为reduce.学习
下面使用一个例子来分析: 统计每一个人在某日期人下吃的各类食品的数量
hive> create table user_foods (user_id string, food_type string, datetime string ) partitioned by(dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE # partitioned by(dt string) 以日期分区 # 以\n分隔, 字段与字段间以\t分隔.
根据业务须要, 由于是按天来统计, 为减小分析时的数据量, 上述hive表以dt(日期)为分区.
建立Hive表后, 会在HDFS /hive/目录下建立一个与表名同名的文件夹
hive> ALTER TABLE user_foods ADD PARTITION(dt='2014-06-07');
建立分区后, hdfs目录/hive/user_foods/下多了一个df='2014-06-07'的目录
建立一个文件如data.txt, 加入测试数据
user_1 food1 2014-06-07 09:00 user_1 food1 2014-06-07 09:02 user_1 food2 2014-06-07 09:00 user_2 food2 2014-06-07 09:00 user_2 food23 2014-06-07 09:00
hive> LOAD DATA LOCAL INPATH '/Users/life/Desktop/data.txt' OVERWRITE INTO TABLE user_foods PARTITION(dt='2014-06-07');
导入成功后, 使用select * from user_foods查看下.
或使用
hive> select * from user_foods where user_id='user_1'
这会生成一个mapreduce
"统计每一个人在某日期人下吃的各类食品的数量" 太过简单, 不须要python就可实现:
hive> select user_id, food_type, count(*) from user_foods where dt='2014-06-07' group by user_id, food_type;
结果:
若是须要对数据清洗或更进一步处理, 那么确定须要自定义map, 这就可使用python来实现了.
好比food2与food23认为是同一类型食品, 此时利用python进行数据清洗, python的脚本以下: (m.py)
#!/usr/bin/env python #encoding=utf-8 import sys if __name__=="__main__": # 解析每一行数据 for line in sys.stdin: # 略过空行 if not line or not line.strip(): continue # 这里用try 避免特殊行解析错误致使所有出错 try: userId, foodType, dt = line.strip().split("\t") except: continue # 清洗数据, 空数据略过 if userId == '' or foodType == '': continue # 清洗数据 if(foodType == "food23"): foodType = "food2" # 输出, 以\t分隔, 即map的输出 print userId + "\t" + foodType
再使用hql结合python脚原本分析, 有如下两步.
1. 加入python脚本, 至关于将脚本加入到 distributed cache
2. 执行, 使用transform和using
hive> add file /Users/life/Desktop/m.py; hive> select user_id, food_type, count(*) from ( select transform (user_id, food_type, datetime) using 'python m.py' as (user_id, food_type) from user_foods where dt='2014-06-07' ) tmp group by user_id, food_type;
结果:
1. 首先保证脚本没有语法错误, 能够执行python m.py来验证
2. 确保代码没有其它输出
3. 可使用测试数据来测试脚本, 好比:
$> cat data.txt | python m.py user_1 food1 user_1 food1 user_1 food2 user_2 food2 user_2 food2
1, 2, 3都正确后, 若是再使用hive+python有错误, 可能的错误有:
1. python脚本对数据的处理不健壮, 有些边界条件没有考虑, 致使python出现exception
2. 本身总结吧...
上面这个例子的python脚本充当map的角色, 固然也能够再创建一个reduce.py来统计map的输出而不使用hive的聚合函数.
这是创建在hive已不能知足你的需求之上的.