hive transform函数介绍

hive 提供了经过脚本定制 mapper 和 reducer 的功能,这一功能须要用到 transform 函数。python

默认状况下, transform 函数中带入的参数会被用 '\t 分隔开,而且以字符串对方式传入到用户脚本中。输入中 NULL 值会被转换成字符串 '\N'。脚本的输出使用的分隔符也是 '\t',同时 '\N' 会再次被转化为 NULL。须要注意的是,当 transform 当参数中含有 '\t' 的时候,用户须要手动处理这些 '\t' 以避免脚本里面出错。这里是一个使用样例:shell

FROM (
  FROM pv_users
  TRANSFORM(pv_users.userid, pv_users.date)
  USING 'map_script'
  AS dt, uid
  CLUSTER BY dt) map_output
INSERT OVERWRITE TABLE pv_users_reduced
  TRANSFORM(map_output.dt, map_output.uid)
  USING 'reduce_script'
  AS date, count;

'map_script' 的输出,使用 '\t' 分割开之后,对应到 dt 和 uid 两个字段。默认状况下,若是不指定类型,默认认为是 string 类型的。app

这样一来,就经过脚本(shell、python等)实现了UDF的功能。函数

相关文章
相关标签/搜索