Hive自定义UDF和聚合函数UDAF

       Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce做业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有告终构,元数据即表的模式,都存储在名为metastore的数据库中。java

       能够在hive的外壳环境中直接使用dfs访问hadoop的文件系统命令。数据库

       Hive能够容许用户编写本身定义的函数UDF,来在查询中使用。Hive中有3种UDF:apache

       UDF:操做单个数据行,产生单个数据行;ide

       UDAF:操做多个数据行,产生一个数据行。函数

       UDTF:操做一个数据行,产生多个数据行一个表做为输出。oop

      用户构建的UDF使用过程以下:lua

      第一步:继承UDF或者UDAF或者UDTF,实现特定的方法。spa

      第二步:将写好的类打包为jar。如hivefirst.jar.对象

      第三步:进入到Hive外壳环境中,利用add jar /home/hadoop/hivefirst.jar.注册该jar文件继承

      第四步:为该类起一个别名,create temporary function mylength as 'com.whut.StringLength';这里注意UDF只是为这个Hive会话临时定义的。

      第五步:在select中使用mylength();


自定义UDF

package whut;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
//UDF是做用于单个数据行,产生一个数据行
//用户必需要继承UDF,且必须至少实现一个evalute方法,该方法并不在UDF中
//可是Hive会检查用户的UDF是否拥有一个evalute方法
public class Strip extends UDF{
    private Text result=new Text();
    //自定义方法
    public Text evaluate(Text str)
    {
      if(str==null)
        return null;
        result.set(StringUtils.strip(str.toString()));
        return result;
    }
    public Text evaluate(Text str,String stripChars)
    {
        if(str==null)
            return null;
        result.set(StringUtils.strip(str.toString(),stripChars));
        return result;
    }
}

注意事项:

   1,一个用户UDF必须继承org.apache.hadoop.hive.ql.exec.UDF;

   2,一个UDF必需要包含有evaluate()方法,可是该方法并不存在于UDF中。evaluate的参数个数以及类型都是用户本身定义的。在使用的时候,Hive会调用UDF的evaluate()方法。


自定义UDAF

该UDAF主要是找到最大值

package whut;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.hadoop.io.IntWritable;
//UDAF是输入多个数据行,产生一个数据行
//用户自定义的UDAF必须是继承了UDAF,且内部包含多个实现了exec的静态类
public class MaxiNumber extends UDAF{
    public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator{
        //最终结果
        private IntWritable result;
        //负责初始化计算函数并设置它的内部状态,result是存放最终结果的
        @Override
        public void init() {
            result=null;
        }
        //每次对一个新值进行汇集计算都会调用iterate方法
        public boolean iterate(IntWritable value)
        {
            if(value==null)
                return false;
            if(result==null)
              result=new IntWritable(value.get());
            else
              result.set(Math.max(result.get(), value.get()));
            return true;
        }
                                                                                                                                 
        //Hive须要部分汇集结果的时候会调用该方法
        //会返回一个封装了汇集计算当前状态的对象
        public IntWritable terminatePartial()
        {
            return result;
        }
        //合并两个部分汇集值会调用这个方法
        public boolean merge(IntWritable other)
        {
            return iterate(other);
        }
        //Hive须要最终汇集结果时候会调用该方法
        public IntWritable terminate()
        {
            return result;
        }
    }
}

注意事项:

    1,用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF;

    2,用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec的静态类,诸如常见的实现了 UDAFEvaluator。

    3,一个计算函数必须实现的5个方法的具体含义以下:

    init():主要是负责初始化计算函数而且重设其内部状态,通常就是重设其内部字段。通常在静态类中定义一个内部字段来存放最终的结果。

   iterate():每一次对一个新值进行汇集计算时候都会调用该方法,计算函数会根据汇集计算结果更新内部状态。当输入值合法或者正确计算了,则就返回true。

   terminatePartial():Hive须要部分汇集结果的时候会调用该方法,必需要返回一个封装了汇集计算当前状态的对象。

   merge():Hive进行合并一个部分汇集和另外一个部分汇集的时候会调用该方法。

   terminate():Hive最终汇集结果的时候就会调用该方法。计算函数须要把状态做为一个值返回给用户。

  4,部分汇集结果的数据类型和最终结果的数据类型能够不一样。

相关文章
相关标签/搜索