Hive自定义UDF和聚合函数UDAF

时间 2020-03-05

标签 hive 自定义 udf 聚合函数 udaf 栏目 Hadoop 繁體版

原文原文链接

Hive是一种构建在Hadoop上的数据仓库，Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce做业，是MapReduce更高层次的抽象，不用编写具体的MapReduce方法。Hive将数据组织为表，这就使得HDFS上的数据有告终构，元数据即表的模式，都存储在名为metastore的数据库中。java

能够在hive的外壳环境中直接使用dfs访问hadoop的文件系统命令。数据库

Hive能够容许用户编写本身定义的函数UDF，来在查询中使用。Hive中有3种UDF：apache

UDF：操做单个数据行，产生单个数据行；ide

UDAF：操做多个数据行，产生一个数据行。函数

UDTF：操做一个数据行，产生多个数据行一个表做为输出。oop

用户构建的UDF使用过程以下：lua

第一步：继承UDF或者UDAF或者UDTF，实现特定的方法。spa

第二步：将写好的类打包为jar。如hivefirst.jar.对象

第三步：进入到Hive外壳环境中，利用add jar /home/hadoop/hivefirst.jar.注册该jar文件继承

第四步：为该类起一个别名，create temporary function mylength as 'com.whut.StringLength';这里注意UDF只是为这个Hive会话临时定义的。

第五步：在select中使用mylength();

自定义UDF

package whut;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
//UDF是做用于单个数据行，产生一个数据行
//用户必需要继承UDF，且必须至少实现一个evalute方法，该方法并不在UDF中
//可是Hive会检查用户的UDF是否拥有一个evalute方法
public class Strip extends UDF{
    private Text result=new Text();
    //自定义方法
    public Text evaluate(Text str)
    {
      if(str==null)
        return null;
        result.set(StringUtils.strip(str.toString()));
        return result;
    }
    public Text evaluate(Text str,String stripChars)
    {
        if(str==null)
            return null;
        result.set(StringUtils.strip(str.toString(),stripChars));
        return result;
    }
}

注意事项：

1，一个用户UDF必须继承org.apache.hadoop.hive.ql.exec.UDF;

2，一个UDF必需要包含有evaluate()方法，可是该方法并不存在于UDF中。evaluate的参数个数以及类型都是用户本身定义的。在使用的时候，Hive会调用UDF的evaluate()方法。

自定义UDAF

该UDAF主要是找到最大值

package whut;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.hadoop.io.IntWritable;
//UDAF是输入多个数据行，产生一个数据行
//用户自定义的UDAF必须是继承了UDAF，且内部包含多个实现了exec的静态类
public class MaxiNumber extends UDAF{
    public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator{
        //最终结果
        private IntWritable result;
        //负责初始化计算函数并设置它的内部状态，result是存放最终结果的
        @Override
        public void init() {
            result=null;
        }
        //每次对一个新值进行汇集计算都会调用iterate方法
        public boolean iterate(IntWritable value)
        {
            if(value==null)
                return false;
            if(result==null)
              result=new IntWritable(value.get());
            else
              result.set(Math.max(result.get(), value.get()));
            return true;
        }
                                                                                                                                 
        //Hive须要部分汇集结果的时候会调用该方法
        //会返回一个封装了汇集计算当前状态的对象
        public IntWritable terminatePartial()
        {
            return result;
        }
        //合并两个部分汇集值会调用这个方法
        public boolean merge(IntWritable other)
        {
            return iterate(other);
        }
        //Hive须要最终汇集结果时候会调用该方法
        public IntWritable terminate()
        {
            return result;
        }
    }
}

注意事项：

1，用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF；

2，用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec的静态类，诸如常见的实现了 UDAFEvaluator。

3，一个计算函数必须实现的5个方法的具体含义以下：

init()：主要是负责初始化计算函数而且重设其内部状态，通常就是重设其内部字段。通常在静态类中定义一个内部字段来存放最终的结果。

iterate()：每一次对一个新值进行汇集计算时候都会调用该方法，计算函数会根据汇集计算结果更新内部状态。当输入值合法或者正确计算了，则就返回true。

terminatePartial()：Hive须要部分汇集结果的时候会调用该方法，必需要返回一个封装了汇集计算当前状态的对象。

merge()：Hive进行合并一个部分汇集和另外一个部分汇集的时候会调用该方法。

terminate()：Hive最终汇集结果的时候就会调用该方法。计算函数须要把状态做为一个值返回给用户。

4，部分汇集结果的数据类型和最终结果的数据类型能够不一样。