Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce做业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有告终构,元数据即表的模式,都存储在名为metastore的数据库中。java
能够在hive的外壳环境中直接使用dfs访问hadoop的文件系统命令。数据库
Hive能够容许用户编写本身定义的函数UDF,来在查询中使用。Hive中有3种UDF:apache
UDF:操做单个数据行,产生单个数据行;ide
UDAF:操做多个数据行,产生一个数据行。函数
UDTF:操做一个数据行,产生多个数据行一个表做为输出。oop
用户构建的UDF使用过程以下:lua
第一步:继承UDF或者UDAF或者UDTF,实现特定的方法。spa
第二步:将写好的类打包为jar。如hivefirst.jar.对象
第三步:进入到Hive外壳环境中,利用add jar /home/hadoop/hivefirst.jar.注册该jar文件继承
第四步:为该类起一个别名,create temporary function mylength as 'com.whut.StringLength';这里注意UDF只是为这个Hive会话临时定义的。
第五步:在select中使用mylength();
自定义UDF
package whut; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; //UDF是做用于单个数据行,产生一个数据行 //用户必需要继承UDF,且必须至少实现一个evalute方法,该方法并不在UDF中 //可是Hive会检查用户的UDF是否拥有一个evalute方法 public class Strip extends UDF{ private Text result=new Text(); //自定义方法 public Text evaluate(Text str) { if(str==null) return null; result.set(StringUtils.strip(str.toString())); return result; } public Text evaluate(Text str,String stripChars) { if(str==null) return null; result.set(StringUtils.strip(str.toString(),stripChars)); return result; } }
注意事项:
1,一个用户UDF必须继承org.apache.hadoop.hive.ql.exec.UDF;
2,一个UDF必需要包含有evaluate()方法,可是该方法并不存在于UDF中。evaluate的参数个数以及类型都是用户本身定义的。在使用的时候,Hive会调用UDF的evaluate()方法。
自定义UDAF
该UDAF主要是找到最大值
package whut; import org.apache.hadoop.hive.ql.exec.UDAF; import org.apache.hadoop.hive.ql.exec.UDAFEvaluator; import org.apache.hadoop.io.IntWritable; //UDAF是输入多个数据行,产生一个数据行 //用户自定义的UDAF必须是继承了UDAF,且内部包含多个实现了exec的静态类 public class MaxiNumber extends UDAF{ public static class MaxiNumberIntUDAFEvaluator implements UDAFEvaluator{ //最终结果 private IntWritable result; //负责初始化计算函数并设置它的内部状态,result是存放最终结果的 @Override public void init() { result=null; } //每次对一个新值进行汇集计算都会调用iterate方法 public boolean iterate(IntWritable value) { if(value==null) return false; if(result==null) result=new IntWritable(value.get()); else result.set(Math.max(result.get(), value.get())); return true; } //Hive须要部分汇集结果的时候会调用该方法 //会返回一个封装了汇集计算当前状态的对象 public IntWritable terminatePartial() { return result; } //合并两个部分汇集值会调用这个方法 public boolean merge(IntWritable other) { return iterate(other); } //Hive须要最终汇集结果时候会调用该方法 public IntWritable terminate() { return result; } } }
注意事项:
1,用户的UDAF必须继承了org.apache.hadoop.hive.ql.exec.UDAF;
2,用户的UDAF必须包含至少一个实现了org.apache.hadoop.hive.ql.exec的静态类,诸如常见的实现了 UDAFEvaluator。
3,一个计算函数必须实现的5个方法的具体含义以下:
init():主要是负责初始化计算函数而且重设其内部状态,通常就是重设其内部字段。通常在静态类中定义一个内部字段来存放最终的结果。
iterate():每一次对一个新值进行汇集计算时候都会调用该方法,计算函数会根据汇集计算结果更新内部状态。当输入值合法或者正确计算了,则就返回true。
terminatePartial():Hive须要部分汇集结果的时候会调用该方法,必需要返回一个封装了汇集计算当前状态的对象。
merge():Hive进行合并一个部分汇集和另外一个部分汇集的时候会调用该方法。
terminate():Hive最终汇集结果的时候就会调用该方法。计算函数须要把状态做为一个值返回给用户。
4,部分汇集结果的数据类型和最终结果的数据类型能够不一样。