Hive UDAF开发详解

时间 2019-11-10

标签 hive udaf 开发详解栏目 Hadoop 繁體版

原文原文链接

说明

这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions：的不严格翻译，由于翻译的文章示例写得比较通俗易懂，此外，我把本身对于Hive的UDAF理解穿插到文章里面。html

udfa是Hive中用户自定义的汇集函数，hive内置UDAF函数包括有sum()与count（），UDAF实现有简单与通用两种方式，简单UDAF由于使用Java反射致使性能损失，并且有些特性不能使用，已经被弃用了；在这篇博文中咱们将关注Hive中自定义聚类函数-GenericUDAF，UDAF开发主要涉及到如下两个抽象类：java

[java] view plain copygit

org.apache.hadoop.hive.ql.udf.generic.AbstractGenericUDAFResolver github
org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator sql

源码连接

博文中的全部的代码和数据能够在如下连接找到：hive examples
shell

示例数据准备

首先先建立一张包含示例数据的表：people，该表只有name一列，该列中包含了一个或多个名字，该表数据保存在people.txt文件中。apache

[plain] view plain copyapi

~$ cat ./people.txt 跨域
John Smith app
John and Ann White
Ted Green
Dorothy

把该文件上载到hdfs目录/user/matthew/people中：

[plain] view plain copy

hadoop fs -mkdir people
hadoop fs -put ./people.txt people

下面要建立hive外部表，在hive shell中执行

[sql] view plain copy

CREATE EXTERNAL TABLE people (name string)
ROW FORMAT DELIMITED FIELDS
TERMINATED BY '\t'
ESCAPED BY ''
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/user/matthew/people';

实例

下面将讲述一个汇集函数UDAF的实例，咱们将计算people这张表中的name列字母的个数。

下面的函数代码是计算指定列中字符的总数（包括空格）

代码

[java] view plain copy

@Description(name = "letters", value = "_FUNC_(expr) - 返回该列中全部字符串的字符总数")
public class TotalNumOfLettersGenericUDAF extends AbstractGenericUDAFResolver {
@Override
public GenericUDAFEvaluator getEvaluator(TypeInfo[] parameters)
throws SemanticException {
if (parameters.length != 1) {
throw new UDFArgumentTypeException(parameters.length - 1,
"Exactly one argument is expected.");
}
ObjectInspector oi = TypeInfoUtils.getStandardJavaObjectInspectorFromTypeInfo(parameters[0]);
if (oi.getCategory() != ObjectInspector.Category.PRIMITIVE){
throw new UDFArgumentTypeException(0,
"Argument must be PRIMITIVE, but "
+ oi.getCategory().name()
+ " was passed.");
}
PrimitiveObjectInspector inputOI = (PrimitiveObjectInspector) oi;
if (inputOI.getPrimitiveCategory() != PrimitiveObjectInspector.PrimitiveCategory.STRING){
throw new UDFArgumentTypeException(0,
"Argument must be String, but "
+ inputOI.getPrimitiveCategory().name()
+ " was passed.");
}
return new TotalNumOfLettersEvaluator();
}
public static class TotalNumOfLettersEvaluator extends GenericUDAFEvaluator {
PrimitiveObjectInspector inputOI;
ObjectInspector outputOI;
PrimitiveObjectInspector integerOI;
int total = 0;
@Override
public ObjectInspector init(Mode m, ObjectInspector[] parameters)
throws HiveException {
assert (parameters.length == 1);
super.init(m, parameters);
//map阶段读取sql列，输入为String基础数据格式
if (m == Mode.PARTIAL1 || m == Mode.COMPLETE) {
inputOI = (PrimitiveObjectInspector) parameters[0];
} else {
//其他阶段，输入为Integer基础数据格式
integerOI = (PrimitiveObjectInspector) parameters[0];
}
// 指定各个阶段输出数据格式都为Integer类型
outputOI = ObjectInspectorFactory.getReflectionObjectInspector(Integer.class,
ObjectInspectorOptions.JAVA);
return outputOI;
}
/**
* 存储当前字符总数的类
*/
static class LetterSumAgg implements AggregationBuffer {
int sum = 0;
void add(int num){
sum += num;
}
}
@Override
public AggregationBuffer getNewAggregationBuffer() throws HiveException {
LetterSumAgg result = new LetterSumAgg();
return result;
}
@Override
public void reset(AggregationBuffer agg) throws HiveException {
LetterSumAgg myagg = new LetterSumAgg();
}
private boolean warned = false;
@Override
public void iterate(AggregationBuffer agg, Object[] parameters)
throws HiveException {
assert (parameters.length == 1);
if (parameters[0] != null) {
LetterSumAgg myagg = (LetterSumAgg) agg;
Object p1 = ((PrimitiveObjectInspector) inputOI).getPrimitiveJavaObject(parameters[0]);
myagg.add(String.valueOf(p1).length());
}
}
@Override
public Object terminatePartial(AggregationBuffer agg) throws HiveException {
LetterSumAgg myagg = (LetterSumAgg) agg;
total += myagg.sum;
return total;
}
@Override
public void merge(AggregationBuffer agg, Object partial)
throws HiveException {
if (partial != null) {
LetterSumAgg myagg1 = (LetterSumAgg) agg;
Integer partialSum = (Integer) integerOI.getPrimitiveJavaObject(partial);
LetterSumAgg myagg2 = new LetterSumAgg();
myagg2.add(partialSum);
myagg1.add(myagg2.sum);
}
}
@Override
public Object terminate(AggregationBuffer agg) throws HiveException {
LetterSumAgg myagg = (LetterSumAgg) agg;
total = myagg.sum;
return myagg.sum;
}
}
}

代码说明

这里有一些关于combiner的资源，Philippe Adjiman 讲得不错。

AggregationBuffer 容许咱们保存中间结果，经过定义咱们的buffer，咱们能够处理任何格式的数据，在代码例子中字符总数保存在AggregationBuffer 。

[java] view plain copy

/**
* 保存当前字符总数的类
*/
static class LetterSumAgg implements AggregationBuffer {
int sum = 0;
void add(int num){
sum += num;
}
}

这意味着UDAF在不一样的mapreduce阶段会接收到不一样的输入。Iterate读取咱们表中的一行（或者准确来讲是表），而后输出其余数据格式的汇集结果。

artialAggregation合并这些汇集结果到另外相同格式的新的汇集结果，而后最终的reducer取得这些汇集结果真后输出最终结果（该结果或许与接收数据的格式不一致）。

在init()方法中咱们指定输入为string，结果输出格式为integer，还有，部分汇集结果输出格式为integer（保存在aggregation buffer中）；terminate()与terminatePartial()二者输出一个integer。

[java] view plain copy

// init方法中根据不一样的mode指定输出数据的格式objectinspector
if (m == Mode.PARTIAL1 || m == Mode.COMPLETE) {
inputOI = (PrimitiveObjectInspector) parameters[0];
} else {
integerOI = (PrimitiveObjectInspector) parameters[0];
}
// 不一样model阶段的输出数据格式
outputOI = ObjectInspectorFactory.getReflectionObjectInspector(Integer.class,
ObjectInspectorOptions.JAVA);

iterate()函数读取到每行中列的字符串，计算与保存该字符串的长度

[java] view plain copy

public void iterate(AggregationBuffer agg, Object[] parameters)
throws HiveException {
...
Object p1 = ((PrimitiveObjectInspector) inputOI).getPrimitiveJavaObject(parameters[0]);
myagg.add(String.valueOf(p1).length());
}
}

Merge函数增长部分汇集总数到AggregationBuffer

[java] view plain copy

public void merge(AggregationBuffer agg, Object partial)
throws HiveException {
if (partial != null) {
LetterSumAgg myagg1 = (LetterSumAgg) agg;
Integer partialSum = (Integer) integerOI.getPrimitiveJavaObject(partial);
LetterSumAgg myagg2 = new LetterSumAgg();
myagg2.add(partialSum);
myagg1.add(myagg2.sum);
}
}

Terminate()函数返回AggregationBuffer中的内容，这里产生了最终结果。

[java] view plain copy

public Object terminate(AggregationBuffer agg) throws HiveException {
LetterSumAgg myagg = (LetterSumAgg) agg;
total = myagg.sum;
return myagg.sum;
}

使用自定义函数

[plain] view plain copy

ADD JAR ./hive-extension-examples-master/target/hive-extensions-1.0-SNAPSHOT-jar-with-dependencies.jar;
CREATE TEMPORARY FUNCTION letters as 'com.matthewrathbone.example.TotalNumOfLettersGenericUDAF';
SELECT letters(name) FROM people;
OK
44
Time taken: 20.688 seconds

1. Hive UDAF开发详解
2. hive udaf详解
3. hive UDAF详解
4. Hive 简单UDAF开发（extends UDAF）
5. Hive自定义UDAF详解
6. Hive UDAF开发--我的补充理解
7. hive udaf开发入门和运行过程详解
8. hive udaf开发入门和运行过程详解（2）
9. hive udaf
10. Hive-UDF&GenericUDF&Hive-UDTF&Hive-UDAF
更多相关文章...
• 免费ARP详解 - TCP/IP教程
• *.hbm.xml映射文件详解 - Hibernate教程
• PHP开发工具
• Flink 数据传输及反压详解

Hive UDAF开发详解

说明

源码连接

示例数据准备

相关抽象类介绍

`AbstractGenericUDAFResolver`

`GenericUDAFEvaluator`

ObjectInspector

Model

GenericUDAFEvaluator的方法

图解Model与Evaluator关系

实例

代码

代码说明

使用自定义函数