Hive自定义UDAF详解

时间 2019-12-06

原文原文链接

遇到一个Hive需求：有A、B、C三列，按A列进行聚合，求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成，可是比较繁琐，会解析成几个MR进行执行，若是自定义UDAF即可只利用一个MR完成任务。所用Hive为0.13.1版本。UDAF有两种，第一种是比较简单的形式，利用抽象类UDAF和UDAFEvaluator，暂不作讨论。主要说一下第二种形式，利用接口Gener