sparkSQL中UDF的使用

时间 2019-11-17

标签 sparksql udf 使用繁體版

原文原文链接

在spark中使用sql时一些功能须要自定义方法实现，这时候就能够使用UDF功能来实现sql

多参数支持

UDF不支持参数*的方式输入多个参数，例如String*，不过能够使用array来解决这个问题。apache

定义udf方法，此处功能是将多个字段合并为一个字段spa

def allInOne(seq: Seq[Any], sep: String): String = seq.mkString(sep)

在sql中使用code

sqlContext.udf.register("allInOne", allInOne _)

//将col1,col2,col3三个字段合并，使用','分割
val sql =
    """
      |select allInOne(array(col1,col2,col3),",") as col
      |from tableName
    """.stripMargin
sqlContext.sql(sql).show()

在DataFrame中使用ip

import org.apache.spark.sql.functions.{udf，array,lit}
val myFunc = udf(allInOne _)
val cols = array("col1","col2","col3")
val sep = lit(",")
df.select(myFunc(cols,sep).alias("col")).show()

一些简单的例子

1.个数统计

表结构以下，统计出每一个人的爱好个数get

name	hobbies
alice	jogging,Coding,cooking
lina	travel,dance

# 将某个字段中逗号分隔的数量统计出来
sqlContext.udf.register("hobby_num", (s: String) => s.split(',').size)
sqlContext.sql("select *,hobby_num(hobbies) as hobby_num from table")

结果it

name	hobbies	hobby_num
alice	read book,coding,cooking	3
lina	travel,dance	2

2.空值填补

表结构以下spark

A	B
null	123456
234234	234234

# 填补第一个字段的空值
sqlContext.udf.register("combine", (s1: String,s2: String)=> {if(s1 == null) s2 else s1})
sqlContext.sql("select combine(A,B) as A from table")

结果io

A
123456
234234

3. 类型转化

类型转化,将 String 转化为 Inttable

sqlContext.udf.register("str2Int", (s: String) => s.toInt)

或者直接使用cast

sqlContext.sql("select cast(a AS Int) from table")

4. 综合运用

原始数据，ID(用户名)，loginIP(账号登陆的ip地址)

ID	loginIP
alice	ip1
lina	ip2
sven	ip3
alice	ip1
sven	ip2
alice	ip4

计算每一个用户在哪些ip登陆过，并统计数量

ID	ip_list	loginIP_num
alice	ip1,ip4	2
lina	ip2	1
sven	ip2,ip3	2

//统计数量
sqlContext.udf.register("list_size", (s: String) => s.split(',').size)
val sql =
    """select ID,ip_list,list_size(ip_list) as loginIP_num
      |from (select ID,concat_ws(',',collect_set(loginIP)) as ip_list from table)
    """.stripMargin
sqlContext.sql(sql)

参考:

[Spark UDF with varargs](
http://stackoverflow.com/questions/33151866/spark-udf-with-varargs)

1. sparkSQL中UDF的使用
2. sparksql中UDF的使用
3. SparkSQL中的UDF
4. SparkSQL之UDF使用
5. sparkSql中udf的应用
6. SparkSQL UDF&&函数
7. SparkStreaming流式计算中使用SparkSQL,并结合HIVE的UDF、UDAF、UDTF的使用
8. SparkSQL UDF 两种方式：udf() 和 register()
9. Spark-sparksql-自定义udf
10. spark中udf使用
更多相关文章...
• 在Spring中使用Redis - Redis教程
• Redis中使用Lua语言 - Redis教程
• C# 中 foreach 遍历的用法
• Composer 安装与使用