sparksql udf自定义函数中参数过多问题的解决

时间 2019-12-05

标签 sparksql udf 自定义函数参数过多问题解决繁體版

原文原文链接

在进行spark sql数据库操做中，经常须要一些spark系统自己不支持的函数，如获取某一列值中的字符串。sql

如要获取　“aaaakkkkk”中的第4－第8个字符。数据库

针对这种需求，只有设置UDF来实现了。函数

如spa

val fun:((String,Int,Int) => String) = (args:String, k1:Int, k2:Int) => { args.substr(k1,k2)} 字符串

val sqlfunc = udf(fun)it

df.withColumn("column22", sqlfunc(col("column1"), 1,3)spark

这样就报错。数据

才发现这里面因为UDF的缘由，在任何函数中这个数字自己是不认的，所以须要加上lit()的命令才能够。top

df.withColumn("column22", sqlfunc(col("column1"), lit(1), lit(3))，只有这样才能够实现。
di

df.withColumn("column22", sqlfunc(col("column1"), 1,3)