spark dataset 相同列名 join

时间 2019-11-06

标签 spark dataset 相同列名 join 栏目 Spark 繁體版

原文原文链接

具备部分相同、部分不一样列名的两个Dataset按照部分相同、部分不一样列相等进行join操做，有如下几种方式：sql

val df1 = Seq((1, 2, 3),(1, 1, 1)).toDF("a", "b", "c")
val df2 = Seq((1, 2, 4),(2, 2, 2)).toDF("a", "b1", "d")

df1.show
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  2|  3|
|  1|  1|  1|
+---+---+---+
df2.show
+---+---+---+
|  a| b1|  d|
+---+---+---+
|  1|  2|  4|
|  2|  2|  2|
+---+---+---+
//join条件：df1("a") == df2("a") && df1("b") == df2("b1") 

//如果直接join会报错：org.apache.spark.sql.AnalysisException: Reference 'a' is ambiguous, could be:...
df1.join(df2, col("a") === col("a") && col("b") === col("b1"), "outer").show
//能够改成这样：
df1.join(df2, df1("a") === df2("a") && col("b") === col("b1"), "outer").show
+----+----+----+----+----+----+
|   a|   b|   c|   a|  b1|   d|
+----+----+----+----+----+----+
|null|null|null|   2|   2|   2|
|   1|   2|   3|   1|   2|   4|
|   1|   1|   1|null|null|null|
+----+----+----+----+----+----+

//固然也能够将其中一个Dataset的列更名，改成都相同或都不一样，再用上面的方法join
df1.join(df2.withColumnRenamed("b1", "b"), Seq("a", "b"), "outer").show
+---+---+----+----+
|  a|  b|   c|   d|
+---+---+----+----+
|  2|  2|null|   2|
|  1|  2|   3|   4|
|  1|  1|   1|null|
+---+---+----+----+

//还能够用Dataset的as方法（与alias方法等效），给Dataset命名，而后消除歧义。（Dataset的别名相似SQL中表的别名）
df1.alias("df1")
    .join(df2.as("df2"), col("df1.a") === col("df2.a") && col("b") === col("b1"), "outer")
    .show
+----+----+----+----+----+----+
|   a|   b|   c|   a|  b1|   d|
+----+----+----+----+----+----+
|null|null|null|   2|   2|   2|
|   1|   2|   3|   1|   2|   4|
|   1|   1|   1|null|null|null|
+----+----+----+----+----+----+
//若是只想保留df2的a列：
val t = df1.alias("df1")
    .join(df2.as("df2"), col("df1.a") === col("df2.a") && col("b") === col("b1"), "outer")
    .drop(col("df1.a")).show
+----+----+----+----+----+
|   b|   c|   a|  b1|   d|
+----+----+----+----+----+
|null|null|   2|   2|   2|
|   2|   3|   1|   2|   4|
|   1|   1|null|null|null|
+----+----+----+----+----+

补充：
Dataset的as方法（与alias方法等效）：为Dataset对象起别名，Dataset的别名相似SQL中表的别名。apache

val df = Seq((1, 2),(1, 1)).toDF("a", "b")
df.select("a").show
+---+
|  a|
+---+
|  1|
|  1|
+---+

df.select("df.a").show
//报错：org.apache.spark.sql.AnalysisException: cannot resolve '`df.a`' given input columns: [a, b];

df.as("df").select("df.a").show
+---+
|  a|
+---+
|  1|
|  1|
+---+

1. Spark dataset api 列表 & 练习
2. Spark Dataset
3. Spark DataSet介绍
4. spark-dataset
5. Spark的Dataset操做
6. spark sql join
7. Spark DataFrame&DataSet
8. Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset
9. Spark：几种给Dataset增长列的方式、Dataset删除列、Dataset替换null列
10. spark使用DataSet
更多相关文章...
• SQLite Join - SQLite教程
• XML 相关技术 - XML 教程
• NewSQL-TiDB相关
• TiDB 在摩拜单车在线数据业务的应用和实践