--driver-class-path mysql-connector-java-5.1.21.jar
在数据库中,SET GLOBAL binlog_format=mixed;java
一样使用—jars 才行mysql
https://www.jb51.net/article/163641.htmsql
https://my.oschina.net/albert2011/blog/754174数据库
使用jupyter-notebook --ip hostname -i
来启动express
spark.sql.hive.convertMetastoreOrc=trueapache
使用spark写入hive表中的数据,可能会出现空指针问题或者数据越界问题,问题缘由是spark的元数据解析问题,而不是hive的元数据解析问题测试
import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions.row_number import org.apache.spark.sql.functions._
1.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(col("f_modify_time").desc)))
2.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-col("f_modify_time"))))大数据
3.val df = spark.sql(sql)人工智能
df.withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-df("f_modify_time"))))spa
4.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-'f_modify_time)))
注意:-的方式,通过测试,不稳定,有时能够,有时不能够
sc.broadcast是广播数据,通常用于rdd广播,而下面的方式用于广播表
import org.apache.spark.sql.functions.broadcast
broadcast(tableData).createOrReplaceTempView
吴邪,小三爷,混迹于后台,大数据,人工智能领域的小菜鸟。
更多请关注