spark external DataSource API (外部数据源)

时间 2021-01-06

原文原文链接

1) 外部数据源产生的背景每一个spark的app开始于加载数据结束于保存数据，那这个数据保存到哪里？可以是MySQL可以是Hive等等一些数据存储的地方。用户想要的是方便快速从不同的数据源（json、parquet、rdbms），经过混合处理（json join parquet），再将处理结果以特定的格式（json、parquet）写回到指定的系统（HDFS、S3）上面去。基于这样的需求