spark external DataSource API (外部数据源)

1)  外部数据源产生的背景 每一个spark的app开始于加载数据结束于保存数据,那这个数据保存到哪里?可以是MySQL可以是Hive等等一些数据存储的地方。 用户想要的是方便快速从不同的数据源(json、parquet、rdbms),经过混合处理(json join parquet),再将处理结果以特定的格式(json、parquet)写回到指定的系统(HDFS、S3)上面去。 基于这样的需求
相关文章
相关标签/搜索