SparkSQL2.0扩展外部数据源原理(读取HDFS文件)

SparkSQL专门为读取HDFS上的文件开的外部数据源接口,spark-parquet、csv、json等都是这种方式。git DefaultSource 入口类,用来创建外部数据源链接,SparkSQL默认会找这个名字,不要改类名。基本全部接口都在这个类里github private[tsfile] class DefaultSource extends FileFormat with Dat
相关文章
相关标签/搜索