PySpark学习笔记-数据读取与保存

1.常见的读取数据源python 文件格式和文件系统。对于存储在本地文件系统或分布式文件系统(好比HDFS)中的数据,Spark能够访问不少种不一样的文件格式。包括文本文件、JSON、SequenceFile、以及protocol buffer。 Spark SQL中的结构化数据源。 数据库和键值存储。Spark自带的库以及一些第三方库,能够用来链接HBase、JDBC源。 格式名称 结构化 备注
相关文章
相关标签/搜索