《Spark快速大数据分析》——读书笔记(5)

第五章 数据读取与保存 5.1 动机 动机:数据量比较大,单台机器没法完成。 三类常见的数据源:php 文件格式与文件系统。对于存储在本地文件系统或分布式文件系统(好比NFS、HDFS、Amazon S3等)中的数据,Spark能够访问不少种不一样的文件格式,包括文本文件、JSONSequenceFile以及protocal buffer。 Spark SQL中的结构化数据源。 数据库与键值存储。
相关文章
相关标签/搜索