最全的Spark基础知识解答

​​一、选择Parquet + 优化Parquet   大数据领域中对数据的一次处理往往只针对一行数据中的若干列,因此列式存储是大数据领域中最常见的数据存储优化方式,而Parquet毫无疑问是其中最优秀的代表。   Parquet存储格式   Parquet以其独特的存储格式可以取得良好的数据压缩率和数据读取速度而广受青睐。Spark-2.0 特别针对Parquet做了优化,使其读取性能更上了一个
相关文章
相关标签/搜索