spark & 文件压缩

hdfs中存储的文件通常都是多副本存储,对文件进行压缩,不只能够节约大量空间,适当的存储格式还能对读取性能有很是大的提高。web 文本文件压缩 bzip2sql 压缩率最高,压缩解压速度较慢,支持split。apache import org.apache.hadoop.io.compress.BZip2Codec rdd.saveAsTextFile("codec/bzip2",classOf[
相关文章
相关标签/搜索