spark的优化-控制数据分区和分布

数据分区:sql 在分布式集群里,网络通讯的代价很大,减小网络传输能够极大提高性能。apache mapreduce框架的性能开支主要在io和网络传输,io由于要大量读写文件,它是不可避免的,可是网络传输是能够避免的,把大文件压缩变小文件,从而减小网络传输,可是增长了cpu的计算负载。缓存 spark里面io也是不可避免的,可是网络传输spark里面进行了优化:网络 spark把rdd进行分区(分
相关文章
相关标签/搜索